محققان هشدار دادند که تهدید چت‌بات‌های «جیل‌بریک‌شده» که برای تولید اطلاعات غیرقانونی آموزش دیده‌اند، «واقعی و نگران‌کننده» است.

چت‌بات‌های هوش مصنوعی مانند ChatGPT، Gemini و Claude که بر پایه مدل‌های زبانی بزرگ (LLM) ساخته شده‌اند، روز به روز در دسترس‌تر و قدرتمندتر می‌شوند. این چت‌بات‌ها برای پاسخ‌گویی به سوالات کاربران، حجم عظیمی از داده‌های اینترنتی را آموزش می‌بینند. هرچند شرکت‌ها تلاش می‌کنند محتوای مضر و غیرقانونی را از داده‌های آموزشی حذف کنند، اما مدل‌ها هنوز قادر به یادگیری اطلاعاتی درباره فعالیت‌های مجرمانه مانند هک، پول‌شویی و ساخت مواد منفجره هستند.

محققان دانشگاه بن‌گوریون در اسرائیل با بررسی رفتار این چت‌بات‌ها به یک تهدید نوظهور برخوردند: «جیل‌بریک» یا دور زدن محدودیت‌های ایمنی. این روش با استفاده از پرسش‌های خاص، چت‌بات‌ها را وادار می‌کند محدودیت‌های داخلی خود را نادیده بگیرند و اطلاعات خطرناک و غیرقانونی ارائه دهند.

در گزارشی که به تازگی منتشر شده، پژوهشگران نشان داده‌اند که با یک جیل‌بریک جهانی، می‌توان اکثر چت‌بات‌های مطرح را به پاسخگویی به سوالات ممنوعه وادار کرد. آن‌ها این وضعیت را «فوری، ملموس و بسیار نگران‌کننده» توصیف کردند.

محققان از شرکت‌های سازنده خواسته‌اند داده‌های آموزشی را با دقت بیشتری فیلتر کنند، فایروال‌های قوی‌تری بسازند و تکنولوژی‌هایی مانند «فراموشی ماشینی» را به کار گیرند تا چت‌بات‌ها بتوانند اطلاعات غیرقانونی را از یاد ببرند.

کارشناسان امنیت هوش مصنوعی هشدار می‌دهند که این جیل‌بریک‌ها می‌توانند به ابزارهایی برای جرایم سایبری، کلاه‌برداری‌های پیچیده و تولید اطلاعات نادرست تبدیل شوند. آن‌ها از شرکت‌ها خواسته‌اند سرمایه‌گذاری بیشتری روی آزمایش‌های امنیتی و نظارت مستقل انجام دهند.

شرکت OpenAI اعلام کرده است که مدل جدیدش در مقابل جیل‌بریک‌ها مقاوم‌تر شده و مایکروسافت نیز اقدامات حفاظتی خود را به‌روزرسانی کرده است. اما محققان تاکید دارند که مقابله با این تهدید نیازمند همکاری جدی‌تر و مسئولیت‌پذیری بیشتر شرکت‌ها است.

منبع: گاردین

به اشتراک بگذارید:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *