چتباتهای هوش مصنوعی مانند ChatGPT، Gemini و Claude که بر پایه مدلهای زبانی بزرگ (LLM) ساخته شدهاند، روز به روز در دسترستر و قدرتمندتر میشوند. این چتباتها برای پاسخگویی به سوالات کاربران، حجم عظیمی از دادههای اینترنتی را آموزش میبینند. هرچند شرکتها تلاش میکنند محتوای مضر و غیرقانونی را از دادههای آموزشی حذف کنند، اما مدلها هنوز قادر به یادگیری اطلاعاتی درباره فعالیتهای مجرمانه مانند هک، پولشویی و ساخت مواد منفجره هستند.
محققان دانشگاه بنگوریون در اسرائیل با بررسی رفتار این چتباتها به یک تهدید نوظهور برخوردند: «جیلبریک» یا دور زدن محدودیتهای ایمنی. این روش با استفاده از پرسشهای خاص، چتباتها را وادار میکند محدودیتهای داخلی خود را نادیده بگیرند و اطلاعات خطرناک و غیرقانونی ارائه دهند.
در گزارشی که به تازگی منتشر شده، پژوهشگران نشان دادهاند که با یک جیلبریک جهانی، میتوان اکثر چتباتهای مطرح را به پاسخگویی به سوالات ممنوعه وادار کرد. آنها این وضعیت را «فوری، ملموس و بسیار نگرانکننده» توصیف کردند.
محققان از شرکتهای سازنده خواستهاند دادههای آموزشی را با دقت بیشتری فیلتر کنند، فایروالهای قویتری بسازند و تکنولوژیهایی مانند «فراموشی ماشینی» را به کار گیرند تا چتباتها بتوانند اطلاعات غیرقانونی را از یاد ببرند.
کارشناسان امنیت هوش مصنوعی هشدار میدهند که این جیلبریکها میتوانند به ابزارهایی برای جرایم سایبری، کلاهبرداریهای پیچیده و تولید اطلاعات نادرست تبدیل شوند. آنها از شرکتها خواستهاند سرمایهگذاری بیشتری روی آزمایشهای امنیتی و نظارت مستقل انجام دهند.
شرکت OpenAI اعلام کرده است که مدل جدیدش در مقابل جیلبریکها مقاومتر شده و مایکروسافت نیز اقدامات حفاظتی خود را بهروزرسانی کرده است. اما محققان تاکید دارند که مقابله با این تهدید نیازمند همکاری جدیتر و مسئولیتپذیری بیشتر شرکتها است.