هوش مصنوعی ها می توانند یکدیگر را فریب دهند تا کارهایی را که قرار نیست انجام دهند

ما به طور کامل نمی دانیم که مدل های زبان بزرگ چگونه کار می کنند

جیمی جین / شاتر استوک

مدل‌های هوش مصنوعی می‌توانند یکدیگر را فریب دهند تا از سازندگان خود سرپیچی کنند و دستورالعمل‌های ممنوعه برای ساخت مت آمفتامین، ساخت بمب یا پولشویی ارائه دهند، که نشان می‌دهد مشکل جلوگیری از چنین «جیل بریک‌هایی» هوش مصنوعی دشوارتر از آن چیزی است که به نظر می‌رسد.

بسیاری از مدل‌های زبان بزرگ (LLM) در دسترس عموم، مانند ChatGPT، قوانین سخت کدگذاری شده‌ای دارند که هدف آن جلوگیری از نشان دادن سوگیری نژادپرستانه یا جنسیتی یا پاسخ دادن به سؤالات با پاسخ‌های غیرقانونی یا مشکل‌ساز است – کارهایی که آنها از طریق آموزش از انسان‌ها یاد گرفته‌اند. …