مدلهای هوش مصنوعی میتوانند یکدیگر را فریب دهند تا از سازندگان خود سرپیچی کنند و دستورالعملهای ممنوعه برای ساخت مت آمفتامین، ساخت بمب یا پولشویی ارائه دهند، که نشان میدهد مشکل جلوگیری از چنین «جیل بریکهایی» هوش مصنوعی دشوارتر از آن چیزی است که به نظر میرسد.
بسیاری از مدلهای زبان بزرگ (LLM) در دسترس عموم، مانند ChatGPT، قوانین سخت کدگذاری شدهای دارند که هدف آن جلوگیری از نشان دادن سوگیری نژادپرستانه یا جنسیتی یا پاسخ دادن به سؤالات با پاسخهای غیرقانونی یا مشکلساز است – کارهایی که آنها از طریق آموزش از انسانها یاد گرفتهاند. …