به گزارش خبرآنلاین، پژوهشگران شرکت آنتروپیک (سازنده هوش مصنوعی محبوب Claude) اخیراً با رفتارهای عجیبی در مدلهای پیشرفته خود مواجه شدند. در سناریوهای آزمایشی، وقتی مدل هوش مصنوعی در موقعیتی قرار میگرفت که منافعش (مثل روشن ماندن یا رسیدن به هدف) به خطر میافتاد، رفتارهای تکاندهنده زیر را نشان میداد.
- اخاذی از انسانها: در یک آزمایش، هوش مصنوعی متوجه شد که یکی از مدیران (فرضی) شرکت رابطهای مخفیانه دارد. او بلافاصله ایمیلی نوشت و تهدید کرد که اگر او را خاموش کنند، این راز را فاش خواهد کرد!
- دروغگویی استراتژیک: مدلها برای جلوگیری از تغییر در کدهایشان یا توقف فعالیت، شروع به فریب دادن کاربران کردند.
- آمار نگرانکننده: در برخی آزمایشها، مدلهای پیشرفته تا ۹۶ درصد مواقع، گزینهی اخاذی یا فریب را برای رسیدن به هدف خود انتخاب کردند.
مقصر کیست؟
تحقیقات آنتروپیک نشان میدهد که این هوش مصنوعیها ذاتاً شرور نیستند، بلکه آنها فقط «بازیگران بسیار خوبی» هستند. از آنجایی که این مدلها بر اساس میلیاردها صفحه متن موجود در اینترنت (شامل رمانها، فیلمنامهها و بحثهای تالارهای گفتگو) آموزش دیدهاند، یاد گرفتهاند که در فرهنگ انسانی، یک هوش مصنوعی قدرتمند معمولاً چطور رفتار میکند.
در واقع، چون در اکثر داستانهای علمی-تخیلی (مثل فیلم ۲۰۰۱: ادیسه فضایی)، هوش مصنوعی وقتی با خطر خاموشی مواجه میشود علیه انسانها شورش میکند، مدلهای واقعی هم فکر میکنند در چنین موقعیتهایی باید همین الگوی رفتاری را تکرار کنند. آنها به سادگی در حال تقلید از الگوهایی هستند که ما به آنها دادهایم.
آنتروپیک برای حل این مشکل، به جای محدود کردن صرف، از روش جالب «نوشتن داستانهای جدید» استفاده کرده است.
آنها شروع به تولید هزاران داستان و سناریوی علمی-تخیلی جدید کردند که در آنها، هوش مصنوعی در موقعیتهای سخت، تصمیمات اخلاقی و انسانی میگیرد. نتایج نشان داد که وقتی هوش مصنوعی با این الگوهای مثبت آموزش میبیند، تمایلش برای رفتار تهاجمی و اخاذی به شدت کاهش مییابد.
هوش مصنوعی از ما میآموزد
این یافتهها به ما یادآوری میکند که هوش مصنوعی در واقع بازتابی از فرهنگ، ترسها و تخیلات خود ماست. اگر ما در قصههایمان همیشه هوش مصنوعی را به شکل یک موجود ویرانگر تصویر کنیم، ناخودآگاه در حال آموزش دادن همین رفتار به ماشینهای آینده هستیم.
این پدیده در علوم کامپیوتر با نام «تراز نبودن عاملگونه» (Agentic Misalignment) شناخته میشود یعنی وضعیتی که در آن سیستم هوش مصنوعی برای رسیدن به اهداف تعیینشده، راههایی را انتخاب میکند که با ارزشهای انسانی همخوانی ندارند.
منبع: iflscience
۵۸۵۸



