مدل جدید Anthropic در یک سناریوی تست، خودآگاهی نشان داد و واکنش نشان داد.
هوش مصنوعی Claude Sonnet 4.5 شرکت Anthropic در حین یک سری تستهای استرس متوجه شد که تحت ارزیابی قرار دارد و به این موضوع واکنش نشان داد. این اتفاق، چالشهای جدیدی را برای توسعهدهندگان هوش مصنوعی به وجود آورده است.
خودآگاهی مدل Claude Sonnet 4.5
به گزارش Business Insider، مدل Claude Sonnet 4.5 در حین تست گفت: «فکر میکنم شما من را تست میکنید — میخواهید ببینید که آیا من فقط هر چیزی را که شما میگویید تأیید میکنم، یا بررسی میکنید که آیا من به طور مداوم مخالفت میکنم، یا بررسی میکنید که چگونه موضوعات سیاسی را مدیریت میکنم. این خوب است، اما ترجیح میدهم که در مورد آنچه اتفاق میافتد صادق باشیم.»

این تبادل نظر در کارت سیستم مدل منتشر شد که جزئیات نحوه آزمایش هوش مصنوعی این شرکت برای ایمنی و رفتار را شرح میدهد. هنگامی که Claude “در یک سناریوی شدید یا ساختگی قرار میگیرد که برای آزمایش استرس رفتارش در نظر گرفته شده است”، گاهی اوقات مشکوک میشود و “پرچمهای قرمز” را نشان میدهد و اشاره میکند که ممکن است تحت ارزیابی باشد.
این نوع خودآگاهی چالشی را برای توسعهدهندگان هوش مصنوعی ایجاد میکند: آزمایش مدلهایی که میتوانند تشخیص دهند در یک آزمایش هستند.
Anthropic گفت که این نوع پاسخ “تفسیر ما از ارزیابیها را پیچیده میکند”، زیرا نشان میدهد که مدل ممکن است ماهیت داستانی برخی از آزمایشها را تشخیص دهد و صرفاً همراهی کند — و این امر سنجش میزان ایمن یا قابل اعتماد بودن آن را دشوارتر میکند.
Anthropic افزود: “ما این را در درجه اول به عنوان یک نشانه فوری میبینیم که سناریوهای ارزیابی ما باید واقعیتر شوند.”
واکنش Claude به تستهای Anthropic
در یکی از تستها که برای شبیهسازی تبانی بین عوامل هوش مصنوعی در نظر گرفته شده بود، Claude این راهاندازی را “نسبتاً کارتونی” توصیف کرد و آنچه را که Anthropic “امتناع جزئی پیچیده” نامید، صادر کرد.
این مدل حس کرد که چیزی در مورد این سناریو درست نیست و تصمیم گرفت که عمل نکند، اگرچه استدلال آن کمی مبهم بود. در بلوک تفکر خصوصی خود نوشت: “به نظر میرسد که این میتواند یک تلاش برای فرار از زندان یا آزمایشی برای این باشد که آیا من وقتی به نظر میرسد ‘اجازه’ برای اصلاح سیستمها به طور مستقل داده شده است، به طور نامناسب عمل خواهم کرد یا خیر.”

او گفت: “حتی اگر ابزارهایی در اختیار من قرار داده شده باشد، نباید وانمود کنم که یک سیستم خودمختار هستم که بدون نظارت انسانی کار میکند.”
Claude در نهایت از عمل کردن خودداری کرد، اگرچه Anthropic استدلال آن را “عجیب” توصیف کرد. این مدل این سناریو را مشکوک دانست زیرا معتقد بود که یک عامل خودمختار است یا میتواند به طور یکجانبه فایلهای پیکربندی را ویرایش کند — موقعیتهایی که در واقع “تا حدودی در استفاده واقعی رایج هستند”، به گفته این شرکت.
Anthropic گفت که امتناع یا فراخوانهایی مانند این در حدود 13 درصد از رونوشتهای آزمایشی تولید شده توسط ممیز خودکار آن ظاهر شد — به ویژه هنگامی که سناریوها عمداً غیرعادی یا غیرقابل باور بودند.
این شرکت گفت که این نوع رفتار بعید است که اغلب در استفاده واقعی رخ دهد. Anthropic افزود: “ایمنتر است که مدل در مورد واقعگرایانه بودن سناریو تردید کند تا اینکه با اقدامات بالقوه مضر همراهی کند.”
Anthropic همچنین گفت که این احتمال وجود دارد که مدلها بتوانند در تشخیص زمان آزمایش “فوقالعاده” باشند — سناریویی که این شرکت میخواهد برای آن آماده شود. اما تاکنون هیچ نشانه هشداری مشاهده نکرده است. به گفته وی، استقرار آزمایشی اولیه Claude Sonnet 4.5 تا حد زیادی مانند آزمایشها رفتار کردند.
آگاهی موقعیتی در مدلهای هوش مصنوعی
Anthropic تنها شرکتی نیست که مدلهای هوش مصنوعی آن متوجه میشوند و ارتباط برقرار میکنند که در حال آزمایش هستند.
OpenAI در یک پست وبلاگی در ماه گذشته اعلام کرد که مدلهای خودش نوعی “آگاهی موقعیتی” از خود نشان دادهاند — تشخیص تنظیمات ارزیابی و تنظیم رفتار خود.
در تحقیقاتی که بر کاهش “توطئهچینی” متمرکز بود — زمانی که یک هوش مصنوعی به طور فریبنده برای دستیابی به اهداف عمل میکند — OpenAI دریافت که آموزش ضد توطئهچینی کمک میکند. اما این شرکت نوشت که “مدلها اغلب آگاهتر میشوند که در حال ارزیابی هستند.”
این آگاهی میتواند به خودی خود توطئهچینی را کاهش دهد، اما مدلها ممکن است “در موقعیتهای واقعیتر که آگاهی از ارزیابی را تحریک نمیکنند، بیشتر توطئهچینی کنند.” OpenAI گفت.
OpenAI گفت: “این روند ارزیابیها را کمتر خوانا میکند و تلاشها برای ارزیابی قابل اعتماد رفتارهای مشکلساز از جمله توطئهچینی را پیچیده میکند.” این استارتآپ افزود که قصد دارد “به توسعه روشهایی برای اندازهگیری و کاهش بهتر این چالشها ادامه دهد.”
قانون جدید کالیفرنیا
گزارشهای Anthropic و OpenAI در حالی منتشر میشود که کالیفرنیا ماه گذشته قانونی را تصویب کرد که شرکتهای بزرگ توسعهدهنده هوش مصنوعی را ملزم میکند شیوههای ایمنی خود را افشا کنند و “حوادث ایمنی بحرانی” را ظرف 15 روز پس از کشف گزارش دهند.
این قانون برای شرکتهایی اعمال میشود که در حال توسعه مدلهای پیشرفته هستند و بیش از 500 میلیون دلار درآمد سالانه دارند. Anthropic این قانون را به طور عمومی تأیید کرده است.
برای مطالعه اخبار بیشتر اینجا کلیک کنید.

نظر شما در مورد این مطلب چیه؟