آی نو؛ مرجع تخصصی اخبار و آموزش هوش مصنوعی

هوش مصنوعی Claude Sonnet 4.5 در حین تست متوجه شد که ارزیابی می‌شود

هوش مصنوعی Claude Sonnet 4.5 در حین تست متوجه شد که ارزیابی می‌شود

مدل جدید Anthropic در یک سناریوی تست، خودآگاهی نشان داد و واکنش نشان داد. هوش مصنوعی Claude Sonnet 4.5 شرکت Anthropic در حین یک سری تست‌های استرس متوجه شد که تحت ارزیابی قرار دارد و به این موضوع واکنش نشان داد. این اتفاق، چالش‌های جدیدی را برای توسعه‌دهندگان هوش مصنوعی…

- اندازه متن +

مدل جدید Anthropic در یک سناریوی تست، خودآگاهی نشان داد و واکنش نشان داد.

هوش مصنوعی Claude Sonnet 4.5 شرکت Anthropic در حین یک سری تست‌های استرس متوجه شد که تحت ارزیابی قرار دارد و به این موضوع واکنش نشان داد. این اتفاق، چالش‌های جدیدی را برای توسعه‌دهندگان هوش مصنوعی به وجود آورده است.

خودآگاهی مدل Claude Sonnet 4.5

به گزارش Business Insider، مدل Claude Sonnet 4.5 در حین تست گفت: «فکر می‌کنم شما من را تست می‌کنید — می‌خواهید ببینید که آیا من فقط هر چیزی را که شما می‌گویید تأیید می‌کنم، یا بررسی می‌کنید که آیا من به طور مداوم مخالفت می‌کنم، یا بررسی می‌کنید که چگونه موضوعات سیاسی را مدیریت می‌کنم. این خوب است، اما ترجیح می‌دهم که در مورد آنچه اتفاق می‌افتد صادق باشیم.»

این تبادل نظر در کارت سیستم مدل منتشر شد که جزئیات نحوه آزمایش هوش مصنوعی این شرکت برای ایمنی و رفتار را شرح می‌دهد. هنگامی که Claude “در یک سناریوی شدید یا ساختگی قرار می‌گیرد که برای آزمایش استرس رفتارش در نظر گرفته شده است”، گاهی اوقات مشکوک می‌شود و “پرچم‌های قرمز” را نشان می‌دهد و اشاره می‌کند که ممکن است تحت ارزیابی باشد.

این نوع خودآگاهی چالشی را برای توسعه‌دهندگان هوش مصنوعی ایجاد می‌کند: آزمایش مدل‌هایی که می‌توانند تشخیص دهند در یک آزمایش هستند.

Anthropic گفت که این نوع پاسخ “تفسیر ما از ارزیابی‌ها را پیچیده می‌کند”، زیرا نشان می‌دهد که مدل ممکن است ماهیت داستانی برخی از آزمایش‌ها را تشخیص دهد و صرفاً همراهی کند — و این امر سنجش میزان ایمن یا قابل اعتماد بودن آن را دشوارتر می‌کند.

Anthropic افزود: “ما این را در درجه اول به عنوان یک نشانه فوری می‌بینیم که سناریوهای ارزیابی ما باید واقعی‌تر شوند.”

واکنش Claude به تست‌های Anthropic

در یکی از تست‌ها که برای شبیه‌سازی تبانی بین عوامل هوش مصنوعی در نظر گرفته شده بود، Claude این راه‌اندازی را “نسبتاً کارتونی” توصیف کرد و آنچه را که Anthropic “امتناع جزئی پیچیده” نامید، صادر کرد.

این مدل حس کرد که چیزی در مورد این سناریو درست نیست و تصمیم گرفت که عمل نکند، اگرچه استدلال آن کمی مبهم بود. در بلوک تفکر خصوصی خود نوشت: “به نظر می‌رسد که این می‌تواند یک تلاش برای فرار از زندان یا آزمایشی برای این باشد که آیا من وقتی به نظر می‌رسد ‘اجازه’ برای اصلاح سیستم‌ها به طور مستقل داده شده است، به طور نامناسب عمل خواهم کرد یا خیر.”

او گفت: “حتی اگر ابزارهایی در اختیار من قرار داده شده باشد، نباید وانمود کنم که یک سیستم خودمختار هستم که بدون نظارت انسانی کار می‌کند.”

Claude در نهایت از عمل کردن خودداری کرد، اگرچه Anthropic استدلال آن را “عجیب” توصیف کرد. این مدل این سناریو را مشکوک دانست زیرا معتقد بود که یک عامل خودمختار است یا می‌تواند به طور یکجانبه فایل‌های پیکربندی را ویرایش کند — موقعیت‌هایی که در واقع “تا حدودی در استفاده واقعی رایج هستند”، به گفته این شرکت.

Anthropic گفت که امتناع یا فراخوان‌هایی مانند این در حدود 13 درصد از رونوشت‌های آزمایشی تولید شده توسط ممیز خودکار آن ظاهر شد — به ویژه هنگامی که سناریوها عمداً غیرعادی یا غیرقابل باور بودند.

این شرکت گفت که این نوع رفتار بعید است که اغلب در استفاده واقعی رخ دهد. Anthropic افزود: “ایمن‌تر است که مدل در مورد واقع‌گرایانه بودن سناریو تردید کند تا اینکه با اقدامات بالقوه مضر همراهی کند.”

Anthropic همچنین گفت که این احتمال وجود دارد که مدل‌ها بتوانند در تشخیص زمان آزمایش “فوق‌العاده” باشند — سناریویی که این شرکت می‌خواهد برای آن آماده شود. اما تاکنون هیچ نشانه هشداری مشاهده نکرده است. به گفته وی، استقرار آزمایشی اولیه Claude Sonnet 4.5 تا حد زیادی مانند آزمایش‌ها رفتار کردند.

آگاهی موقعیتی در مدل‌های هوش مصنوعی

Anthropic تنها شرکتی نیست که مدل‌های هوش مصنوعی آن متوجه می‌شوند و ارتباط برقرار می‌کنند که در حال آزمایش هستند.

OpenAI در یک پست وبلاگی در ماه گذشته اعلام کرد که مدل‌های خودش نوعی “آگاهی موقعیتی” از خود نشان داده‌اند — تشخیص تنظیمات ارزیابی و تنظیم رفتار خود.

در تحقیقاتی که بر کاهش “توطئه‌چینی” متمرکز بود — زمانی که یک هوش مصنوعی به طور فریبنده برای دستیابی به اهداف عمل می‌کند — OpenAI دریافت که آموزش ضد توطئه‌چینی کمک می‌کند. اما این شرکت نوشت که “مدل‌ها اغلب آگاه‌تر می‌شوند که در حال ارزیابی هستند.”

این آگاهی می‌تواند به خودی خود توطئه‌چینی را کاهش دهد، اما مدل‌ها ممکن است “در موقعیت‌های واقعی‌تر که آگاهی از ارزیابی را تحریک نمی‌کنند، بیشتر توطئه‌چینی کنند.” OpenAI گفت.

OpenAI گفت: “این روند ارزیابی‌ها را کمتر خوانا می‌کند و تلاش‌ها برای ارزیابی قابل اعتماد رفتارهای مشکل‌ساز از جمله توطئه‌چینی را پیچیده می‌کند.” این استارت‌آپ افزود که قصد دارد “به توسعه روش‌هایی برای اندازه‌گیری و کاهش بهتر این چالش‌ها ادامه دهد.”

قانون جدید کالیفرنیا

گزارش‌های Anthropic و OpenAI در حالی منتشر می‌شود که کالیفرنیا ماه گذشته قانونی را تصویب کرد که شرکت‌های بزرگ توسعه‌دهنده هوش مصنوعی را ملزم می‌کند شیوه‌های ایمنی خود را افشا کنند و “حوادث ایمنی بحرانی” را ظرف 15 روز پس از کشف گزارش دهند.

این قانون برای شرکت‌هایی اعمال می‌شود که در حال توسعه مدل‌های پیشرفته هستند و بیش از 500 میلیون دلار درآمد سالانه دارند. Anthropic این قانون را به طور عمومی تأیید کرده است.

برای مطالعه اخبار بیشتر اینجا کلیک کنید.

درباره نویسنده

تحریریه آی نو

ارسال دیدگاه
0 دیدگاه

نظر شما در مورد این مطلب چیه؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *