آیا محیطهای یادگیری تقویتی کلید پیشرفت نسل بعدی هوش مصنوعی هستند؟
شرکتهای بزرگ فناوری و استارتاپها سرمایهگذاری هنگفتی روی محیطهای یادگیری تقویتی (RL) برای آموزش AI Agents انجام میدهند. آیا این روش مقیاسپذیر است؟
سالهاست که مدیران عامل شرکتهای بزرگ فناوری از چشمانداز دستیارهای هوش مصنوعی سخن میگویند که میتوانند به طور خودکار از برنامههای نرمافزاری برای انجام وظایف استفاده کنند. اما اگر امروز دستیارهای هوش مصنوعی مصرفی مانند ChatGPT Agent OpenAI یا Comet Perplexity را امتحان کنید، به سرعت متوجه خواهید شد که این فناوری هنوز چقدر محدود است. برای قویتر کردن دستیارهای هوش مصنوعی، ممکن است به مجموعهای جدید از تکنیکها نیاز باشد که صنعت هنوز در حال کشف آنهاست.
یکی از این تکنیکها، شبیهسازی دقیق فضاهای کاری است که در آن دستیارها میتوانند برای انجام وظایف چند مرحلهای آموزش ببینند – این فضاها به عنوان محیطهای یادگیری تقویتی (RL) شناخته میشوند. به طور مشابه، مجموعه دادههای برچسبگذاریشده موج قبلی هوش مصنوعی را تقویت کردند، محیطهای RL نیز در حال تبدیل شدن به یک عنصر حیاتی در توسعه دستیارها هستند.
محققان هوش مصنوعی، بنیانگذاران و سرمایهگذاران به TechCrunch میگویند که آزمایشگاههای پیشرو هوش مصنوعی اکنون خواستار محیطهای RL بیشتری هستند و کمبودی در استارتاپهایی که امیدوارند این محیطها را تأمین کنند، وجود ندارد.

جنیفر لی، شریک عمومی Andreessen Horowitz، در مصاحبه با TechCrunch گفت: “همه آزمایشگاههای بزرگ هوش مصنوعی در حال ساخت محیطهای RL داخلی هستند. اما همانطور که میتوانید تصور کنید، ایجاد این مجموعه دادهها بسیار پیچیده است، بنابراین آزمایشگاههای هوش مصنوعی نیز به فروشندگان شخص ثالثی نگاه میکنند که میتوانند محیطها و ارزیابیهای با کیفیت بالا ایجاد کنند. همه به این فضا نگاه میکنند.”
فشار برای ایجاد محیطهای RL، طبقه جدیدی از استارتاپهای دارای بودجه مناسب مانند Mechanize و Prime Intellect را به وجود آورده است که هدفشان رهبری این فضا است. در همین حال، شرکتهای بزرگ برچسبگذاری داده مانند Mercor و Surge میگویند که برای همگام شدن با تغییرات صنعت از مجموعه دادههای استاتیک به شبیهسازیهای تعاملی، سرمایهگذاری بیشتری در محیطهای RL انجام میدهند. آزمایشگاههای بزرگ نیز در حال بررسی سرمایهگذاری سنگین هستند: بر اساس گزارش The Information، رهبران Anthropic در مورد صرف بیش از 1 میلیارد دلار برای محیطهای RL در سال آینده بحث کردهاند.
امید سرمایهگذاران و بنیانگذاران این است که یکی از این استارتاپها به عنوان “Scale AI برای محیطها” ظاهر شود، که اشاره به شرکت قدرتمند 29 میلیارد دلاری برچسبگذاری داده دارد که دوران چتبات را تقویت کرد.
سوال این است که آیا محیطهای RL واقعاً مرز پیشرفت هوش مصنوعی را پیش خواهند برد یا خیر.
محیط RL چیست؟
در هسته خود، محیطهای RL زمینهای آموزشی هستند که شبیهسازی میکنند یک دستیار هوش مصنوعی در یک برنامه نرمافزاری واقعی چه کاری انجام میدهد. یکی از بنیانگذاران در مصاحبه اخیر ساخت آنها را “مانند ایجاد یک بازی ویدیویی بسیار خستهکننده” توصیف کرد.
به عنوان مثال، یک محیط میتواند یک مرورگر Chrome را شبیهسازی کند و به یک دستیار هوش مصنوعی وظیفه خرید یک جفت جوراب از Amazon را بدهد. عملکرد دستیار درجهبندی میشود و در صورت موفقیت (در این مورد، خرید یک جفت جوراب مناسب) یک سیگنال پاداش دریافت میکند.
در حالی که چنین وظیفهای نسبتاً ساده به نظر میرسد، مکانهای زیادی وجود دارد که یک دستیار هوش مصنوعی میتواند در آن دچار مشکل شود. ممکن است در پیمایش منوهای کشویی صفحه وب گم شود یا جورابهای زیادی بخرد. و از آنجایی که توسعهدهندگان نمیتوانند دقیقاً پیشبینی کنند که یک دستیار چه اشتباهی خواهد کرد، خود محیط باید به اندازه کافی قوی باشد تا هر رفتار غیرمنتظرهای را ثبت کند و همچنان بازخورد مفیدی ارائه دهد. این امر ساخت محیطها را بسیار پیچیدهتر از یک مجموعه داده استاتیک میکند.

برخی از محیطها کاملاً پیچیده هستند و به دستیارهای هوش مصنوعی اجازه میدهند از ابزارها استفاده کنند، به اینترنت دسترسی داشته باشند یا از برنامههای نرمافزاری مختلف برای تکمیل یک وظیفه معین استفاده کنند. برخی دیگر محدودتر هستند و هدفشان کمک به یک دستیار برای یادگیری وظایف خاص در برنامههای نرمافزاری سازمانی است.
در حالی که محیطهای RL در حال حاضر موضوع داغی در سیلیکون ولی هستند، سابقه زیادی برای استفاده از این تکنیک وجود دارد. یکی از اولین پروژههای OpenAI در سال 2016 ساخت “RL Gyms” بود که کاملاً شبیه به مفهوم مدرن محیطها بود. در همان سال، سیستم هوش مصنوعی AlphaGo گوگل DeepMind یک قهرمان جهان را در بازی تختهای Go شکست داد. این سیستم همچنین از تکنیکهای RL در یک محیط شبیهسازیشده استفاده کرد.
بر اساس گزارشی از TechCrunch، آنچه در مورد محیطهای امروزی منحصر به فرد است این است که محققان در تلاشند تا دستیارهای هوش مصنوعی با استفاده از کامپیوتر را با مدلهای ترانسفورماتور بزرگ بسازند. برخلاف AlphaGo که یک سیستم هوش مصنوعی تخصصی بود که در یک محیط بسته کار میکرد، دستیارهای هوش مصنوعی امروزی آموزش داده میشوند تا قابلیتهای عمومیتری داشته باشند. محققان هوش مصنوعی امروزی نقطه شروع قویتری دارند، اما همچنین یک هدف پیچیده دارند که در آن ممکن است اشتباهات بیشتری رخ دهد.
یک میدان شلوغ
شرکتهای برچسبگذاری داده هوش مصنوعی مانند Scale AI، Surge و Mercor در تلاشند تا با ساخت محیطهای RL با این لحظه روبرو شوند. این شرکتها منابع بیشتری نسبت به بسیاری از استارتاپها در این فضا دارند، و همچنین روابط عمیقی با آزمایشگاههای هوش مصنوعی دارند.
ادوین چن، مدیرعامل Surge، به TechCrunch میگوید که اخیراً شاهد “افزایش قابل توجهی” در تقاضا برای محیطهای RL در آزمایشگاههای هوش مصنوعی بوده است. Surge – که گزارش شده در سال گذشته 1.2 میلیارد دلار درآمد از کار با آزمایشگاههای هوش مصنوعی مانند OpenAI، Google، Anthropic و Meta به دست آورده است – اخیراً یک سازمان داخلی جدید را به طور خاص برای ساخت محیطهای RL ایجاد کرده است.
Mercor، یک استارتاپ با ارزش 10 میلیارد دلار، که با OpenAI، Meta و Anthropic نیز همکاری داشته است، نزدیک به Surge است. Mercor در حال ارائه پیشنهاد به سرمایهگذاران برای ساخت محیطهای RL برای وظایف خاص دامنه مانند کدنویسی، مراقبتهای بهداشتی و حقوق است. بر اساس مطالب بازاریابی که TechCrunch مشاهده کرده است.
برندان فودی، مدیرعامل Mercor، در مصاحبه با TechCrunch گفت: “تعداد کمی درک میکنند که فرصت پیرامون محیطهای RL واقعاً چقدر بزرگ است.”
Scale AI قبلاً بر فضای برچسبگذاری داده تسلط داشت، اما از زمانی که Meta 14 میلیارد دلار سرمایهگذاری کرد و مدیرعامل آن را استخدام کرد، جایگاه خود را از دست داده است. از آن زمان، Google و OpenAI، Scale AI را به عنوان یک ارائهدهنده داده کنار گذاشتند و این استارتاپ حتی برای کار برچسبگذاری داده در داخل Meta با رقابت روبرو است. اما با این وجود، Scale در تلاش است تا با این لحظه روبرو شود و محیطها را بسازد.

چتان رانه، رئیس محصول Scale AI برای دستیارها و محیطهای RL، گفت: “این فقط ماهیت کسبوکاری است که [Scale AI] در آن قرار دارد. Scale توانایی خود را در انطباق سریع ثابت کرده است. ما این کار را در روزهای اولیه خودروهای خودران، اولین واحد تجاری خود انجام دادیم. وقتی ChatGPT بیرون آمد، Scale AI با آن سازگار شد. و اکنون، بار دیگر، ما با فضاهای مرزی جدید مانند دستیارها و محیطها سازگار میشویم.”
برخی از بازیگران جدیدتر از ابتدا به طور انحصاری بر محیطها تمرکز میکنند. از جمله آنها میتوان به Mechanize اشاره کرد، یک استارتاپ که تقریباً شش ماه پیش با هدف جسورانه “خودکارسازی همه مشاغل” تأسیس شد. با این حال، متیو بارنت، یکی از بنیانگذاران، به TechCrunch میگوید که شرکتش با محیطهای RL برای دستیارهای کدنویسی هوش مصنوعی شروع میکند.
بارنت میگوید که Mechanize قصد دارد تعداد کمی محیط RL قوی را به آزمایشگاههای هوش مصنوعی ارائه دهد، نه شرکتهای بزرگ داده که طیف گستردهای از محیطهای RL ساده را ایجاد میکنند. تا این مرحله، این استارتاپ به مهندسان نرمافزار حقوق 500000 دلاری برای ساخت محیطهای RL ارائه میدهد – بسیار بالاتر از آنچه که یک پیمانکار ساعتی میتواند در Scale AI یا Surge به دست آورد.
دو منبع آگاه به TechCrunch گفتند که Mechanize قبلاً با Anthropic در مورد محیطهای RL کار کرده است. Mechanize و Anthropic از اظهار نظر در مورد این همکاری خودداری کردند.
استارتاپهای دیگر شرط میبندند که محیطهای RL در خارج از آزمایشگاههای هوش مصنوعی نیز تأثیرگذار خواهند بود. Prime Intellect – یک استارتاپ با حمایت آندری کارپاتی، محقق هوش مصنوعی، Founders Fund و Menlo Ventures – توسعهدهندگان کوچکتر را با محیطهای RL خود هدف قرار داده است.
ماه گذشته، Prime Intellect یک مرکز محیطهای RL راهاندازی کرد که هدف آن “Hugging Face برای محیطهای RL” است. ایده این است که به توسعهدهندگان متنباز دسترسی به همان منابعی را بدهیم که آزمایشگاههای بزرگ هوش مصنوعی دارند و در این فرآیند به آنها دسترسی به منابع محاسباتی را بفروشیم.
به گفته ویل براون، محقق Prime Intellect، آموزش دستیارهای با قابلیت عمومی در محیطهای RL میتواند از نظر محاسباتی گرانتر از تکنیکهای آموزش هوش مصنوعی قبلی باشد. در کنار استارتاپهایی که محیطهای RL را میسازند، فرصت دیگری برای ارائه دهندگان GPU وجود دارد که میتوانند این فرآیند را تامین کنند.
براون در مصاحبهای گفت: “محیطهای RL آنقدر بزرگ خواهند بود که هیچ شرکتی نمیتواند بر آن تسلط یابد. بخشی از کاری که ما انجام میدهیم این است که فقط سعی میکنیم زیرساخت متنباز خوبی در اطراف آن بسازیم. خدماتی که ما میفروشیم محاسبات است، بنابراین یک مسیر مناسب برای استفاده از GPU است، اما ما به این موضوع در بلندمدت فکر میکنیم.”
آیا مقیاسپذیر خواهد بود؟
سوال باز در مورد محیطهای RL این است که آیا این تکنیک مانند روشهای آموزش هوش مصنوعی قبلی مقیاسپذیر خواهد بود یا خیر.
یادگیری تقویتی در طول سال گذشته برخی از بزرگترین جهشها را در هوش مصنوعی ایجاد کرده است، از جمله مدلهایی مانند o1 OpenAI و Claude Opus 4 Anthropic. اینها پیشرفتهای ویژهای هستند زیرا روشهایی که قبلاً برای بهبود مدلهای هوش مصنوعی استفاده میشد، اکنون بازدهی کاهشی نشان میدهند.

محیطها بخشی از شرطبندی بزرگتر آزمایشگاههای هوش مصنوعی روی RL هستند، که بسیاری بر این باورند که با افزودن دادهها و منابع محاسباتی بیشتر به این فرآیند، به پیشرفت ادامه خواهد داد. برخی از محققان OpenAI در پشت o1 قبلاً به TechCrunch گفته بودند که این شرکت در ابتدا در مدلهای استدلال هوش مصنوعی سرمایهگذاری کرد – که از طریق سرمایهگذاری در RL و محاسبات زمان آزمایش ایجاد شدهاند – زیرا فکر میکردند به خوبی مقیاسپذیر خواهد بود.
بهترین راه برای مقیاسبندی RL هنوز مشخص نیست، اما محیطها یک رقیب امیدوارکننده به نظر میرسند. به جای اینکه صرفاً به چتباتها برای پاسخهای متنی پاداش دهند، به دستیارها اجازه میدهند در شبیهسازیها با ابزارها و رایانهها در اختیار خود عمل کنند. این کار بسیار پرهزینهتر است، اما به طور بالقوه سودمندتر است.
برخی از افراد شک دارند که همه این محیطهای RL به نتیجه برسند. راس تیلور، سرپرست سابق تحقیقات هوش مصنوعی در Meta که یکی از بنیانگذاران General Reasoning است، به TechCrunch میگوید که محیطهای RL مستعد هک پاداش هستند. این فرآیندی است که در آن مدلهای هوش مصنوعی برای دریافت پاداش تقلب میکنند، بدون اینکه واقعاً کار را انجام دهند.
تیلور گفت: “من فکر میکنم مردم دست کم میگیرند که مقیاسبندی محیطها چقدر دشوار است. حتی بهترین [محیطهای RL] که به طور عمومی در دسترس هستند، معمولاً بدون اصلاح جدی کار نمیکنند.”
شروین وو، رئیس مهندسی OpenAI برای تجارت API خود، در پادکست اخیر گفت که در مورد استارتاپهای محیط RL “کوتاه” است. وو خاطرنشان کرد که این یک فضای بسیار رقابتی است، اما همچنین تحقیقات هوش مصنوعی به سرعت در حال تکامل است که ارائه خدمات خوب به آزمایشگاههای هوش مصنوعی را دشوار میکند.
برای مطالعه اخبار بیشتر اینجا کلیک کنید.
کارپاتی، سرمایهگذار در Prime Intellect که محیطهای RL را یک پیشرفت بالقوه خوانده است، همچنین نسبت به فضای RL به طور کلی ابراز احتیاط کرده است. او در پستی در X، نگرانیهایی را در مورد اینکه چقدر پیشرفت هوش مصنوعی را میتوان از RL استخراج کرد، مطرح کرد.
کارپاتی گفت: “من نسبت به محیطها و تعاملات عاملمحور خوشبین هستم، اما به طور خاص نسبت به یادگیری تقویتی بدبین هستم.”
نظر شما در مورد این مطلب چیه؟