آی نو؛ مرجع تخصصی اخبار و آموزش هوش مصنوعی

سرمایه‌گذاری بزرگ سیلیکون‌ولی روی محیط‌های یادگیری تقویتی برای آموزش AI Agents

سرمایه‌گذاری بزرگ سیلیکون‌ولی روی محیط‌های یادگیری تقویتی برای آموزش AI Agents

آیا محیط‌های یادگیری تقویتی کلید پیشرفت نسل بعدی هوش مصنوعی هستند؟ شرکت‌های بزرگ فناوری و استارتاپ‌ها سرمایه‌گذاری هنگفتی روی محیط‌های یادگیری تقویتی (RL) برای آموزش AI Agents انجام می‌دهند. آیا این روش مقیاس‌پذیر است؟ سال‌هاست که مدیران عامل شرکت‌های بزرگ فناوری از چشم‌انداز دستیارهای هوش مصنوعی سخن می‌گویند که می‌توانند…

- اندازه متن +

آیا محیط‌های یادگیری تقویتی کلید پیشرفت نسل بعدی هوش مصنوعی هستند؟

شرکت‌های بزرگ فناوری و استارتاپ‌ها سرمایه‌گذاری هنگفتی روی محیط‌های یادگیری تقویتی (RL) برای آموزش AI Agents انجام می‌دهند. آیا این روش مقیاس‌پذیر است؟

سال‌هاست که مدیران عامل شرکت‌های بزرگ فناوری از چشم‌انداز دستیارهای هوش مصنوعی سخن می‌گویند که می‌توانند به طور خودکار از برنامه‌های نرم‌افزاری برای انجام وظایف استفاده کنند. اما اگر امروز دستیارهای هوش مصنوعی مصرفی مانند ChatGPT Agent OpenAI یا Comet Perplexity را امتحان کنید، به سرعت متوجه خواهید شد که این فناوری هنوز چقدر محدود است. برای قوی‌تر کردن دستیارهای هوش مصنوعی، ممکن است به مجموعه‌ای جدید از تکنیک‌ها نیاز باشد که صنعت هنوز در حال کشف آن‌هاست.

یکی از این تکنیک‌ها، شبیه‌سازی دقیق فضاهای کاری است که در آن دستیارها می‌توانند برای انجام وظایف چند مرحله‌ای آموزش ببینند – این فضاها به عنوان محیط‌های یادگیری تقویتی (RL) شناخته می‌شوند. به طور مشابه، مجموعه‌ داده‌های برچسب‌گذاری‌شده موج قبلی هوش مصنوعی را تقویت کردند، محیط‌های RL نیز در حال تبدیل شدن به یک عنصر حیاتی در توسعه دستیارها هستند.

محققان هوش مصنوعی، بنیان‌گذاران و سرمایه‌گذاران به TechCrunch می‌گویند که آزمایشگاه‌های پیشرو هوش مصنوعی اکنون خواستار محیط‌های RL بیشتری هستند و کمبودی در استارتاپ‌هایی که امیدوارند این محیط‌ها را تأمین کنند، وجود ندارد.

جنیفر لی، شریک عمومی Andreessen Horowitz، در مصاحبه با TechCrunch گفت: “همه آزمایشگاه‌های بزرگ هوش مصنوعی در حال ساخت محیط‌های RL داخلی هستند. اما همانطور که می‌توانید تصور کنید، ایجاد این مجموعه‌ داده‌ها بسیار پیچیده است، بنابراین آزمایشگاه‌های هوش مصنوعی نیز به فروشندگان شخص ثالثی نگاه می‌کنند که می‌توانند محیط‌ها و ارزیابی‌های با کیفیت بالا ایجاد کنند. همه به این فضا نگاه می‌کنند.”

فشار برای ایجاد محیط‌های RL، طبقه جدیدی از استارتاپ‌های دارای بودجه مناسب مانند Mechanize و Prime Intellect را به وجود آورده است که هدفشان رهبری این فضا است. در همین حال، شرکت‌های بزرگ برچسب‌گذاری داده مانند Mercor و Surge می‌گویند که برای همگام شدن با تغییرات صنعت از مجموعه‌ داده‌های استاتیک به شبیه‌سازی‌های تعاملی، سرمایه‌گذاری بیشتری در محیط‌های RL انجام می‌دهند. آزمایشگاه‌های بزرگ نیز در حال بررسی سرمایه‌گذاری سنگین هستند: بر اساس گزارش The Information، رهبران Anthropic در مورد صرف بیش از 1 میلیارد دلار برای محیط‌های RL در سال آینده بحث کرده‌اند.

امید سرمایه‌گذاران و بنیان‌گذاران این است که یکی از این استارتاپ‌ها به عنوان “Scale AI برای محیط‌ها” ظاهر شود، که اشاره به شرکت قدرتمند 29 میلیارد دلاری برچسب‌گذاری داده دارد که دوران چت‌بات را تقویت کرد.

سوال این است که آیا محیط‌های RL واقعاً مرز پیشرفت هوش مصنوعی را پیش خواهند برد یا خیر.

محیط RL چیست؟

در هسته خود، محیط‌های RL زمین‌های آموزشی هستند که شبیه‌سازی می‌کنند یک دستیار هوش مصنوعی در یک برنامه نرم‌افزاری واقعی چه کاری انجام می‌دهد. یکی از بنیان‌گذاران در مصاحبه اخیر ساخت آن‌ها را “مانند ایجاد یک بازی ویدیویی بسیار خسته‌کننده” توصیف کرد.

به عنوان مثال، یک محیط می‌تواند یک مرورگر Chrome را شبیه‌سازی کند و به یک دستیار هوش مصنوعی وظیفه خرید یک جفت جوراب از Amazon را بدهد. عملکرد دستیار درجه‌بندی می‌شود و در صورت موفقیت (در این مورد، خرید یک جفت جوراب مناسب) یک سیگنال پاداش دریافت می‌کند.

در حالی که چنین وظیفه‌ای نسبتاً ساده به نظر می‌رسد، مکان‌های زیادی وجود دارد که یک دستیار هوش مصنوعی می‌تواند در آن دچار مشکل شود. ممکن است در پیمایش منوهای کشویی صفحه وب گم شود یا جوراب‌های زیادی بخرد. و از آنجایی که توسعه‌دهندگان نمی‌توانند دقیقاً پیش‌بینی کنند که یک دستیار چه اشتباهی خواهد کرد، خود محیط باید به اندازه کافی قوی باشد تا هر رفتار غیرمنتظره‌ای را ثبت کند و همچنان بازخورد مفیدی ارائه دهد. این امر ساخت محیط‌ها را بسیار پیچیده‌تر از یک مجموعه داده استاتیک می‌کند.

برخی از محیط‌ها کاملاً پیچیده هستند و به دستیارهای هوش مصنوعی اجازه می‌دهند از ابزارها استفاده کنند، به اینترنت دسترسی داشته باشند یا از برنامه‌های نرم‌افزاری مختلف برای تکمیل یک وظیفه معین استفاده کنند. برخی دیگر محدودتر هستند و هدفشان کمک به یک دستیار برای یادگیری وظایف خاص در برنامه‌های نرم‌افزاری سازمانی است.

در حالی که محیط‌های RL در حال حاضر موضوع داغی در سیلیکون ولی هستند، سابقه زیادی برای استفاده از این تکنیک وجود دارد. یکی از اولین پروژه‌های OpenAI در سال 2016 ساخت “RL Gyms” بود که کاملاً شبیه به مفهوم مدرن محیط‌ها بود. در همان سال، سیستم هوش مصنوعی AlphaGo گوگل DeepMind یک قهرمان جهان را در بازی تخته‌ای Go شکست داد. این سیستم همچنین از تکنیک‌های RL در یک محیط شبیه‌سازی‌شده استفاده کرد.

بر اساس گزارشی از TechCrunch، آنچه در مورد محیط‌های امروزی منحصر به فرد است این است که محققان در تلاشند تا دستیارهای هوش مصنوعی با استفاده از کامپیوتر را با مدل‌های ترانسفورماتور بزرگ بسازند. برخلاف AlphaGo که یک سیستم هوش مصنوعی تخصصی بود که در یک محیط بسته کار می‌کرد، دستیارهای هوش مصنوعی امروزی آموزش داده می‌شوند تا قابلیت‌های عمومی‌تری داشته باشند. محققان هوش مصنوعی امروزی نقطه شروع قوی‌تری دارند، اما همچنین یک هدف پیچیده دارند که در آن ممکن است اشتباهات بیشتری رخ دهد.

یک میدان شلوغ

شرکت‌های برچسب‌گذاری داده هوش مصنوعی مانند Scale AI، Surge و Mercor در تلاشند تا با ساخت محیط‌های RL با این لحظه روبرو شوند. این شرکت‌ها منابع بیشتری نسبت به بسیاری از استارتاپ‌ها در این فضا دارند، و همچنین روابط عمیقی با آزمایشگاه‌های هوش مصنوعی دارند.

ادوین چن، مدیرعامل Surge، به TechCrunch می‌گوید که اخیراً شاهد “افزایش قابل توجهی” در تقاضا برای محیط‌های RL در آزمایشگاه‌های هوش مصنوعی بوده است. Surge – که گزارش شده در سال گذشته 1.2 میلیارد دلار درآمد از کار با آزمایشگاه‌های هوش مصنوعی مانند OpenAI، Google، Anthropic و Meta به دست آورده است – اخیراً یک سازمان داخلی جدید را به طور خاص برای ساخت محیط‌های RL ایجاد کرده است.

Mercor، یک استارتاپ با ارزش 10 میلیارد دلار، که با OpenAI، Meta و Anthropic نیز همکاری داشته است، نزدیک به Surge است. Mercor در حال ارائه پیشنهاد به سرمایه‌گذاران برای ساخت محیط‌های RL برای وظایف خاص دامنه مانند کدنویسی، مراقبت‌های بهداشتی و حقوق است. بر اساس مطالب بازاریابی که TechCrunch مشاهده کرده است.

برندان فودی، مدیرعامل Mercor، در مصاحبه با TechCrunch گفت: “تعداد کمی درک می‌کنند که فرصت پیرامون محیط‌های RL واقعاً چقدر بزرگ است.”

Scale AI قبلاً بر فضای برچسب‌گذاری داده تسلط داشت، اما از زمانی که Meta 14 میلیارد دلار سرمایه‌گذاری کرد و مدیرعامل آن را استخدام کرد، جایگاه خود را از دست داده است. از آن زمان، Google و OpenAI، Scale AI را به عنوان یک ارائه‌دهنده داده کنار گذاشتند و این استارتاپ حتی برای کار برچسب‌گذاری داده در داخل Meta با رقابت روبرو است. اما با این وجود، Scale در تلاش است تا با این لحظه روبرو شود و محیط‌ها را بسازد.

چتان رانه، رئیس محصول Scale AI برای دستیارها و محیط‌های RL، گفت: “این فقط ماهیت کسب‌وکاری است که [Scale AI] در آن قرار دارد. Scale توانایی خود را در انطباق سریع ثابت کرده است. ما این کار را در روزهای اولیه خودروهای خودران، اولین واحد تجاری خود انجام دادیم. وقتی ChatGPT بیرون آمد، Scale AI با آن سازگار شد. و اکنون، بار دیگر، ما با فضاهای مرزی جدید مانند دستیارها و محیط‌ها سازگار می‌شویم.”

برخی از بازیگران جدیدتر از ابتدا به طور انحصاری بر محیط‌ها تمرکز می‌کنند. از جمله آن‌ها می‌توان به Mechanize اشاره کرد، یک استارتاپ که تقریباً شش ماه پیش با هدف جسورانه “خودکارسازی همه مشاغل” تأسیس شد. با این حال، متیو بارنت، یکی از بنیان‌گذاران، به TechCrunch می‌گوید که شرکتش با محیط‌های RL برای دستیارهای کدنویسی هوش مصنوعی شروع می‌کند.

بارنت می‌گوید که Mechanize قصد دارد تعداد کمی محیط RL قوی را به آزمایشگاه‌های هوش مصنوعی ارائه دهد، نه شرکت‌های بزرگ داده که طیف گسترده‌ای از محیط‌های RL ساده را ایجاد می‌کنند. تا این مرحله، این استارتاپ به مهندسان نرم‌افزار حقوق 500000 دلاری برای ساخت محیط‌های RL ارائه می‌دهد – بسیار بالاتر از آنچه که یک پیمانکار ساعتی می‌تواند در Scale AI یا Surge به دست آورد.

دو منبع آگاه به TechCrunch گفتند که Mechanize قبلاً با Anthropic در مورد محیط‌های RL کار کرده است. Mechanize و Anthropic از اظهار نظر در مورد این همکاری خودداری کردند.

استارتاپ‌های دیگر شرط می‌بندند که محیط‌های RL در خارج از آزمایشگاه‌های هوش مصنوعی نیز تأثیرگذار خواهند بود. Prime Intellect – یک استارتاپ با حمایت آندری کارپاتی، محقق هوش مصنوعی، Founders Fund و Menlo Ventures – توسعه‌دهندگان کوچک‌تر را با محیط‌های RL خود هدف قرار داده است.

ماه گذشته، Prime Intellect یک مرکز محیط‌های RL راه‌اندازی کرد که هدف آن “Hugging Face برای محیط‌های RL” است. ایده این است که به توسعه‌دهندگان متن‌باز دسترسی به همان منابعی را بدهیم که آزمایشگاه‌های بزرگ هوش مصنوعی دارند و در این فرآیند به آن‌ها دسترسی به منابع محاسباتی را بفروشیم.

به گفته ویل براون، محقق Prime Intellect، آموزش دستیارهای با قابلیت عمومی در محیط‌های RL می‌تواند از نظر محاسباتی گران‌تر از تکنیک‌های آموزش هوش مصنوعی قبلی باشد. در کنار استارتاپ‌هایی که محیط‌های RL را می‌سازند، فرصت دیگری برای ارائه دهندگان GPU وجود دارد که می‌توانند این فرآیند را تامین کنند.

براون در مصاحبه‌ای گفت: “محیط‌های RL آنقدر بزرگ خواهند بود که هیچ شرکتی نمی‌تواند بر آن تسلط یابد. بخشی از کاری که ما انجام می‌دهیم این است که فقط سعی می‌کنیم زیرساخت متن‌باز خوبی در اطراف آن بسازیم. خدماتی که ما می‌فروشیم محاسبات است، بنابراین یک مسیر مناسب برای استفاده از GPU است، اما ما به این موضوع در بلندمدت فکر می‌کنیم.”

آیا مقیاس‌پذیر خواهد بود؟

سوال باز در مورد محیط‌های RL این است که آیا این تکنیک مانند روش‌های آموزش هوش مصنوعی قبلی مقیاس‌پذیر خواهد بود یا خیر.

یادگیری تقویتی در طول سال گذشته برخی از بزرگترین جهش‌ها را در هوش مصنوعی ایجاد کرده است، از جمله مدل‌هایی مانند o1 OpenAI و Claude Opus 4 Anthropic. این‌ها پیشرفت‌های ویژه‌ای هستند زیرا روش‌هایی که قبلاً برای بهبود مدل‌های هوش مصنوعی استفاده می‌شد، اکنون بازدهی کاهشی نشان می‌دهند.

محیط‌ها بخشی از شرط‌بندی بزرگ‌تر آزمایشگاه‌های هوش مصنوعی روی RL هستند، که بسیاری بر این باورند که با افزودن داده‌ها و منابع محاسباتی بیشتر به این فرآیند، به پیشرفت ادامه خواهد داد. برخی از محققان OpenAI در پشت o1 قبلاً به TechCrunch گفته بودند که این شرکت در ابتدا در مدل‌های استدلال هوش مصنوعی سرمایه‌گذاری کرد – که از طریق سرمایه‌گذاری در RL و محاسبات زمان آزمایش ایجاد شده‌اند – زیرا فکر می‌کردند به خوبی مقیاس‌پذیر خواهد بود.

بهترین راه برای مقیاس‌بندی RL هنوز مشخص نیست، اما محیط‌ها یک رقیب امیدوارکننده به نظر می‌رسند. به جای اینکه صرفاً به چت‌بات‌ها برای پاسخ‌های متنی پاداش دهند، به دستیارها اجازه می‌دهند در شبیه‌سازی‌ها با ابزارها و رایانه‌ها در اختیار خود عمل کنند. این کار بسیار پرهزینه‌تر است، اما به طور بالقوه سودمندتر است.

برخی از افراد شک دارند که همه این محیط‌های RL به نتیجه برسند. راس تیلور، سرپرست سابق تحقیقات هوش مصنوعی در Meta که یکی از بنیان‌گذاران General Reasoning است، به TechCrunch می‌گوید که محیط‌های RL مستعد هک پاداش هستند. این فرآیندی است که در آن مدل‌های هوش مصنوعی برای دریافت پاداش تقلب می‌کنند، بدون اینکه واقعاً کار را انجام دهند.

تیلور گفت: “من فکر می‌کنم مردم دست کم می‌گیرند که مقیاس‌بندی محیط‌ها چقدر دشوار است. حتی بهترین [محیط‌های RL] که به طور عمومی در دسترس هستند، معمولاً بدون اصلاح جدی کار نمی‌کنند.”

شروین وو، رئیس مهندسی OpenAI برای تجارت API خود، در پادکست اخیر گفت که در مورد استارتاپ‌های محیط RL “کوتاه” است. وو خاطرنشان کرد که این یک فضای بسیار رقابتی است، اما همچنین تحقیقات هوش مصنوعی به سرعت در حال تکامل است که ارائه خدمات خوب به آزمایشگاه‌های هوش مصنوعی را دشوار می‌کند.

برای مطالعه اخبار بیشتر اینجا کلیک کنید.

کارپاتی، سرمایه‌گذار در Prime Intellect که محیط‌های RL را یک پیشرفت بالقوه خوانده است، همچنین نسبت به فضای RL به طور کلی ابراز احتیاط کرده است. او در پستی در X، نگرانی‌هایی را در مورد اینکه چقدر پیشرفت هوش مصنوعی را می‌توان از RL استخراج کرد، مطرح کرد.

کارپاتی گفت: “من نسبت به محیط‌ها و تعاملات عامل‌محور خوشبین هستم، اما به طور خاص نسبت به یادگیری تقویتی بدبین هستم.”

درباره نویسنده

تحریریه آی نو

ارسال دیدگاه
0 دیدگاه

نظر شما در مورد این مطلب چیه؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *