محققان google دیپمایند راهی نوآورانه برای بهرهگیری از دادههایی که پیشتر برای آموزش هوش مصنوعی مناسب تشخیص داده نمیشدند، یافتهاند.
محققان google دیپمایند روشی جدید برای استفاده از دادههای به ظاهر «ناامن» در آموزش هوش مصنوعی یافتهاند. این رویکرد میتواند مشکل کمبود داده را حل کند.
در دنیای هوش مصنوعی، مدلهای زبانی بزرگ نیازمند حجم عظیمی از دادههای آموزشی هستند که از صفحات وب، کتابها و سایر منابع جمعآوری میشوند. اما مشکل اینجاست که میزان دادههای متنی موجود که برای آموزش مدلهای هوش مصنوعی مناسب تلقی میشوند، با سرعتی بیشتر از تولید دادههای جدید در حال اتمام است.
با این حال، بخش قابل توجهی از دادهها به دلیل سمی، نادرست یا حاوی اطلاعات شخصی بودن، مورد استفاده قرار نمیگیرند. اما محققان گوگل دیپمایند راه حلی برای این مشکل پیدا کردهاند.

بر اساس مقالهای که اخیراً منتشر شده، گروهی از محققان گوگل دیپمایند ادعا میکنند که راهی برای پاکسازی این دادهها و استفاده از آنها برای آموزش پیدا کردهاند. آنها معتقدند که این روش میتواند ابزاری قدرتمند برای توسعه مدلهای پیشرفته باشد.
پالایش دادههای تولیدی (GDR) چیست؟
این ایده «پالایش دادههای تولیدی» (Generative Data Refinement) یا به اختصار GDR نام دارد. این روش از مدلهای تولیدی از پیش آموزشدیده برای بازنویسی دادههای غیرقابل استفاده استفاده میکند و به طور موثر آنها را تصفیه میکند تا بتوان با خیال راحت از آنها برای آموزش استفاده کرد. هنوز مشخص نیست که آیا این تکنیکی است که گوگل برای مدلهای جمنای خود استفاده میکند یا خیر.
مینکی جیانگ، یکی از محققان این مقاله که از آن زمان به متا پیوسته است، به بیزینس اینسایدر گفت که بسیاری از آزمایشگاههای هوش مصنوعی، دادههای آموزشی قابل استفاده را به دلیل مخلوط شدن با دادههای بد، کنار میگذارند. برای مثال، اگر سندی در وب وجود داشته باشد که حاوی اطلاعات غیرقابل استفاده مانند شماره تلفن شخصی یا یک واقعیت نادرست باشد، آزمایشگاهها اغلب کل سند را دور میاندازند. بر اساس گزارشی از بیزینس اینسایدر.
جیانگ میگوید:
«بنابراین شما اساساً تمام توکنهای داخل آن سند را از دست میدهید، حتی اگر فقط یک خط کوچک حاوی اطلاعات شناسایی شخصی باشد.»
توکنها واحدهای دادهای هستند که توسط هوش مصنوعی پردازش میشوند و کلمات را در متن تشکیل میدهند.
نحوه عملکرد GDR
نویسندگان مقاله مثالی از دادههای خام ارائه میدهند که شامل شماره تامین اجتماعی شخصی یا اطلاعاتی است که ممکن است به زودی منسوخ شود («مدیرعامل آینده…»). در این موارد، GDR اعداد را حذف یا جایگزین میکند، اطلاعاتی را که خطر منسوخ شدن دارند نادیده میگیرد و بقیه دادههای قابل استفاده را حفظ میکند.
این مقاله بیش از یک سال پیش نوشته شده و اخیراً منتشر شده است. سخنگوی گوگل دیپمایند به درخواست برای اظهار نظر در مورد اینکه آیا کار این محقق در مدلهای هوش مصنوعی این شرکت استفاده میشود یا خیر، پاسخی نداد.

اهمیت این یافتهها
یافتههای نویسندگان میتواند برای آزمایشگاهها مفید باشد، زیرا منبع دادههای قابل استفاده در حال خشک شدن است. آنها به یک مقاله تحقیقاتی از سال ۲۰۲۲ اشاره میکنند که پیشبینی کرده بود مدلهای هوش مصنوعی میتوانند تمام متنهای تولید شده توسط انسان را بین سالهای ۲۰۲۶ و ۲۰۳۲ جذب کنند. این پیشبینی بر اساس میزان دادههای وب فهرستشده، با استفاده از آمار Common Crawl، پروژهای که به طور مداوم صفحات وب را خراش میدهد و آنها را به طور آزاد برای استفاده آزمایشگاههای هوش مصنوعی در دسترس قرار میدهد، انجام شده است.
برای مقاله GDR، محققان یک اثبات مفهوم را با گرفتن بیش از یک میلیون خط کد و درخواست از متخصصان انسانی برای حاشیهنویسی خط به خط دادهها انجام دادند. سپس نتایج را با روش GDR مقایسه کردند.
جیانگ میگوید:
«این روش به طور کامل راهحلهای موجود در صنعت را که برای این نوع کار استفاده میشوند، در هم میشکند.»
GDR در مقابل دادههای مصنوعی
نویسندگان همچنین گفتند که روش آنها بهتر از استفاده از دادههای مصنوعی (دادههای تولید شده توسط مدلهای هوش مصنوعی به منظور آموزش خود یا سایر مدلها) است، که موضوعی مورد بررسی در میان آزمایشگاههای هوش مصنوعی بوده است. با این حال، استفاده از دادههای مصنوعی میتواند کیفیت خروجی مدل را کاهش دهد و در برخی موارد منجر به «فروپاشی مدل» شود.
نویسندگان دادههای GDR را با دادههای مصنوعی ایجاد شده توسط یک LLM مقایسه کردند و دریافتند که رویکرد آنها مجموعه داده بهتری برای آموزش مدلهای هوش مصنوعی ایجاد میکند.
برای مطالعه اخبار بیشتر اینجا کلیک کنید.

آنها همچنین گفتند که آزمایشهای بیشتری میتواند روی انواع پیچیده دیگر دادهها که به عنوان دادههای ممنوعه در نظر گرفته میشوند، مانند مواد دارای حق چاپ و دادههای شخصی که در چندین سند استنباط میشوند تا اینکه به صراحت بیان شوند، انجام شود.
جیانگ گفت که این مقاله مورد بررسی همتایان قرار نگرفته است و افزود که این امر در صنعت فناوری رایج است و همه مقالات به طور داخلی بررسی میشوند.
محققان فقط GDR را روی متن و کد آزمایش کردند. جیانگ گفت که میتوان آن را روی سایر روشها مانند ویدئو و صدا نیز آزمایش کرد. با این حال، با توجه به سرعتی که ویدئوهای جدید هر روز تولید میشوند، آنها همچنان منبع عظیمی از دادهها را برای آموزش هوش مصنوعی فراهم میکنند.
جیانگ میگوید:
«با ویدئو، شما فقط مقدار بیشتری از آن خواهید داشت، فقط به این دلیل که یک جریان ثابت از میلیونها ساعت ویدئو هر روز تولید میشود. بنابراین من فکر میکنم، با عبور از روشهای جدید فراتر از متن، ویدئو و تصاویر، دادههای بسیار بیشتری را باز خواهیم کرد.»
نظر شما در مورد این مطلب چیه؟