آی نو؛ مرجع تخصصی اخبار و آموزش هوش مصنوعی

روش جدید google برای استفاده از داده‌های «ناامن» در آموزش هوش مصنوعی

روش جدید google برای استفاده از داده‌های «ناامن» در آموزش هوش مصنوعی

محققان google دیپ‌مایند راهی نوآورانه برای بهره‌گیری از داده‌هایی که پیش‌تر برای آموزش هوش مصنوعی مناسب تشخیص داده نمی‌شدند، یافته‌اند. محققان google دیپ‌مایند روشی جدید برای استفاده از داده‌های به ظاهر «ناامن» در آموزش هوش مصنوعی یافته‌اند. این رویکرد می‌تواند مشکل کمبود داده را حل کند. در دنیای هوش مصنوعی،…

- اندازه متن +

محققان google دیپ‌مایند راهی نوآورانه برای بهره‌گیری از داده‌هایی که پیش‌تر برای آموزش هوش مصنوعی مناسب تشخیص داده نمی‌شدند، یافته‌اند.

محققان google دیپ‌مایند روشی جدید برای استفاده از داده‌های به ظاهر «ناامن» در آموزش هوش مصنوعی یافته‌اند. این رویکرد می‌تواند مشکل کمبود داده را حل کند.

در دنیای هوش مصنوعی، مدل‌های زبانی بزرگ نیازمند حجم عظیمی از داده‌های آموزشی هستند که از صفحات وب، کتاب‌ها و سایر منابع جمع‌آوری می‌شوند. اما مشکل اینجاست که میزان داده‌های متنی موجود که برای آموزش مدل‌های هوش مصنوعی مناسب تلقی می‌شوند، با سرعتی بیشتر از تولید داده‌های جدید در حال اتمام است.

با این حال، بخش قابل توجهی از داده‌ها به دلیل سمی، نادرست یا حاوی اطلاعات شخصی بودن، مورد استفاده قرار نمی‌گیرند. اما محققان گوگل دیپ‌مایند راه حلی برای این مشکل پیدا کرده‌اند.

بر اساس مقاله‌ای که اخیراً منتشر شده، گروهی از محققان گوگل دیپ‌مایند ادعا می‌کنند که راهی برای پاکسازی این داده‌ها و استفاده از آنها برای آموزش پیدا کرده‌اند. آنها معتقدند که این روش می‌تواند ابزاری قدرتمند برای توسعه مدل‌های پیشرفته باشد.

پالایش داده‌های تولیدی (GDR) چیست؟

این ایده «پالایش داده‌های تولیدی» (Generative Data Refinement) یا به اختصار GDR نام دارد. این روش از مدل‌های تولیدی از پیش آموزش‌دیده برای بازنویسی داده‌های غیرقابل استفاده استفاده می‌کند و به طور موثر آنها را تصفیه می‌کند تا بتوان با خیال راحت از آنها برای آموزش استفاده کرد. هنوز مشخص نیست که آیا این تکنیکی است که گوگل برای مدل‌های جمنای خود استفاده می‌کند یا خیر.

مینکی جیانگ، یکی از محققان این مقاله که از آن زمان به متا پیوسته است، به بیزینس اینسایدر گفت که بسیاری از آزمایشگاه‌های هوش مصنوعی، داده‌های آموزشی قابل استفاده را به دلیل مخلوط شدن با داده‌های بد، کنار می‌گذارند. برای مثال، اگر سندی در وب وجود داشته باشد که حاوی اطلاعات غیرقابل استفاده مانند شماره تلفن شخصی یا یک واقعیت نادرست باشد، آزمایشگاه‌ها اغلب کل سند را دور می‌اندازند. بر اساس گزارشی از بیزینس اینسایدر.

جیانگ می‌گوید:

«بنابراین شما اساساً تمام توکن‌های داخل آن سند را از دست می‌دهید، حتی اگر فقط یک خط کوچک حاوی اطلاعات شناسایی شخصی باشد.»

توکن‌ها واحدهای داده‌ای هستند که توسط هوش مصنوعی پردازش می‌شوند و کلمات را در متن تشکیل می‌دهند.

نحوه عملکرد GDR

نویسندگان مقاله مثالی از داده‌های خام ارائه می‌دهند که شامل شماره تامین اجتماعی شخصی یا اطلاعاتی است که ممکن است به زودی منسوخ شود («مدیرعامل آینده…»). در این موارد، GDR اعداد را حذف یا جایگزین می‌کند، اطلاعاتی را که خطر منسوخ شدن دارند نادیده می‌گیرد و بقیه داده‌های قابل استفاده را حفظ می‌کند.

این مقاله بیش از یک سال پیش نوشته شده و اخیراً منتشر شده است. سخنگوی گوگل دیپ‌مایند به درخواست برای اظهار نظر در مورد اینکه آیا کار این محقق در مدل‌های هوش مصنوعی این شرکت استفاده می‌شود یا خیر، پاسخی نداد.

اهمیت این یافته‌ها

یافته‌های نویسندگان می‌تواند برای آزمایشگاه‌ها مفید باشد، زیرا منبع داده‌های قابل استفاده در حال خشک شدن است. آنها به یک مقاله تحقیقاتی از سال ۲۰۲۲ اشاره می‌کنند که پیش‌بینی کرده بود مدل‌های هوش مصنوعی می‌توانند تمام متن‌های تولید شده توسط انسان را بین سال‌های ۲۰۲۶ و ۲۰۳۲ جذب کنند. این پیش‌بینی بر اساس میزان داده‌های وب فهرست‌شده، با استفاده از آمار Common Crawl، پروژه‌ای که به طور مداوم صفحات وب را خراش می‌دهد و آنها را به طور آزاد برای استفاده آزمایشگاه‌های هوش مصنوعی در دسترس قرار می‌دهد، انجام شده است.

برای مقاله GDR، محققان یک اثبات مفهوم را با گرفتن بیش از یک میلیون خط کد و درخواست از متخصصان انسانی برای حاشیه‌نویسی خط به خط داده‌ها انجام دادند. سپس نتایج را با روش GDR مقایسه کردند.

جیانگ می‌گوید:

«این روش به طور کامل راه‌حل‌های موجود در صنعت را که برای این نوع کار استفاده می‌شوند، در هم می‌شکند.»

GDR در مقابل داده‌های مصنوعی

نویسندگان همچنین گفتند که روش آنها بهتر از استفاده از داده‌های مصنوعی (داده‌های تولید شده توسط مدل‌های هوش مصنوعی به منظور آموزش خود یا سایر مدل‌ها) است، که موضوعی مورد بررسی در میان آزمایشگاه‌های هوش مصنوعی بوده است. با این حال، استفاده از داده‌های مصنوعی می‌تواند کیفیت خروجی مدل را کاهش دهد و در برخی موارد منجر به «فروپاشی مدل» شود.

نویسندگان داده‌های GDR را با داده‌های مصنوعی ایجاد شده توسط یک LLM مقایسه کردند و دریافتند که رویکرد آنها مجموعه داده بهتری برای آموزش مدل‌های هوش مصنوعی ایجاد می‌کند.

برای مطالعه اخبار بیشتر اینجا کلیک کنید.

آنها همچنین گفتند که آزمایش‌های بیشتری می‌تواند روی انواع پیچیده دیگر داده‌ها که به عنوان داده‌های ممنوعه در نظر گرفته می‌شوند، مانند مواد دارای حق چاپ و داده‌های شخصی که در چندین سند استنباط می‌شوند تا اینکه به صراحت بیان شوند، انجام شود.

جیانگ گفت که این مقاله مورد بررسی همتایان قرار نگرفته است و افزود که این امر در صنعت فناوری رایج است و همه مقالات به طور داخلی بررسی می‌شوند.

محققان فقط GDR را روی متن و کد آزمایش کردند. جیانگ گفت که می‌توان آن را روی سایر روش‌ها مانند ویدئو و صدا نیز آزمایش کرد. با این حال، با توجه به سرعتی که ویدئوهای جدید هر روز تولید می‌شوند، آنها همچنان منبع عظیمی از داده‌ها را برای آموزش هوش مصنوعی فراهم می‌کنند.

جیانگ می‌گوید:

«با ویدئو، شما فقط مقدار بیشتری از آن خواهید داشت، فقط به این دلیل که یک جریان ثابت از میلیون‌ها ساعت ویدئو هر روز تولید می‌شود. بنابراین من فکر می‌کنم، با عبور از روش‌های جدید فراتر از متن، ویدئو و تصاویر، داده‌های بسیار بیشتری را باز خواهیم کرد.»

درباره نویسنده

تحریریه آی نو

ارسال دیدگاه
0 دیدگاه

نظر شما در مورد این مطلب چیه؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *