گوگل یک مدل «زبان هوش مصنوعی» با یک تریلیون پارامتر را ایجاد کرد

محققان «Google Brain» به تازگی از اتفاق مهم بعدی در مدل‌های زبان هوش مصنوعی یعنی ایجاد یک سیستم ترانسفورمر عظیم با یک تریلیون پارامتر رونمایی کردند.

پارامترها کلید الگوریتم‌های یادگیری ماشین هستند؛ آن‌‌ها بخشی از مدلی هستند که از داده‌های آموزشی گذشته فرا گرفته می‌شوند. به طور کلی در حوزه زبان، ارتباط بین تعداد پارامترها و پیچیدگی به طرز چشمگیری حفظ شده است. برای مثال GPT-3 که متعلق به OpenAI است یکی از بزرگترین مدل‌های زبانی است که تاکنون به مرحله‌ی آموزش رسیده و  با 175 میلیارد پارامتر می‌تواند قیاس‌های اولیه را ایجاد کند، دستور‌العمل‌ها را تولید کند و حتی یک کد اولیه را کامل کند.

محققان گوگل به تازگی تکنیک‌های استانداردی را توسعه داده‌اند که طبق ادعای آن‌ها قادر خواهد بود یک مدل زبانی با بیش از یک تریلیون پارامتر را آموزش دهد. به عقیده‌ی آن‌ها سرعت مدل 1.6 تریلیون پارامتری که تا به امروز از بزرگترین مدل‌ها محسوب می‌شود با استفاده از مدل زبان توسعه یافته گوگل 4 برابر افزایش خواهد یافت.

پیش از این محققان اعلام کردند که آموزش در مقیاس بزرگ از راه‌های تاثیرگذار در مسیر مدل‌های قدرتمند است. اما این آموزش در مقیاس بزرگ نیاز به محاسبات بسیار فشرده‌ای دارد و به همین دلیل محققان روشی به نام Switch Transformer به وجود آوردند که تنها از زیرمجموعه‌ای از وزن مدل یا پارامترهایی که داده‌های ورودی را در مدل تغییر می‌دهد، استفاده می‌کند.

نوآوری سوییچ ترنسفورمر نفوذ در سخت‌افزارهایی مانند پردازنده های گرافیکی و واحدهای پردازش تنسور گوگل است که برای ضرب ماتریس متراکم طراحی شده‌اند. بنابر گفته‌ی محققان، سوییچ ترنسفورمر می‌تواند منجر به دستیابی به برخی از کارهای سطح پایین شود. برای مثال از مدل‌های پراکنده بزرگ می‌توان برای ایجاد مدل‌های کوچکتر و متراکمی استفاده کرد که کیفیت آن‌ها نسبت به مدل بزرگتر 30 درصد بهتر است. همچنین در آزمونی که در آن یک مدل سوییچ ترنسفورمر برای ترجمه بیش از 100 زبان مختلف دنیا آموزش دیده بود، محققان توانستند در مقایسه با مدل‌های پایه، با سرعت 4 برابر، یک پیشرفت جهانی را مشاهده کنند.

در آینده محققان قصد دارند زبان هوش مصنوعی گوگل را برای انجام کارهای مختلف و جدیدی مانند استفاده از آن‌ها بر روی تصویر و متن آزمایش کنند. آن‌ها معتقدند که این پراکندگی مدل در طیف وسیعی از رسانه‌های مختلف و همچنین مدل‌های چند حالته می‌تواند مزایایی ایجاد کند.

نظرات ۰

وارد شوید

برای گفتگو با کاربران، وارد حساب کاربری خود شوید.

ورود

رمزتان را گم کرده‌اید؟