معرفی مدل چندزبانه اقتصادی و با عملکرد بالا به نام Eagle

خلاصه خبر
در این خبر، ما با معرفی مدل چندزبانه اقتصادی و با عملکرد بالا به نام Eagle آشنا میشویم. این مدل از معماری منحصر به فردی استفاده میکند که بهترین ویژگیهای شبکههای عصبی بازگشتی و ترانسفورمر را ترکیب میکند. همچنین، ما با مزایا و نقاط ضعف این مدل آشنا میشویم.
مدل چند زبانه ی عقاب چه کاری انجام میدهد؟
مدل چندزبانه Eagle 7B یک مدل زبانی کوچک اما قدرتمند است که توسط یک جامعه بینالمللی از توسعهدهندگان هوش مصنوعی با همکاری بنیاد لینوکس ایجاد شده است. این مدل قادر است با سیستمهای منبع باز محبوبی مانند Mistral و Meta رقابت کند.
Eagle 7B یک مدل زبانی بزرگ بدون توجه به توجه است که بر روی بیش از 1 تریلیون توکن در بیش از 100 زبان آموزش دیده است. آنچه این مدل را منحصر به فرد میکند، استفاده از معماری جدید RWKV (Receptance Weighted Key Value) است که در مقاله خود خالقان آن اینگونه اظهار داشتهاند: “این معماری آموزش موازی قابل توجه ترانسفورمرها را با استنتاج کارآمد شبکههای عصبی بازگشتی ترکیب میکند”، به این معنی که میتواند با سیستمهای ترانسفورمر رقابت کند اما محاسبات ارزانتر است.
با اندازه فقط 7.52 میلیارد پارامتر، Eagle 7B یک سیستم کوچک است اما ضربه قویای را میزند – با برتری نسبت به مدلهای محبوب Mistral-7B، Llama 2-7B و Falcon-7B در 23 زبان.

درباره عملکرد انگلیسی خود، این مدل رقابتی با مدلهای رقیب بود، اگرچه در چندین نمره با تفاوتهای کوچکی شکست خورد. با این حال، مدلهایی که در عملکرد بهتری داشتند، بر روی تعداد بیشتری توکن آموزش دیده بودند. با این حال، Eagle 7B همچنان عملکرد خود را حفظ کرد.
Eagle 7B احتمالاً در انگلیسی نسبت به مدلهای رقیب قویتر نیست، اما هزینه اجرای آن ارزانتر است: معماری پایه آن اجازه میدهد هزینههای استنتاج و آموزش را 10 تا 100 برابر کمتر کند.

با این حال، معماری RWKV دارای نقاط ضعفی است. تیم پشت این مدل هشدار داده است که اینگونه مدلها به فرمتبندی پرسمان حساس هستند، بنابراین کاربران باید در نحوه پرسمان دادن به مدل مواظب باشند.
همچنین، سیستمهای مبتنی بر RWKV در وظایفی که نیاز به نگاه به عقب دارند، ضعیفتر هستند، بنابراین شما باید پرسمان خود را مطابق با این نیازها مرتب کنید.
Eagle 7B میتواند برای استفاده شخصی و تجاری بدون محدودیتها استفاده شود، تحت مجوز Apache 2.0.
شما میتوانید Eagle 7B را از طریق Hugging Face دانلود کنید. همچنین میتوانید آن را از طریق نسخه نمایشی خود امتحان کنید.
محققان قصد دارند مجموعه داده چندزبانهای که قدرت Eagle را تامین میکند را برای پشتیبانی از زبانهای مختلف گسترش دهند.
همچنین، در حال کار بر روی نسخهای از مدل Eagle آموزش دیده بر روی دو تریلیون توکن هستند که ممکن است در مارس منتشر شود.
دیدگاهتان را بنویسید
برای نوشتن دیدگاه باید وارد بشوید.