مدل جدید هوش مصنوعی بهتر از PaLM-2 قدرتمند گوگل است

نوامبر 27, 2023 - By Roger Montti

محتوا پنهان

دستیار شخصی پی
مدل زبانی Large Inflection-2
MMLU – درک گسترده زبان چندوظیفه ای
MBPP – کد و عملکرد استدلال ریاضی
امتیازات MBPP:
اسکرین شات نمرات کامل MBPP
آزمایش مجموعه داده HumanEval
اسکرین شات نمرات کامل HumanEval
یک LLM حتی قدرتمندتر در راه است

Inflection AI، خالقان PI AI Personal Assistant، از ایجاد یک مدل زبان بزرگ جدید قدرتمند به نام Inflection-2 خبر داد که از مدل زبان PalM گوگل در طیف وسیعی از مجموعه داده های محک زدن بهتر عمل می کند.

دستیار شخصی پی

Pi یک دستیار شخصی است که در وب و به عنوان یک برنامه کاربردی برای دستگاه های تلفن همراه اندروید و اپل موجود است.

همچنین می توان آن را به عنوان یک مخاطب در واتس اپ اضافه کرد و از طریق پیام های مستقیم فیس بوک و اینستاگرام قابل دسترسی بود.

Pi طراحی شده است تا یک دستیار چت بات باشد که قادر به پاسخگویی به سؤالات، جستجوی محصولات، علم یا محصولات است و می تواند به عنوان یک همراه چت که مشاوره ارائه می دهد عمل کند.

LLM جدید مدت کوتاهی پس از انجام تست های امنیتی در هوش مصنوعی PI ادغام خواهد شد.

مدل زبانی Large Inflection-2

Inflection-2 یک مدل زبان بزرگ است که از مدل PalM 2 Large گوگل که در حال حاضر پیچیده ترین مدل گوگل است، بهتر عمل می کند.

Inflection-2 بر روی چندین معیار آزمایش شده و با PalM 2 و LLaMA 2 متا و سایر مدل های زبان بزرگ (LLM) مقایسه شده است.

به عنوان مثال، Google’s Palm 2 به سختی از Inflection-2 در مجموعه سوالات طبیعی، مجموعه داده ای از سوالات دنیای واقعی، بهتر عمل کرد.

PalM 2 امتیاز 37.5 و Inflection-2 امتیاز 37.3 را به دست آوردند که هر دو از LLaMA 2 که امتیاز 33.0 را کسب کرده بود بهتر عمل کردند.

سیگنال های کاربر به عنوان یک عامل رتبه بندی و ایالات متحده در برابر گوگل

MMLU – درک گسترده زبان چندوظیفه ای

Inflection AI نمرات معیاری را در مجموعه داده MMLU منتشر کرده است که برای آزمایش LLMها به روشی مشابه آزمایش انسانی طراحی شده است.

این آزمون 57 موضوع STEM (علوم، فناوری، مهندسی و ریاضیات) و طیف گسترده ای از موضوعات دیگر مانند حقوق را پوشش می دهد.

هدف مجموعه داده شناسایی این است که LLM کجا قوی‌ترین و کجا ضعیف است.

مطابق با مقاله تحقیقاتی برای این مجموعه داده محک:

ما یک آزمایش جدید برای اندازه گیری دقت چندوظیفه ای یک مدل متنی پیشنهاد می کنیم.

این آزمون شامل 57 کار، از جمله ریاضی ابتدایی، تاریخ ایالات متحده، علوم کامپیوتر، حقوق و غیره است.

برای دستیابی به دقت بالا در این آزمون، مدل ها باید دانش عمیقی از جهان و توانایی حل مسئله داشته باشند.

ما متوجه شدیم که اگرچه مدل‌های جدیدتر دقت تقریباً شانسی دارند، مدل بزرگ‌تر GPT-3 شانس را تقریباً 20 درصد بهبود می‌بخشد.

با این حال، برای هر یک از 57 کار، بهترین مدل ها هنوز نیاز به بهبود اساسی دارند تا بتوانند به دقت در سطح متخصص دست یابند.

مدل ها همچنین عملکرد نامتعادلی دارند و اغلب نمی دانند چه زمانی اشتباه می کنند.

بدتر از آن، آنها هنوز هم در مورد برخی موضوعات مهم اجتماعی مانند اخلاق و قانون دقت تقریباً تصادفی دارند.

با ارزیابی جامع وسعت و عمق درک آکادمیک و حرفه ای یک مدل، آزمون ما می تواند برای تجزیه و تحلیل مدل ها در بسیاری از وظایف و شناسایی شکاف های مهم استفاده شود.

در اینجا نمرات مجموعه داده های محک MMLU، از ضعیف ترین به قوی ترین آمده است:

LLaMA 270b 68.9
GPT-3.5 70.0
Grok-1 73.0
PalM-2 بزرگ 78.3
Claude-2 _CoT 78.5
عطف-2 79.6
GPT-4 86.4

4 Tactics for High-Quality Backlinks That Move the Needle (+ Examples)

همانطور که در بالا مشاهده می شود، فقط GPT-4 امتیاز بالاتر از Inflection-2 دارد.

MBPP – کد و عملکرد استدلال ریاضی

Inflection AI یک مقایسه سر به سر بین GPT-4، PalM 2، LLaMA و Inflection-2 در آزمون های ریاضی و استدلال کدگذاری شده انجام داد و با توجه به اینکه به طور خاص برای حل مسائل ریاضی آموزش ندیده بود، به طرز شگفت انگیزی خوب عمل کرد.

مجموعه داده محک استفاده شده MBPP (برنامه نویسی اصلی پایتون) نامیده می شود. این مجموعه داده شامل بیش از 1000 مشکل برنامه نویسی پایتون است.

چیزی که این امتیازات را به‌ویژه قابل توجه می‌کند این است که هوش مصنوعی Inflection در برابر PaLM-2S آزمایش شد، که نوعی از یک مدل زبان بزرگ است که به طور خاص برای کدنویسی تنظیم شده است.

امتیازات MBPP:

LLaMA-2 70B: 45.0
PalM-2S: 50.0
عطف-2: 53.0

اسکرین شات نمرات کامل MBPP

مدل جدید هوش مصنوعی بهتر از PaLM-2 قدرتمند گوگل است

آزمایش مجموعه داده HumanEval

Inflection-2 همچنین از PaLM-2 در مجموعه داده حل مسئله HumanEval که توسط OpenAI تهیه و منتشر شده بود، بهتر عمل کرد.

صورت نوازش توصیف ، این مجموعه داده:

مجموعه داده HumanEval منتشر شده توسط OpenAI شامل 164 مشکل برنامه نویسی با امضای تابع، یک Docstring، یک بدنه و چندین تست واحد است.

آنها دست نوشته شده اند تا اطمینان حاصل شود که در مجموعه آموزشی مدل های تولید کد گنجانده نمی شوند.

مسائل برنامه نویسی به زبان پایتون نوشته شده اند و حاوی متن انگلیسی طبیعی در نظرات و رشته های مستند هستند.

این مجموعه داده توسط مهندسان و محققان OpenAI ساخته شده است.

اینم نمرات:

LLaMA-2 70B: 29.9
PalM-2S: 37.6
عطف-2: 44.5
GPT-4: 67.0

5 مورد مورد علاقه من Ahrefs برای بازاریابان محتوا

همانطور که در بالا مشاهده می شود، تنها GPT-4 امتیاز بالاتر از Inflection-2 را کسب کرد. با این وجود، شایان ذکر است که Inflection-2 برای رسیدگی به این نوع مسائل بهینه نشده است و این نتایج را به یک دستاورد چشمگیر تبدیل کرده است.

اسکرین شات نمرات کامل HumanEval

مدل جدید هوش مصنوعی بهتر از PaLM-2 قدرتمند گوگل است

هوش مصنوعی عطف توضیح می دهد که چرا این امتیازات قابل توجه هستند:

«نمرات آزمون ریاضی و کدنویسی.

در حالی که هدف اصلی ما برای Inflection-2 بهینه سازی این قابلیت های کدنویسی نبود، ما شاهد عملکرد قوی در هر دو مدل از قبل آموزش دیده خود هستیم.

می‌توان با اصلاح مجموعه داده‌ای که حاوی کدهای زیادی است، قابلیت‌های کدگذاری مدل خود را بیشتر بهبود بخشید.

یک LLM حتی قدرتمندتر در راه است

در اطلاعیه هوش مصنوعی Inflection آمده است که Inflection-2 بر روی 5000 پردازنده گرافیکی NVIDIA H100 آموزش داده شده است. آنها قصد دارند یک مدل حتی بزرگتر را روی یک کلاستر 22000 GPU آموزش دهند، چندین سفارش بزرگتر از 5000 GPU Cluster Inflection-2 که روی آن آموزش داده شده بود.

گوگل و OpenAI با رقابت شدیدی از سوی استارت آپ های بسته و منبع باز روبرو هستند. هوش مصنوعی Inflection به رده های بالای استارت آپ هایی با هوش مصنوعی قدرتمند در دست توسعه می پیوندد.

PI Personal Assistant یک پلتفرم هوش مصنوعی محاوره‌ای است که دارای فناوری پیشرفته‌ای است که می‌تواند حتی از سایر پلتفرم‌های پولی قدرتمندتر شود.

اطلاعیه رسمی را بخوانید:

عطف-2: مرحله بعدی

بازدید کنید دستیار شخصی آنلاین PI

تصویر برجسته توسط Shutterstock/Malchevska

منبع: https://www.searchenginejournal.com/new-ai-model-outperforms-googles-powerful-palm-2/502191/

دستیار شخصی پی

مدل زبانی Large Inflection-2

MMLU – درک گسترده زبان چندوظیفه ای

MBPP – کد و عملکرد استدلال ریاضی

امتیازات MBPP:

اسکرین شات نمرات کامل MBPP

آزمایش مجموعه داده HumanEval

اسکرین شات نمرات کامل HumanEval

یک LLM حتی قدرتمندتر در راه است

Related Posts

How to Create a Staging Site for WordPress (4 Easy Methods) » Rank Math

How to Use AI for Facebook Ads: Tips and Tools

هوش مصنوعی متا عکس های تولید شده توسط هوش مصنوعی را به همه پلتفرم ها می آورد