Нові ШІ-моделі від Alibaba обійшли GPT-4o в математиці

12.08.2024
Рубрика:Криптовалюта

Alibaba запустила групу великих мовних моделей (LLM) з акцентом на математику під назвою Qwen2-Math, які «перевершують GPT-4o і Claude 3.5» у цій галузі.

Today we release a new model series for math-specific language models, Qwen2-Math, which is based on Qwen2. The flagship model, Qwen2-Math-72B-Instruct, outperforms proprietary models, including GPT-4o and Claude 3.5, in math related downstream tasks!

Feel free to check our blog… pic.twitter.com/9P4BiBweFY

— Qwen (@Alibaba_Qwen) August 8, 2024

«За останній рік ми доклали чимало зусиль для вивчення і розширення можливостей міркувань великих мовних моделей, приділяючи особливу увагу їхній здатності розв’язувати арифметичні та математичні задачі», — зазначила команда Qwen, що входить до складу підрозділу хмарних обчислень Alibaba.

Моделі Qwen2-Math випущені на базі представлених у червні LLM Qwen2. Стверджується, що флагманська Qwen2-Math-72B-Instruct перевершила американських конкурентів у математиці, зокрема GPT-4o від OpenAI, Claude 3.5 Sonnet від Anthropic, Gemini 1.5 Pro від Google і Llama-3.1-405B від Meta Platforms.

Порівняння Qwen2-Math з іншими ШІ-моделями. Джерело: Qwen.

На початку серпня ШІ-підрозділ Google DeepMind випустив експериментальну версію своєї провідної ШІ-моделі Gemini 1.5 Pro, яка привернула увагу громадськості через високі результати під час тестів.

«Ми сподіваємося, що Qwen2-Math зможе зробити свій внесок у наукову спільноту, розв’язуючи складні математичні задачі, які потребують багатоетапних логічних міркувань», — зазначили розробники.

Згідно з наданою інформацією, нові ШІ-моделі Alibaba протестовані на математичних завданнях англійською та китайською мовами. Вони включали:

GSM8K — це набір даних із ~8000 завдань для учнів початкової та середньої школи;
OlympiadBench — завдання високого рівня, що вимагають абстрактного мислення, логіки та математичних знань;
GaoKao — національний вступний іспит до вишів Китаю, вважається одним із найскладніших у світі.

Порівняння Qwen2-Math з іншими ШІ-моделями в різних тестах. Джерело: Qwen.

За словами команди, нові ШІ-моделі мають деякі обмеження через підтримку лише англійської мови. Найближчим часом планується випуск двомовних LLM, а пізніше — багатомовних.

Нагадаємо, у серпні стало відомо про роботу Alibaba над генератором зображень Tora.

Раніше техгігант анонсував випуск чат-бота зі штучним інтелектом Tongyi Qianwen.

Источник