Google представила нову серію моделей AI під назвою Gemini 2.5, які демонструють здатність «мислити». Вони витрачають хвилину на роздуми, перш ніж дати відповідь.
Представляємо Gemini 2.5, нашу найдосконалішу модель AI.
Наш початковий випуск, експериментальна ітерація 2.5 Pro, забезпечує першокласну продуктивність у математиці та науці. 🔥
Дізнайтеся більше 🧵 pic.twitter.com/aoe7egliJb
— Google (@Google) 25 березня 2025 р
Перша модель в лінійці — експериментальна версія Gemini 2.5 Pro. Цю мультимодальну нейронну мережу рекламують як «найрозумнішу на сьогодні». До нього можна отримати доступ на платформі розробника Google AI Studio та в додатку Gemini для користувачів із передплатою Advanced, яка коштує 20 доларів на місяць.
«З Gemini 2.5 ми досягли безпрецедентного рівня продуктивності, об’єднавши значно вдосконалену базову модель із вдосконаленим постнавчанням », — йдеться в блозі компанії.
Організація також зазначила, що в майбутньому всі її моделі матимуть здатність міркувати.
В оцінці Aider Polyglot, яка оцінює досвід програмування, Gemini 2.5 Pro отримав результат 68,6%, перевершивши провідні рішення OpenAI, Anthropic і DeepSeek.
У тесті SWE-bench Verified, розробленому для оцінки навичок розробників програмного забезпечення, модель Google перевершила модель Claude 3.7 Sonnet — набравши 63,8% проти 70,3%.
На Останньому іспиті Humanity's Exam, мультимодальному оцінюванні, яке включає тисячі запитів з математики, гуманітарних наук і природничих наук, Gemini 2.5 Pro отримав 18,8%, перевершивши своїх конкурентів.
Порівняння результатів Gemini 2.5 Pro з іншими моделями ШІ в різних тестах. Дані: Google.
Gemini 2.5 Pro має контекстне вікно в 1 мільйон токенів, що дозволяє обробляти близько 750 000 слів одночасно. Очікується, що в майбутньому ця потужність подвоїться.
ШІ, який «думає», потребує додаткового часу та обчислювальних ресурсів для надання точних і вичерпних відповідей. Початкову «мислячу» нейронну мережу продемонстрував OpenAI, який запустив o1 у вересні 2024 року. Інші розробники ШІ, зокрема DeepSeek, Anthropic і Alibaba, почали розробляти власні рішення.