Як працює чат-бот Grok Ілона Маска? Тест Андрея Карпати

За рік роботи команда стартапу xAI Ілона Маска випустила третю мовну модель Grok, яка працює на рівні з моделлю від OpenAI (творця ChatGPT), вважає екстопменеджер Tesla та співзасновник OpenAI Андрей Карпати. Що вміє Grok?

Отримуйте щоденний лист з останніми матеріалами та головними новинами від Forbes Ukraine

Дякуємо за підписку Підписатися

«Я радий додати Grok 3 до моєї «ради LLM», – написав у соцмережі Х Андрей Карпати, канадський дослідник штучного інтелекту. 

Випущена 17 лютого Grok 3 – нова мовна модель компанії Ілона Маска xAI. За його словами, вона була розроблена із «в 10 разів» більшою обчислювальною потужністю, ніж її попередник Grok 2. «Це найрозумніший штучний інтелект на Землі», – написав Маск в Х 16 лютого. 

Sign it now! Угода про надра: про що насправді домовилися Україна і США. Інсайдери пояснюють пʼять проблемних пунктів /Фото Getty Images

Популярне Категорія Гроші Дата Вчора Sign it now! Угода про надра: про що насправді домовилися Україна і США. Інсайдери пояснюють пʼять проблемних пунктів

Він доступний для передплатників Premium Plus на X за $50 на місяць. Також компанія запустила окрему підписку Super Grok за $30 на місяць для користувачів додатка чат-бота і сайтової версії. 

Карпати протестував можливості Grok 3 і написав про результати в Х. Канадський дослідник, що емігрував зі Словаччини у 15 років, працював ШІ-директором для автопілота в Tesla у 2015-му. У 2016 році став співзасновником OpenAI. Після звільнення з компанії у лютому 2024-го запустив освітній стартап Eureka Labs, щоб за допомогою ШІ змінити підхід до навчання.

Який висновок Карпати про Grok 3?

Як думає Grok 3

Think – новий режим роботи Grok для складних питань, що вимагають глибшого аналізу. Карпати попросив модель створити вебсайт настільної гри Settlers of Catan, який буде у вигляді шестикутника (так виглядає дошка настільної гри).

Промпт

Створи вебсторінку для настільної гри, яка відображає шестикутну сітку, як у грі Settlers of Catan. Кожен шестикутник у сітці має бути пронумерований від 1 до N, де N – загальна кількість шестикутників. Зроби сітку гнучкою, щоб можна було змінювати кількість кілець за допомогою повзунка. Наприклад, у Catan радіус становить три шестикутники. Уся логіка має бути реалізована на одній HTML-сторінці.

Читати більше Згорнути

Із цим завданням Grok 3, за словами Карпати, впорався чудово. «Лише кілька моделей справляються з цим надійно, – пише він. – Найкращі моделі від OpenAI (наприклад, o1-pro за $200/місяць) також можуть це робити, але DeepSeek-R1, Gemini 2.0 і Claude не справляються», – додав він. 

Із загадкою Emoji mystery, коли у символах чи смайликах зашифровується слово, Grok 3 не впорався. Модель не змогла розгадати загадку навіть після підказки, як це зробити за допомогою мови програмування Rust. «Найкраще впоралася модель DeepSeek-R1, яка хоча б частково змогла розшифрувати текст», – пише Карпати. 

Він також пограв із Grok 3 у хрестики-нулики, з чим модель впоралася. Однак провалила завдання створити три складні сценарії гри. Останній моделі від OpenAI це завдання теж не під силу.

Дослідник зазначає, що Grok 3 так само, як і DeepSeek-R1, намагався розв’язати гіпотезу Рімана. «Мені довелося зрештою зупинити його, бо мені стало трохи шкода, але він проявив сміливість, і хто знає, можливо, одного дня…» – пише Карпати. Моделі o1-pro, Claude, Gemini 2.0 одразу здаються та кажуть, що це нерозв’язна задача. 

хто такий Андрей Карпати

Андрей Карпати – канадський дослідник, що емігрував зі Словаччини у 15 років. Працював ШІ-директором для автопілота в Tesla і став співзасновником OpenAI

Глибокий пошук у Grok 3

Нова модель Маска також має режим DeepSearch, який сканує інтернет та X і дає відповідь на запит. 

Функцію з майже ідентичною назвою – Deep Research – OpenAI представив на початку лютого. Вона вміє переглядати інформацію з багатьох вебсайтів та інших джерел і доступна користувачам ChatGPT Pro з обмеженням 100 запитів на місяць.

Grok 3 правильно відповів на запитання Карпати, що відбувається з майбутнім запуском Apple, чому акції Palantir різко зросли нещодавно, де було знято і хто в команді серіалу «Білий лотос 3» тощо.

Але провалив відповіді на запитання, де зараз учасники четвертого сезону телесеріалу «Пекло для самотніх», яку програму розпізнавання мовлення використовує британський програміст Саймон Віллісон тощо.

«Кілька разів я ловив її на вигаданих URL, які не існують, – пише Карпати. – Кілька разів вона казала фактичні речі, які, я думаю, є неправильними, й не надавала на них посилання (імовірно, його не існує)». Функція Deep Search від OpenAI працює краще, на його думку.

Підсумок

Загалом Grok 3 працює приблизно на тому самому рівні, що й остання модель від OpenAI, й трохи краще за DeepSeek-R1 та Gemini 2.0, вважає Карпати. «Це досить неймовірно, враховуючи, що команда почала з нуля один рік тому», – додає він. 

Источник

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *