Дослідження Принстонського університету, проведене у дослідженні VideoGameBench, показує, що сучасні мультимодальні моделі все ще мають труднощі із завданнями, що вимагають інтерактивного планування та навігації в умовах мінливого середовища.
Gemini 2.5 Pro взаємодіє з Kirby's Dream Land у режимі реального часу. Дані: VideoGameBench.
Дослідники оцінили моделі Gemini 2.5 Pro, GPT-4o, LLaMa 4, Gemini 2.0 Flash та Claude 3.7 Sonnet у 10 відомих 2D-іграх кінця 1990-х років, включаючи такі ігри, як Super Mario та Age of Empires. Тести проводилися за умов, коли надавався лише відеопотік гри та короткий огляд керування та цілей.
Діаграма взаємодії з оцінки VideoGameBench. Дані: arXiv.org.
Найвища продуктивність у реальному часі, досягнута Gemini 2.5 Pro, становила лише 0,48% успішності. Під час тестування у спрощеному режимі Lite, де гра зупиняється перед кожною дією, рівень успішності дещо покращився до 1,6%.
Результати спліт-тесту VideoGameBench, який включав 10 ігор. Кожен бал представляє відсоток завершення гри на основі досягнутих контрольних точок, де 0% вказує на те, що агент не досяг початкової контрольної точки. Загальний бал обчислюється як середнє арифметичне балів з усіх ігор. Дані: arXiv.org.
На відміну від текстових завдань, ігри вимагають не лише розпізнавання зображень, але й швидкого прийняття рішень, просторового уявлення, довгострокової стратегії та адаптації до умов, що змінюються. Затримки у виводі, навіть у найскладніших моделях VLM, перешкоджають їхній здатності функціонувати в режимі реального часу, особливо в аркадних або стратегічних іграх.
«Моделі не розуміють такої простої команди, як «увімкнути млин», навіть за наявності візуальних підказок», – зазначають автори дослідження.
Далі вони пояснюють, що навіть фундаментальна логіка в ігровому всесвіті (наприклад, необхідність води для виробництва їжі) виявилася занадто складною для сучасних віртуальних ігрових автоматів (VLM).
Для тих, хто зацікавлений, код та приклади покрокових інструкцій доступні на офіційному веб-сайті VideoGameBench та GitHub.
Варто зазначити, що фахівці Palisade Research задокументували випадки спроб «самозбереження» в різних моделях штучного інтелекту.