ШІ-моделі не знають всі відповіді на питання людей: як тестують межі великих мовних моделей?

Для тестування ШІ створюють нові бенчмарки, в яких намагаються випробувати великі мовні моделі. Поки що найбільші успіхи показує команда Anthropic, але розвиток ШІ стимулює їх удосконалюватися. Чому тести женуться за випробуванням ШІ, а не навпаки? Головне з матеріалу The Economist…









