Anthropic навчив ШІ водити курсором, натискати на кнопки та друкувати текст

ШІ-стартап Anthropic випустив оновлену версію моделі Claude 3.5 Sonnet, яка може взаємодіяти з комп’ютером як людина — водити курсором, натискати на кнопки та друкувати текст.

Introducing an upgraded Claude 3.5 Sonnet, and a new model, Claude 3.5 Haiku. We’re also introducing a new capability in beta: computer use.

Developers can now direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking, and typing text. pic.twitter.com/ZlywNPVIJP

— Anthropic (@AnthropicAI) October 22, 2024

«Замість створення спеціальних інструментів, що допомагають Claude виконувати окремі завдання, ми навчаємо його загальних комп’ютерних навичок, даючи змогу використовувати широкий спектр розроблених для людей стандартних рішень і програм», — зазначили в Anthropic.

Розробники можуть використовувати цю можливість для автоматизації повторюваних процесів, створення і тестування ПЗ та виконання інших завдань. Для цього створено API, який дає змогу Claude сприймати комп’ютерні інтерфейси та взаємодіяти з ними.

Функція експериментальна, тому можуть спостерігатися помилки. Її почали тестувати Asana, Canva, Cognition, DoorDash, Replit і The Browser Company.

«Деякі дії, які люди виконують без особливих зусиль, — прокручування, перетягування, масштабування — становлять для Claude певні труднощі», — попередили представники ШІ-стартапу.

Також представлена нова ШІ-модель Claude 3.5 Haiku, яка вийде наприкінці жовтня. За продуктивністю вона відповідає попередній флагманській нейромережі компанії Claude 3 Opus.

Порівняння Claude 3.5 Sonnet і Claude 3.5 Haiku за різними бенчмарками з іншими ШІ. Джерело: Anthropic.

Компанія повідомила про поліпшення Claude 3.5 Sonnet у сфері програмування, навівши як аргументи відгуки клієнтів. У GitLab відзначили більш сильне міркування ШІ, що робить його «ідеальним вибором» для підтримки багатоетапних процесів розробки ПЗ. Cognition і The Browser Company також дали хороші оцінки.

Програмування як сильну сторону відзначили та для моделі Claude 3.5 Haiku. Вона набирає 40,6% на SWE-bench Verified, випереджаючи багатьох конкурентів.

Нагадаємо, у жовтні ШІ-модель GPT-4o від OpenAI набрала найвищий бал у рейтингу з програмування мовою Solidity, обійшовши o1-preview, o1-mini та конкурентів.

Источник