OpenAI представила GPT-5.4, способную самостоятельно управлять компьютером пользователя.
Нейросеть не просто генерирует текст, а физически взаимодействует с интерфейсом: пишет код для эмуляции кликов мышью и нажатий клавиш, ориентируясь по скриншотам экрана.
Разработчик позиционирует новинку как универсального ИИ-агента, который работает с браузерами, API сторонних сервисов, текстовыми документами, таблицами и презентациями. Технически это развитие прошлогодней функции ChatGPT Agent: теперь алгоритм способен выполнять многошаговые задачи вроде поиска товаров в разных источниках и оформления заказа.

В OpenAI утверждают, что GPT-5.4 стала на треть достовернее предшественницы — количество фактических ошибок снизилось на 33 процента по сравнению с GPT-5.2. Модель умеет самостоятельно инициировать несколько поисковых сессий, чтобы найти нужную информацию, и синтезировать данные в связный ответ.
Для сложных запросов предусмотрена версия GPT-5.4 Thinking с режимом рассуждения. Она показывает пользователю план работы, который можно корректировать прямо во время получения ответа — без перезапуска процесса.
Доступ к базовой GPT-5.4 открыт через ChatGPT, API и среду разработки Codex. Рассуждающая версия Thinking предназначена для подписчиков Plus, Team и Pro. Для корпоративных клиентов Enterprise и Edu через API запущена максимально мощная модификация GPT-5.4 Pro.
GPT-5.4 Thinking упрощает управление моделью для достижения желаемого результата без необходимости начинать все сначала, отметили в компании. Это очередной шаг к повсеместному внедрению ИИ-агентов, способных полностью брать на себя рутинные цифровые задачи пользователя.











