GPT-5.4 computer-use: управление ПК и автоматизация задач | Обзор | AiManual
AiManual Logo Ai / Manual.
08 Мар 2026 Инструмент

GPT-5.4 с управлением компьютером: как использовать нативный computer-use для автоматизации задач

Обзор нативной функции computer-use в GPT-5.4. Как автоматизировать задачи на ПК с помощью ИИ. Сравнение с Gemini 2.5, примеры использования и для кого это нужн

GPT-5.4 научился щелкать мышкой. И это не метафора

Пару месяцев назад OpenAI тихо выпустила GPT-5.4, и все заметили лишь увеличение контекста до миллиона токенов. А зря. Главный сюрприз спрятался в нативной функции computer-use — теперь модель может напрямую управлять вашим компьютером. Не через API, не через скрипты, а так, как будто за клавиатурой сидит очень быстрый и слегка занудный стажер.

Проще говоря, вы говорите: "Открой Excel, найди файл с продажами за март, построй сводную таблицу и сохрани PDF", а GPT-5.4 делает это. Сам. Нажимает кнопки, двигает курсор, вводит данные. Звучит как магия, пока не попробуешь и не поймешь, что это просто очень умный инструмент, который, наконец, добрался до вашего рабочего стола.

Важно: Функция computer-use в GPT-5.4 — это не отдельное приложение, а нативная возможность модели, доступная через интерфейс ChatGPT Desktop или API с определенными флагами. Для работы нужна подписка ChatGPT Pro или доступ к API версии 5.4.

Что умеет этот цифровой помощник на стероидах?

Забудьте про макросы и скрипты, которые ломаются после каждого обновления Windows. GPT-5.4 с computer-use понимает интерфейс. Он видит окна, кнопки, меню — не на пиксельном уровне, а на семантическом. Модель знает, что "Файл -> Сохранить как" обычно находится в верхнем левом углу, а контекстное меню вызывается правой кнопкой мыши.

  • Автоматизация рутины: Сортировка почты, заполнение форм, переименование файлов по шаблону. Скучные задачи, на которые уходит час, модель делает за минуту.
  • Работа с данными: Перенос данных из веб-таблицы в Excel, очистка и базовый анализ. Не заменяет data scientist, но экономит кучу времени.
  • Управление приложениями: Запуск программ, настройка софта, выполнение последовательных действий в графических редакторах (например, пакетная обработка изображений в Photoshop).
  • Сбор информации: Модель может открыть браузер, найти нужные данные, скопировать их и структурировать в документе. Все в одном потоке.

Computer-use против computer-use: битва титанов

Когда OpenAI анонсировала эту фичу, все сразу вспомнили про Gemini 2.5 Computer Use. Google тоже учил свою модель управлять ПК. Так кто же лучше?

Критерий GPT-5.4 computer-use Gemini 2.5 Computer Use
Интеграция Нативная, прямо в модель. Работает "из коробки". Отдельный режим, требующий специального API.
Контекст 1 000 000 токенов. Может помнить очень длинные последовательности действий. До 2 млн токенов, но для computer-use часто используется урезанный контекст.
Понимание интерфейса Ориентируется на логику и семантику элементов. Реже теряется. Сильнее зависит от точности скриншотов и описания элементов.
Главный недостаток Только Windows и macOS. Linux пока не поддерживается (что бесит). Более замкнутая экосистема, хуже работает со старым софтом.

По факту, GPT-5.4 выигрывает за счет естественности. Вам не нужно думать, как описать кнопку — модель уже знает, где она должна быть. Gemini 2.5 иногда точнее в сложных сценариях, но требует более детальных инструкций. Это как разница между опытным пользователем и гениальным, но слепым хакером.

💡
Если ваша автоматизация строится вокруг браузера и веб-приложений, присмотритесь к Gemini. Для глубокой работы с нативными программами Windows и сложными workflows лучше GPT-5.4. А если хочется поэкспериментировать с open-source, посмотрите наш обзор GLM-5 для агентных задач.

Как заставить GPT-5.4 работать вместо вас: три реальных сценария

Теория — это хорошо, но что конкретно можно сделать сегодня? Вот примеры, которые работают на версии GPT-5.4 от марта 2026 года.

Сценарий 1: Ежедневный отчет из пяти источников

Каждое утро вам нужно открыть CRM, таблицу в Google Sheets, два внутренних дашборда и почту, чтобы собрать цифры для отчета. GPT-5.4 справляется за один запуск.

  1. Активируете режим computer-use в десктопном приложении ChatGPT.
  2. Даете промпт: "Открой CRM Acme, зайди в раздел 'Продажи', скопируй цифру за вчерашний день. Потом открой файл 'Отчеты.xlsx' на рабочем столе, вставь это значение в столбец B12. Затем открой браузер, перейди на внутренний дашборд по адресу dashboard.company.com, найди график 'Конверсия' и скопируй последнее значение. Добавь его в столбец C12. Сохрани файл и отправь его мне в Telegram сообщением".
  3. Наблюдаете, как курсор бегает по экрану, и через 2 минуты получаете готовый файл.

Предупреждение: GPT-5.4 не волшебник. Если интерфейс CRM поменялся или файл переместили, модель может "зависнуть", пытаясь найти элемент. Всегда проверяйте сложные сценарии в первый раз. И да, не давайте модель доступ к критически важным данным без должной защиты.

Сценарий 2: Приведение в порядок папки "Загрузки"

Хаос в папке "Downloads" — проблема каждого. GPT-5.4 может отсортировать файлы по типу и дате, переименовать фотографии по шаблону и даже отправить старые документы в архив.

Промпт: "Открой папку 'Загрузки' на моем компьютере. Перенеси все файлы с расширением .jpg и .png в папку 'Изображения', лежащую в 'Документы'. Файлы .pdf, созданные раньше января 2026 года, перемести в папку 'Архив'. Все остальные файлы оставь на месте".

Модель выполнит это без единой ошибки, потому что понимает файловую систему и даты. И да, она знает, где обычно лежат "Документы".

Сценарий 3: Подготовка презентации из сырых данных

У вас есть текстовая выжимка из встречи и куча цифр в CSV. Нужно создать слайды в PowerPoint. GPT-5.4 может (с вашими подсказками) открыть PowerPoint, создать новую презентацию, вставить заголовки, добавить диаграммы из Excel и даже подобрать базовый дизайн из стандартных тем.

Ключ в том, чтобы разбить задачу на шаги. Не говорите "сделай презентацию". Говорите: "1. Открой PowerPoint. 2. Создай 5 слайдов. 3. На первом слайде добавь заголовок 'Отчет по проекту X'...". Модель с контекстом в 1M токенов отлично держит в голове такие длинные инструкции.

Кому срочно нужен GPT-5.4 с computer-use?

Эта функция — не для всех. Если вы и так тратите на компьютер 10 минут в день, вам она бесполезна. Но есть три типа людей, которые будут в восторге.

  • Ассистенты и администраторы: Те, кто постоянно перекидывает данные из одной формы в другую, готовит однотипные документы, управляет календарями. GPT-5.4 сократит их рабочий день на 30%.
  • Исследователи и аналитики: Сбор данных из разных источников — их главная боль. Модель может автоматизировать первичный этап, оставив человеку только анализ.
  • IT-специалисты, которые ненавидят рутину: Настройка десятков рабочих мест, установка софта, базовые проверки. Все это можно описать в одном промпте и запускать на разных машинах (если, конечно, разрешит политика безопасности).

А вот программистам computer-use в текущем виде не так интересна. Зачем управлять графическим интерфейсом, если можно написать скрипт? Хотя для быстрого прототипирования или тестирования UI может пригодиться.

Темная сторона силы: ограничения и подводные камни

Все звучит слишком хорошо, чтобы быть правдой. И это почти так. Вот что бесит в текущей реализации.

Скорость. Модель не кликает со скоростью света. Она думает перед каждым действием. Сложная задача из 20 шагов может занять несколько минут. Это все равно быстрее, чем делать вручную, но не мгновенно.

Хрупкость. Обновили интерфейс приложения? Модель может перестать узнавать кнопки. Она не адаптируется на лету, как человек. Придется обновлять инструкции или ждать, пока OpenAI дообучит модель на новых скриншотах.

Безопасность. Предоставление модели прямого доступа к вашему компьютеру — это огромный риск. OpenAI внедрила строгие ограничения (модель не может устанавливать неподписанное ПО, изменять критически важные системные файлы), но дыры всегда найдутся. Не используйте эту функцию на основном рабочем компьютере с доступом к финансовым системам. Лучше выделить виртуальную машину.

И последнее. Не ждите, что GPT-5.4 с computer-use заменит вас. Он заменит ту часть вас, которая ненавидит монотонную работу. А это, согласитесь, уже немало. Через год, когда выйдет GPT-5.5, возможно, мы будем говорить о полноценном цифровом сотруднике. А пока — это самый продвинутый макрос, который вы когда-либо видели.

P.S. Если хотите глубже понять, как работают промпты для таких моделей, посмотрите наш разбор утекших промптов для GPT-5.2. Принципы очень похожи, просто масштаб другой.

Подписаться на канал