2026

ИИ-агенты в разработке

Личный опыт внедрения: цифры, промахи, выводы

Павел Тихомиров · Go-разработчик · enterprise VoIP/UC · patihomirov.ru

00 / Контекст

Кто я и о чём доклад

  • Go-разработчик, enterprise-телефония (IVA)
  • Бэкенд: микросервисы, PostgreSQL, NATS, SIP
  • 10+ репозиториев, команда из 5 человек
  • ИИ-агенты с февраля 2026

Это не рекламный доклад. Я покажу реальные цифры, реальные провалы и реальные выводы из 2 месяцев ежедневной работы с ИИ-агентами.

77MR merged за 6 месяцев
3собственных ИИ-агента написано
3.3Bтокенов за 2 месяца
подписка $200

01 / Ключевое различие

Чат с ИИ vs ИИ-агент

Чат (ChatGPT, Claude.ai)

  • Режим «вопрос -> ответ»
  • Не видит ваш код и проект
  • Копи-паст фрагментов туда-обратно
  • Контекст теряется между сессиями
  • Умный справочник

Агент (Claude Code, Cursor)

  • Работает внутри вашего проекта
  • Видит файлы, git, тесты, линтер
  • Многошаговые задачи автономно
  • Помнит контекст между сессиями
  • Полноценный напарник
Чат — позвонить эксперту и описать проблему голосом.
Агент — посадить эксперта за ваш рабочий стол.

02 / Как это устроено

Чат vs Агент: архитектура

Чат с ИИ
Разработчик
копирует код в окно чата
↕ текст
Модель (LLM)
контекст: только то, что вставили
Контекст
фрагмент кода ваш вопрос история чата
Нет файлов. Нет git. Нет тестов.
ИИ-агент (Claude Code)
Разработчик
ставит задачу, верифицирует результат
↕ задача / результат
Модель (LLM)
+ CLAUDE.md + memory между сессиями
↕ вызывает инструменты
чтение файлов правка кода терминал git grep SSH API
Контекст
весь проект git история тесты линтер тест. стенд JIRA GitLab

03 / Почему сейчас

Критичность момента

1M токенов контекста у Opus 4.6 — весь микросервис «в голове»
2-5x ускорение команд, использующих ИИ-агенты
10 мин настройка Claude Code. + 1 час на CLAUDE.md

04 / Разница в мощности

От стажёра до senior-инженера

КритерийGPT-3.5 (2023)GPT-4o / SonnetOpus 4.6 + Code
Контекст4-8K128-200K1M + memory
Доступ к кодукопи-пасткопи-пастпрямой доступ
Многошаговые задачинетограниченноавтономно
Понимание проектанетфрагментарноецелостное
Качество кодачасто ошибаетсядля изолированных задачproduction-ready
Интеграциинетплагиныshell, git, API, MCP

05 / Рынок

Конкуренты Claude Code

Терминальные агенты (CLI)

ИнструментМодельЦенаОсобенности
Claude CodeOpus 4.6$100-200/месSWE-bench 80.8%, контекст 1M, memory
Gemini CLIGemini 2.5 ProБесплатно*1000 запросов/день, контекст 1M
OpenAI CodexGPT-5$200/месОблачные sandbox-ы, Rust-движок
AiderЛюбаяБесплатно + APIOpen-source, git-интеграция
OpenCodeЛюбаяБесплатноOpen-source, без подписки

* Gemini CLI — 1000 запросов/день бесплатно с Gemini 2.5 Pro

IDE-агенты

ИнструментЦенаОсобенности
Cursor$20-60/месОценка $29.3B, самый популярный AI IDE
GitHub Copilot$10-200/месИнтеграция с GitHub, автокомплит
Windsurf$15-60/месФорк VSCode, агентные потоки
ClineБесплатно + API5M+ установок, любая модель
Amazon QБесплатно-$19AWS-интеграция, enterprise

IDE-агенты дают визуальный фидбэк, CLI — гибкость и автоматизацию

Выбор зависит от задач: CLI vs IDE, бюджет, приватность, модель. Claude Code лидирует в сложных задачах, Gemini CLI — самый дешёвый вход, Cursor — самый популярный IDE.

06 / До и после

Мои согласованные изменения

Merged MR по всем репозиториям. Первый коммит с ИИ: 3 февраля 2026.

Merge Requests / месяц

Окт 2025
10 MR
Ноя 2025
7 MR
Дек 2025
23 MR
Янв 2026
2 MR
Фев 2026
28 MR
Мар (16д)
7 MR

Строк кода / месяц

Окт 2025
418
Ноя 2025
607
Дек 2025
3 158
Янв 2026
7 403 *
Фев 2026
5 879
Мар (16д)
2 280

* Янв: 7 401 строка = SIP-тестер (новый проект с нуля). Дек: 21 MR — рефакторинг с помощью чат-ИИ (не агент). Фев-мар: Claude Code (агент). Данные: 17 репозиториев. Без учёта собственных агентов (~11K строк).

77MR merged за 6 месяцев
1.7xускорение MR/мес после ИИ
1.4xускорение строк/мес после ИИ

07 / Стенд и тестирование

Агент развернул продукт в Docker по статье из Wiki

SIP-тестер (проект с нуля)

  • 15 тестовых сценариев
  • Avaya, Cisco, Yealink, Generic
  • Два медиа-сервера для кросс-хост звонков
  • 6 236 строк за январь

Эволюция стенда

Агент несколько раз обновлял стенд для нужной версии релиза, модифицировал конфигурацию для тестирования геозон и нескольких медиа-серверов

оговорка SIP-нюансы потребовали экспертизы коллеги-специалиста

Результаты стенда

ЗадачаРезультат
Оптимизация чтения CDRПройден
Новые поля CDR2/7 точек (механизм общий)
Очистка устаревших данныхПройден
Кросс-хост звонок (2 сервера)Пройден
In-memory хранилище (100+ тестов)Пройден

08 / Кейс

«Исчезающий patroni» — от бага до MR за один сеанс

Сообщение о баге
После обновления patroni падает: status=203/EXEC
Агент подключается по SSH
systemctl status, journalctl, проверка файловой системы
Причина найдена
install.sh пересоздаёт venv, но не сбрасывает флаг -> pip install пропущен -> бинарник исчез
Дополнительно
Отсутствует Requires=etcd.service в systemd-юните
MR merged
Фикс в 4 файлах, верификация коллегой-девопсом
Без агента — часы на поиск по install-скриптам и флагам. С агентом — один сеанс.

09 / Собственные агенты

Написаны с помощью Claude Code, работают на корпоративной модели

Код агентов написан в pair programming с Claude Code. Но в production они используют on-premise LLM (120B параметров) — данные не покидают сервер компании.

MR-Reviewer

Go · автоматический code review

ИИ: on-premise LLM (120B)

MR проанализировано21
Реальных багов найдено7
Ложных срабатываний8
Тредов resolved18/29

~50% точность — ограничение локальной модели (видит только diff, не весь файл)

QA-Analyser

Go · анализ QA-багов из JIRA

ИИ: on-premise LLM + Claude (верификация)

Тикетов21
Опубликовано76%
Подтверждено фиксом17%
Серая зона (не проверено)58%
Опровергнуто экспертом25%

12 тикетов проверены экспертом + JIRA. 33% опубликованных — с ошибкой.

Local AI Agent

Python, 4.1K строк · on-premise

ИИ: on-premise LLM (полностью локальный)

Тестов130
Инструментов6
Разработка3 дня

Данные не покидают сервер

10 / Рутина исчезает

JIRA, Wiki, Git — без переключений

  • «Посмотри задачу» -> агент идёт в JIRA API
  • «Создай MR» -> git push + GitLab API + описание
  • «Залогируй часы» -> git log -> группировка -> JIRA worklog
  • «Обнови wiki» -> Confluence API

~30-60 мин/день экономии на переключениях. Главное — не теряется контекст.

Чужие API — без документации

GitLab API v4 JIRA REST Confluence Telegram Bot YooKassa Groq (Whisper) Edge TTS vLLM / OpenAI

Агент понимает семантику API — не копирует примеры, а адаптирует под вашу архитектуру

11 / Побочные проекты

Что удалось реализовать с помощью ИИ

Автоматизация

  • MR-Reviewer (code review)
  • QA-Analyser (анализ багов)
  • Local AI Agent (on-premise)
  • Wiki-генератор (автодокументация)

Петпроекты и утилиты

  • pdf2voice (PDF -> голос)
  • voice2doc (голос -> текст)
  • ai-secretar (задачи, календарь)

Подключены: Edge TTS, Yandex SpeechKit, Groq Whisper, YooKassa

Инфраструктура

  • Настройка личного сервера с нуля
  • Docker, маршрутизация портов
  • Доменная маршрутизация, TLS

Claude Code с нуля настроил сервер, развернул сервисы, прокинул порты

23MR merged за 1.5 месяца (все прошли review)
+4 300строк согласованных изменений+ 6 200 — SIP-тестер (проект с нуля)
2+задачи параллельно — пока агент работает в одном окне, переключаешься на другоетребует навыка переключения между контекстами

12 / Почему ИИ ошибается

Анализ провалов QA-Analyser

25% анализов оказались неверными. Экспертная проверка выявила системные причины:

Не понимает смысл полей

Confidence 90%

Агент нашёл удалённый коммит и решил: «поле удалено -> данные пропали». Но это поле никогда не хранило то, что описано в баге. Бага нет — система работает по дизайну.

Самый уверенный анализ — полностью неверный.

Ложная корреляция по имени

Confidence 80%

Нашёл функцию с похожим именем — приписал ей роль в авторизации. Но функция не участвует в этом потоке. Проблема в другом сервисе (C++).

Вывод по имени, а не по call chain.

Не знает архитектуру

Confidence 72%

Предположил, что фронт получает данные через подписку (NATS). На самом деле — из HTTP response. Вся цепочка причин ошибочна.

Не знает Frontend-Backend паттерны проекта.

Итог: Подтверждено фиксом в коде — только 17%. Опровергнуто экспертом — 25%. Проблема: знания «какое поле что хранит», «как фронт общается с бэкендом» — в головах разработчиков, не в коде.

13 / Точность

Когда правки нужны, а когда нет

9 задач, 23 MR — все merged после review

Без правок (0-2)
33%
С правками (3+)
56%
Переработка
11%
Отклонено
0%

Критические кейсы

In-memory хранилище: 3 бага в алгоритме — агент написал код, reviewer нашёл ошибки

Async queue: агент удалил функции вместо рефакторинга — неправильно понял замечание reviewer

Агент ускоряет путь до первого рабочего варианта. Review человеком — обязателен.

14 / Промахи

Честно о провалах

Claude Code (pair programming с человеком)

ПромахУрок
Неверно понял замечание — удалил функции вместо рефакторингаПеречитывать diff после правок
Автономность — правил код без подтвержденияНастроить permissions
Force-push — потерялся контекст обсужденийНикогда при открытых тредах
Слепой коммит — CI упал на линтереmake lint && test && func

Claude Code видит файлы проекта — галлюцинации редки. Основные ошибки: неправильное понимание задачи.

On-premise LLM (120B) (автономные агенты)

ПромахУрок
Галлюцинации — «придумывал» методы и функцииВидит только diff, не весь файл
Кириллица + JSON — HTTP 400Промпты на EN, ответ на RU
Haiku-верификатор — 100% approvalСлабая модель не проверит сильную
~50% ложных срабатываний в MR-reviewЛокальная модель != Claude по качеству

Локальная модель — дешевле и приватнее, но заметно слабее. Подходит для первичного скрининга, не для финальных решений.

15 / Новая модель

Верификация вместо написания кода

Было: классическая разработка

Задача
Проектирование
Написание кода
Отладка
Тесты
Review
Merge

Стало: разработка с ИИ-агентом

Постановка
Агент: код + тесты + отладка
Верификация
Review
Merge
Старый навыкНовый навык
Писать кодФормулировать задачу
ОтлаживатьВерифицировать код ИИ
Знать синтаксисПонимать архитектуру
ГуглитьНаправлять агента
С ИИ нужно больше квалификации, не меньше. Верифицируешь решения по нескольким сервисам одновременно.

DORA 2025: с ИИ разработчик выдаёт в 2 раза больше MR, каждый в 2.5 раза крупнее. Время на написание кода освобождается — но его нужно вложить в более тщательную проверку. Иначе +9% багов (данные DORA).

16 / Три уровня верификации

Как снизить нагрузку на review

1. Автоматические проверки

lint, unit-тесты, func-тесты

Кто делаетАгент
Ловит~60%

Синтаксис, типизация, регрессии, стиль кода. Агент запускает сам, исправляет сам.

2. Стендовые испытания

Развёртывание, интеграция, логи

Кто делаетАгент
Ловит~25%

Интеграционные проблемы, которые unit-тесты не покрывают. Агент разворачивает стенд, прогоняет сценарии.

3. Review человеком

Архитектура, intent, бизнес-логика

Кто делаетЧеловек
Ловит~15%

Смысл, побочные эффекты, «правильно ли работает». Только человек.

Пример: In-memory хранилище — 100+ func-тестов + SIP-тестер прошли на стенде. Но 3 бага в логике нашёл reviewer. Тесты проверили «работает», человек проверил «правильно ли».

17 / Ключевой инструмент

Что такое CLAUDE.md

Текстовый файл в корне проекта — «инструкция для агента». Агент читает его в начале каждой сессии и сразу понимает контекст.

Что туда пишут:

  • Структура проекта и репозиториев
  • Стиль кода, конвенции, язык комментариев
  • Команды: как собрать, протестировать, задеплоить
  • Чеклисты: что проверить перед коммитом
  • Интеграции: адреса серверов, API, стенды
  • Типичные ошибки и как их избегать
## Стиль кода - Комментарии — на русском языке ## Pre-commit чеклист 1. make gen 2. make lint 3. make test 4. make func ## Тестовый стенд - SSH: dev@staging-server - Web: http://staging:8080 ## Review MR - Inline-комментарии через GitLab API - Тон: вежливый, аргументированный

Инвестиция: 2-3 часа на начальное описание -> месяцы экономии.

Важно: не нужно писать всё вручную! Агент сам дополняет CLAUDE.md по ходу работы.

Режимы автономности:

  • строгий спрашивает разрешение на каждую операцию
  • обычный читает сам, спрашивает перед записью
  • автономный выполняет задачу, переспрашивает только непонятные места

Аналогия CLAUDE.md — это как онбординг нового сотрудника, только для ИИ. Файл растёт вместе с проектом — агент сам предлагает дополнения из своего опыта работы с кодом.

18 / Важная оговорка

Это подходит не всем

Кому подходит

  • Любит делегировать и думать об архитектуре
  • Быстро переключается между контекстами
  • Важен результат, а не процесс написания каждой строчки
  • Готов верифицировать чужой код

Кому может не подойти

  • Получает удовольствие от ручного кода
  • Предпочитает полный контроль
  • Дискомфорт от взаимодействия с ИИ
  • И это нормально
Внедрение ИИ — не приказ. Это создание условий, где заинтересованные могут попробовать. Результаты сами станут лучшей рекламой.

19 / Закрытый контур

Что можно развернуть on-premise

Модели (март 2026)

МодельVRAMУровень
Qwen3-Coder-480B~80 GB~ Claude Sonnet
DeepSeek-V3.2~80 GB> GPT-4.5
Kimi-Dev-72B~140 GBSOTA SWE-bench
Qwen3-235B~50 GB~ o3-mini
Llama 4 Scout~40 GBСредний

Агенты и IDE

ИнструментТип
OpenHandsАгент ~ Claude Code
TabbyIDE, enterprise SSO
ClineVSCode-агент
AiderCLI + git
ContinueVSCode + JetBrains

Старт: Qwen3-Coder + OpenHands или DeepSeek-V3 + Tabby

20 / Экономика

Реальные расходы из моего опыта

Мой расход через API (данные ccusage)

МесяцТокеновСтоимость API
Фев 20261.73B$1 062
Мар 2026 (16д)1.54B$1 067
Итого3.27B$2 129
Подписка (фев+мар)
$200
Если бы API
$2 130

Подписка в ~10x дешевле. Max 5x: $100/мес. Через API тот же объём обошёлся бы в $2 130.

* В статистику входят также личные петпроекты.

Сравнение инструментов ($/мес)

Copilot Starter
$10
Cursor Pro
$20
Claude Max 5x
$100
Claude Max 20x
$200
On-premise
$0 *

* On-premise: нужны GPU (H100), но без ежемесячной подписки

21 / Риски

О чём нужно думать

РискУровеньМитигация
Утечка данныхВысокийЛокальные модели или enterprise-контракт
Слепое довериеВысокийОбязательный review. Pre-commit чеклист
Деградация навыковСредний«Давай решим вместе», не «сгенерируй»
ГаллюцинацииСреднийТесты, линтер, CI — всегда проверять
Привязка к поставщикуСреднийCLAUDE.md — текстовые файлы, переносимы
СтоимостьНизкийROI положительный при 1-2 часах экономии/день
DORA 2025 (5 000 разработчиков): с ИИ разработчик выдаёт в 2 раза больше MR, каждый в 2.5 раза крупнее. Время освобождается — но если не вложить его в тщательную проверку, багов становится на 9% больше.

22 / Паттерны

Что работает и что нет

Антипаттерны

  • «ИИ пишет, я коммичу» — прямой путь к багам
  • «ИИ — автокомплит» — Opus как Copilot = микроскопом гвозди
  • «ИИ заменит разработчиков» — нет, но разработчик с ИИ будет эффективнее

Эффективные паттерны

  • Pair Programming: вы — архитектор, агент — исполнитель
  • CLAUDE.md: онбординг агента, 2-3 часа -> месяцы экономии
  • Итеративный цикл: код -> lint -> test -> review -> fix за минуты
  • Разделение: человек = архитектура, агент = реализация
DORA Report 2025 (Google): «ИИ — это усилитель. Он увеличивает существующие сильные и слабые стороны организации. Наибольшая отдача — не от инструментов, а от организационной системы.»
dora.dev/research/2025/dora-report

23 / Автономный vs pair

Автономный агент vs агент + разработчик

Автономный агент (on-premise LLM)

Анализирует баги без участия человека

Подтверждено фиксом17%
Не проверено58%
Опровергнуто экспертом25%

33% опубликованных — с ошибкой. Не понимает бизнес-смысл полей и архитектуру.

Pair programming (Claude Code + разработчик)

Разработчик направляет, агент ищет по коду и логам

БагДиагнозРезультат
Ошибка в CDRВерныйMR merged
Падение patroniВерныйMR merged

100% корректных диагнозов. Оба MR прошли review без корректировки диагноза.

Разница: автономный ИИ строит убедительные, но часто неверные объяснения. ИИ + человек = верный диагноз с первого раза. Ключевое — разработчик понимает бизнес-смысл, агент ускоряет поиск по коду.

24 / С чего начать

Рекомендации для команд

Неделя 1
Один человек пробует на реальной задаче. Настраивает CLAUDE.md.
Недели 2-3
Первые задачи: тесты, документация, мелкие баг-фиксы
Месяц 1
Фичи средней сложности, рефакторинг
Месяц 2+
Полноценное pair programming на любых задачах
Измеряйте: время на задачу до/после, количество багов, скорость review

25 / Итоги

Что я вынес из 2 месяцев работы с ИИ

Работает

  • Pair programming — ИИ как исполнитель, вы как архитектор
  • CLAUDE.md — онбординг агента окупается за дни
  • Рутина на агенте — JIRA, Git, Wiki, стенд
  • Новые проекты — SIP-тестер за месяц, агенты за дни
  • Диагностика багов — SSH + логи + код за один сеанс

Не работает

  • Автономный анализ — 33% ошибок без человека
  • Слепое доверие — 3 бага в алгоритме, прошедшем тесты
  • Локальные модели для сложных задач — ~50% ложных срабатываний
  • Замена review — архитектуру проверяет только человек
1.7xускорение MR/мес
0%MR отклонено
33%MR без правок на review

Спасибо

Вопросы?

Павел Тихомиров · patihomirov.ru

patihomirov.ru/slides/ai-agents

Эта презентация тоже была сделана при помощи Claude Code