2026

ИИ-агенты в разработке

Личный опыт внедрения: цифры, промахи, выводы

Павел Тихомиров · Go-разработчик · enterprise VoIP/UC · patihomirov.ru

00 / Контекст

Кто я и о чём доклад

Go-разработчик, enterprise-телефония (IVA)
Бэкенд: микросервисы, PostgreSQL, NATS, SIP
10+ репозиториев, команда из 5 человек
ИИ-агенты с февраля 2026

Это не рекламный доклад. Я покажу реальные цифры, реальные провалы и реальные выводы из 2 месяцев ежедневной работы с ИИ-агентами.

77MR merged за 6 месяцев

3собственных ИИ-агента написано

3.3Bтокенов за 2 месяца
подписка $200

01 / Ключевое различие

Чат с ИИ vs ИИ-агент

Чат (ChatGPT, Claude.ai)

Режим «вопрос -> ответ»
Не видит ваш код и проект
Копи-паст фрагментов туда-обратно
Контекст теряется между сессиями
Умный справочник

Агент (Claude Code, Cursor)

Работает внутри вашего проекта
Видит файлы, git, тесты, линтер
Многошаговые задачи автономно
Помнит контекст между сессиями
Полноценный напарник

Чат — позвонить эксперту и описать проблему голосом.
Агент — посадить эксперта за ваш рабочий стол.

02 / Как это устроено

Чат vs Агент: архитектура

Чат с ИИ

Разработчик

копирует код в окно чата

↕ текст

Модель (LLM)

контекст: только то, что вставили

Контекст

фрагмент кода ваш вопрос история чата

Нет файлов. Нет git. Нет тестов.

ИИ-агент (Claude Code)

Разработчик

ставит задачу, верифицирует результат

↕ задача / результат

Модель (LLM)

+ CLAUDE.md + memory между сессиями

↕ вызывает инструменты

чтение файлов правка кода терминал git grep SSH API

Контекст

весь проект git история тесты линтер тест. стенд JIRA GitLab

03 / Почему сейчас

Критичность момента

1M токенов контекста у Opus 4.6 — весь микросервис «в голове»

2-5x ускорение команд, использующих ИИ-агенты

10 мин настройка Claude Code. + 1 час на CLAUDE.md

Экспоненциальный рост: 2024 -> 2025 -> 2026 — качественные скачки, не инкременты
Рутина убивает мотивацию: ИИ забирает boilerplate — вы фокусируетесь на архитектуре

04 / Разница в мощности

От стажёра до senior-инженера

Критерий	GPT-3.5 (2023)	GPT-4o / Sonnet	Opus 4.6 + Code
Контекст	4-8K	128-200K	1M + memory
Доступ к коду	копи-паст	копи-паст	прямой доступ
Многошаговые задачи	нет	ограниченно	автономно
Понимание проекта	нет	фрагментарное	целостное
Качество кода	часто ошибается	для изолированных задач	production-ready
Интеграции	нет	плагины	shell, git, API, MCP

05 / Рынок

Конкуренты Claude Code

Терминальные агенты (CLI)

Инструмент	Модель	Цена	Особенности
Claude Code	Opus 4.6	$100-200/мес	SWE-bench 80.8%, контекст 1M, memory
Gemini CLI	Gemini 2.5 Pro	Бесплатно*	1000 запросов/день, контекст 1M
OpenAI Codex	GPT-5	$200/мес	Облачные sandbox-ы, Rust-движок
Aider	Любая	Бесплатно + API	Open-source, git-интеграция
OpenCode	Любая	Бесплатно	Open-source, без подписки

* Gemini CLI — 1000 запросов/день бесплатно с Gemini 2.5 Pro

IDE-агенты

Инструмент	Цена	Особенности
Cursor	$20-60/мес	Оценка $29.3B, самый популярный AI IDE
GitHub Copilot	$10-200/мес	Интеграция с GitHub, автокомплит
Windsurf	$15-60/мес	Форк VSCode, агентные потоки
Cline	Бесплатно + API	5M+ установок, любая модель
Amazon Q	Бесплатно-$19	AWS-интеграция, enterprise

IDE-агенты дают визуальный фидбэк, CLI — гибкость и автоматизацию

Выбор зависит от задач: CLI vs IDE, бюджет, приватность, модель. Claude Code лидирует в сложных задачах, Gemini CLI — самый дешёвый вход, Cursor — самый популярный IDE.

06 / До и после

Мои согласованные изменения

Merged MR по всем репозиториям. Первый коммит с ИИ: 3 февраля 2026.

Merge Requests / месяц

Окт 2025

10 MR

Ноя 2025

7 MR

Дек 2025

23 MR

Янв 2026

2 MR

Фев 2026

28 MR

Мар (16д)

7 MR

Строк кода / месяц

Окт 2025

418

Ноя 2025

607

Дек 2025

3 158

Янв 2026

7 403 *

Фев 2026

5 879

Мар (16д)

2 280

* Янв: 7 401 строка = SIP-тестер (новый проект с нуля). Дек: 21 MR — рефакторинг с помощью чат-ИИ (не агент). Фев-мар: Claude Code (агент). Данные: 17 репозиториев. Без учёта собственных агентов (~11K строк).

77MR merged за 6 месяцев

1.7xускорение MR/мес после ИИ

1.4xускорение строк/мес после ИИ

07 / Стенд и тестирование

Агент развернул продукт в Docker по статье из Wiki

SIP-тестер (проект с нуля)

15 тестовых сценариев
Avaya, Cisco, Yealink, Generic
Два медиа-сервера для кросс-хост звонков
6 236 строк за январь

Эволюция стенда

Агент несколько раз обновлял стенд для нужной версии релиза, модифицировал конфигурацию для тестирования геозон и нескольких медиа-серверов

оговорка SIP-нюансы потребовали экспертизы коллеги-специалиста

Результаты стенда

Задача	Результат
Оптимизация чтения CDR	Пройден
Новые поля CDR	2/7 точек (механизм общий)
Очистка устаревших данных	Пройден
Кросс-хост звонок (2 сервера)	Пройден
In-memory хранилище (100+ тестов)	Пройден

08 / Кейс

«Исчезающий patroni» — от бага до MR за один сеанс

Сообщение о баге

После обновления patroni падает: status=203/EXEC

Агент подключается по SSH

systemctl status, journalctl, проверка файловой системы

Причина найдена

install.sh пересоздаёт venv, но не сбрасывает флаг -> pip install пропущен -> бинарник исчез

Дополнительно

Отсутствует Requires=etcd.service в systemd-юните

MR merged

Фикс в 4 файлах, верификация коллегой-девопсом

Без агента — часы на поиск по install-скриптам и флагам. С агентом — один сеанс.

09 / Собственные агенты

Написаны с помощью Claude Code, работают на корпоративной модели

Код агентов написан в pair programming с Claude Code. Но в production они используют on-premise LLM (120B параметров) — данные не покидают сервер компании.

MR-Reviewer

Go · автоматический code review

ИИ: on-premise LLM (120B)

MR проанализировано21

Реальных багов найдено7

Ложных срабатываний8

Тредов resolved18/29

~50% точность — ограничение локальной модели (видит только diff, не весь файл)

QA-Analyser

Go · анализ QA-багов из JIRA

ИИ: on-premise LLM + Claude (верификация)

Тикетов21

Опубликовано76%

Подтверждено фиксом17%

Серая зона (не проверено)58%

Опровергнуто экспертом25%

12 тикетов проверены экспертом + JIRA. 33% опубликованных — с ошибкой.

Local AI Agent

Python, 4.1K строк · on-premise

ИИ: on-premise LLM (полностью локальный)

Тестов130

Инструментов6

Разработка3 дня

Данные не покидают сервер

10 / Рутина исчезает

JIRA, Wiki, Git — без переключений

«Посмотри задачу» -> агент идёт в JIRA API
«Создай MR» -> git push + GitLab API + описание
«Залогируй часы» -> git log -> группировка -> JIRA worklog
«Обнови wiki» -> Confluence API

~30-60 мин/день экономии на переключениях. Главное — не теряется контекст.

Чужие API — без документации

GitLab API v4 JIRA REST Confluence Telegram Bot YooKassa Groq (Whisper) Edge TTS vLLM / OpenAI

Агент понимает семантику API — не копирует примеры, а адаптирует под вашу архитектуру

11 / Побочные проекты

Что удалось реализовать с помощью ИИ

Автоматизация

MR-Reviewer (code review)
QA-Analyser (анализ багов)
Local AI Agent (on-premise)
Wiki-генератор (автодокументация)

Петпроекты и утилиты

pdf2voice (PDF -> голос)
voice2doc (голос -> текст)
ai-secretar (задачи, календарь)

Подключены: Edge TTS, Yandex SpeechKit, Groq Whisper, YooKassa

Инфраструктура

Настройка личного сервера с нуля
Docker, маршрутизация портов
Доменная маршрутизация, TLS

Claude Code с нуля настроил сервер, развернул сервисы, прокинул порты

23MR merged за 1.5 месяца (все прошли review)

+4 300строк согласованных изменений+ 6 200 — SIP-тестер (проект с нуля)

2+задачи параллельно — пока агент работает в одном окне, переключаешься на другоетребует навыка переключения между контекстами

12 / Почему ИИ ошибается

Анализ провалов QA-Analyser

25% анализов оказались неверными. Экспертная проверка выявила системные причины:

Не понимает смысл полей

Confidence 90%

Агент нашёл удалённый коммит и решил: «поле удалено -> данные пропали». Но это поле никогда не хранило то, что описано в баге. Бага нет — система работает по дизайну.

Самый уверенный анализ — полностью неверный.

Ложная корреляция по имени

Confidence 80%

Нашёл функцию с похожим именем — приписал ей роль в авторизации. Но функция не участвует в этом потоке. Проблема в другом сервисе (C++).

Вывод по имени, а не по call chain.

Не знает архитектуру

Confidence 72%

Предположил, что фронт получает данные через подписку (NATS). На самом деле — из HTTP response. Вся цепочка причин ошибочна.

Не знает Frontend-Backend паттерны проекта.

Итог: Подтверждено фиксом в коде — только 17%. Опровергнуто экспертом — 25%. Проблема: знания «какое поле что хранит», «как фронт общается с бэкендом» — в головах разработчиков, не в коде.

13 / Точность

Когда правки нужны, а когда нет

9 задач, 23 MR — все merged после review

Без правок (0-2)

33%

С правками (3+)

56%

Переработка

11%

Отклонено

0%

Критические кейсы

In-memory хранилище: 3 бага в алгоритме — агент написал код, reviewer нашёл ошибки

Async queue: агент удалил функции вместо рефакторинга — неправильно понял замечание reviewer

Агент ускоряет путь до первого рабочего варианта. Review человеком — обязателен.

14 / Промахи

Честно о провалах

Claude Code (pair programming с человеком)

Промах	Урок
Неверно понял замечание — удалил функции вместо рефакторинга	Перечитывать diff после правок
Автономность — правил код без подтверждения	Настроить permissions
Force-push — потерялся контекст обсуждений	Никогда при открытых тредах
Слепой коммит — CI упал на линтере	make lint && test && func

Claude Code видит файлы проекта — галлюцинации редки. Основные ошибки: неправильное понимание задачи.

On-premise LLM (120B) (автономные агенты)

Промах	Урок
Галлюцинации — «придумывал» методы и функции	Видит только diff, не весь файл
Кириллица + JSON — HTTP 400	Промпты на EN, ответ на RU
Haiku-верификатор — 100% approval	Слабая модель не проверит сильную
~50% ложных срабатываний в MR-review	Локальная модель != Claude по качеству

Локальная модель — дешевле и приватнее, но заметно слабее. Подходит для первичного скрининга, не для финальных решений.

15 / Новая модель

Верификация вместо написания кода

Было: классическая разработка

Задача

Проектирование

Написание кода

Отладка

Тесты

Review

Merge

Стало: разработка с ИИ-агентом

Постановка

Агент: код + тесты + отладка

Верификация

Review

Merge

Старый навык	Новый навык
Писать код	Формулировать задачу
Отлаживать	Верифицировать код ИИ
Знать синтаксис	Понимать архитектуру
Гуглить	Направлять агента

С ИИ нужно больше квалификации, не меньше. Верифицируешь решения по нескольким сервисам одновременно.

DORA 2025: с ИИ разработчик выдаёт в 2 раза больше MR, каждый в 2.5 раза крупнее. Время на написание кода освобождается — но его нужно вложить в более тщательную проверку. Иначе +9% багов (данные DORA).

16 / Три уровня верификации

Как снизить нагрузку на review

1. Автоматические проверки

lint, unit-тесты, func-тесты

Кто делаетАгент

Ловит~60%

Синтаксис, типизация, регрессии, стиль кода. Агент запускает сам, исправляет сам.

2. Стендовые испытания

Развёртывание, интеграция, логи

Кто делаетАгент

Ловит~25%

Интеграционные проблемы, которые unit-тесты не покрывают. Агент разворачивает стенд, прогоняет сценарии.

3. Review человеком

Архитектура, intent, бизнес-логика

Кто делаетЧеловек

Ловит~15%

Смысл, побочные эффекты, «правильно ли работает». Только человек.

Пример: In-memory хранилище — 100+ func-тестов + SIP-тестер прошли на стенде. Но 3 бага в логике нашёл reviewer. Тесты проверили «работает», человек проверил «правильно ли».

17 / Ключевой инструмент

Что такое CLAUDE.md

Текстовый файл в корне проекта — «инструкция для агента». Агент читает его в начале каждой сессии и сразу понимает контекст.

Что туда пишут:

Структура проекта и репозиториев
Стиль кода, конвенции, язык комментариев
Команды: как собрать, протестировать, задеплоить
Чеклисты: что проверить перед коммитом
Интеграции: адреса серверов, API, стенды
Типичные ошибки и как их избегать

## Стиль кода
- Комментарии — на русском языке

## Pre-commit чеклист
1. make gen
2. make lint
3. make test
4. make func

## Тестовый стенд
- SSH: dev@staging-server
- Web: http://staging:8080

## Review MR
- Inline-комментарии через GitLab API
- Тон: вежливый, аргументированный

Инвестиция: 2-3 часа на начальное описание -> месяцы экономии.

Важно: не нужно писать всё вручную! Агент сам дополняет CLAUDE.md по ходу работы.

Режимы автономности:

строгий спрашивает разрешение на каждую операцию
обычный читает сам, спрашивает перед записью
автономный выполняет задачу, переспрашивает только непонятные места

Аналогия CLAUDE.md — это как онбординг нового сотрудника, только для ИИ. Файл растёт вместе с проектом — агент сам предлагает дополнения из своего опыта работы с кодом.

18 / Важная оговорка

Это подходит не всем

Кому подходит

Любит делегировать и думать об архитектуре
Быстро переключается между контекстами
Важен результат, а не процесс написания каждой строчки
Готов верифицировать чужой код

Кому может не подойти

Получает удовольствие от ручного кода
Предпочитает полный контроль
Дискомфорт от взаимодействия с ИИ
И это нормально

Внедрение ИИ — не приказ. Это создание условий, где заинтересованные могут попробовать. Результаты сами станут лучшей рекламой.

19 / Закрытый контур

Что можно развернуть on-premise

Модели (март 2026)

Модель	VRAM	Уровень
Qwen3-Coder-480B	~80 GB	~ Claude Sonnet
DeepSeek-V3.2	~80 GB	> GPT-4.5
Kimi-Dev-72B	~140 GB	SOTA SWE-bench
Qwen3-235B	~50 GB	~ o3-mini
Llama 4 Scout	~40 GB	Средний

Агенты и IDE

Инструмент	Тип
OpenHands	Агент ~ Claude Code
Tabby	IDE, enterprise SSO
Cline	VSCode-агент
Aider	CLI + git
Continue	VSCode + JetBrains

Старт: Qwen3-Coder + OpenHands или DeepSeek-V3 + Tabby

20 / Экономика

Реальные расходы из моего опыта

Мой расход через API (данные ccusage)

Месяц	Токенов	Стоимость API
Фев 2026	1.73B	$1 062
Мар 2026 (16д)	1.54B	$1 067
Итого	3.27B	$2 129

Подписка (фев+мар)

$200

Если бы API

$2 130

Подписка в ~10x дешевле. Max 5x: $100/мес. Через API тот же объём обошёлся бы в $2 130.

* В статистику входят также личные петпроекты.

Сравнение инструментов ($/мес)

Copilot Starter

$10

Cursor Pro

$20

Claude Max 5x

$100

Claude Max 20x

$200

On-premise

$0 *

* On-premise: нужны GPU (H100), но без ежемесячной подписки

21 / Риски

О чём нужно думать

Риск	Уровень	Митигация
Утечка данных	Высокий	Локальные модели или enterprise-контракт
Слепое доверие	Высокий	Обязательный review. Pre-commit чеклист
Деградация навыков	Средний	«Давай решим вместе», не «сгенерируй»
Галлюцинации	Средний	Тесты, линтер, CI — всегда проверять
Привязка к поставщику	Средний	CLAUDE.md — текстовые файлы, переносимы
Стоимость	Низкий	ROI положительный при 1-2 часах экономии/день

DORA 2025 (5 000 разработчиков): с ИИ разработчик выдаёт в 2 раза больше MR, каждый в 2.5 раза крупнее. Время освобождается — но если не вложить его в тщательную проверку, багов становится на 9% больше.

22 / Паттерны

Что работает и что нет

Антипаттерны

«ИИ пишет, я коммичу» — прямой путь к багам
«ИИ — автокомплит» — Opus как Copilot = микроскопом гвозди
«ИИ заменит разработчиков» — нет, но разработчик с ИИ будет эффективнее

Эффективные паттерны

Pair Programming: вы — архитектор, агент — исполнитель
CLAUDE.md: онбординг агента, 2-3 часа -> месяцы экономии
Итеративный цикл: код -> lint -> test -> review -> fix за минуты
Разделение: человек = архитектура, агент = реализация

DORA Report 2025 (Google): «ИИ — это усилитель. Он увеличивает существующие сильные и слабые стороны организации. Наибольшая отдача — не от инструментов, а от организационной системы.»
dora.dev/research/2025/dora-report

23 / Автономный vs pair

Автономный агент vs агент + разработчик

Автономный агент (on-premise LLM)

Анализирует баги без участия человека

Подтверждено фиксом17%

Не проверено58%

Опровергнуто экспертом25%

33% опубликованных — с ошибкой. Не понимает бизнес-смысл полей и архитектуру.

Pair programming (Claude Code + разработчик)

Разработчик направляет, агент ищет по коду и логам

Баг	Диагноз	Результат
Ошибка в CDR	Верный	MR merged
Падение patroni	Верный	MR merged

100% корректных диагнозов. Оба MR прошли review без корректировки диагноза.

Разница: автономный ИИ строит убедительные, но часто неверные объяснения. ИИ + человек = верный диагноз с первого раза. Ключевое — разработчик понимает бизнес-смысл, агент ускоряет поиск по коду.

24 / С чего начать

Что я вынес из 2 месяцев работы с ИИ

Работает

Pair programming — ИИ как исполнитель, вы как архитектор
CLAUDE.md — онбординг агента окупается за дни
Рутина на агенте — JIRA, Git, Wiki, стенд
Новые проекты — SIP-тестер за месяц, агенты за дни
Диагностика багов — SSH + логи + код за один сеанс

Не работает

Автономный анализ — 33% ошибок без человека
Слепое доверие — 3 бага в алгоритме, прошедшем тесты
Локальные модели для сложных задач — ~50% ложных срабатываний
Замена review — архитектуру проверяет только человек

1.7xускорение MR/мес

0%MR отклонено

33%MR без правок на review

Спасибо

Вопросы?

Павел Тихомиров · patihomirov.ru

patihomirov.ru/slides/ai-agents

Эта презентация тоже была сделана при помощи Claude Code