Личный опыт внедрения: цифры, промахи, выводы
Павел Тихомиров · Go-разработчик · enterprise VoIP/UC · patihomirov.ru
Это не рекламный доклад. Я покажу реальные цифры, реальные провалы и реальные выводы из 2 месяцев ежедневной работы с ИИ-агентами.
Чат — позвонить эксперту и описать проблему голосом.
Агент — посадить эксперта за ваш рабочий стол.
| Критерий | GPT-3.5 (2023) | GPT-4o / Sonnet | Opus 4.6 + Code |
|---|---|---|---|
| Контекст | 4-8K | 128-200K | 1M + memory |
| Доступ к коду | копи-паст | копи-паст | прямой доступ |
| Многошаговые задачи | нет | ограниченно | автономно |
| Понимание проекта | нет | фрагментарное | целостное |
| Качество кода | часто ошибается | для изолированных задач | production-ready |
| Интеграции | нет | плагины | shell, git, API, MCP |
| Инструмент | Модель | Цена | Особенности |
|---|---|---|---|
| Claude Code | Opus 4.6 | $100-200/мес | SWE-bench 80.8%, контекст 1M, memory |
| Gemini CLI | Gemini 2.5 Pro | Бесплатно* | 1000 запросов/день, контекст 1M |
| OpenAI Codex | GPT-5 | $200/мес | Облачные sandbox-ы, Rust-движок |
| Aider | Любая | Бесплатно + API | Open-source, git-интеграция |
| OpenCode | Любая | Бесплатно | Open-source, без подписки |
* Gemini CLI — 1000 запросов/день бесплатно с Gemini 2.5 Pro
| Инструмент | Цена | Особенности |
|---|---|---|
| Cursor | $20-60/мес | Оценка $29.3B, самый популярный AI IDE |
| GitHub Copilot | $10-200/мес | Интеграция с GitHub, автокомплит |
| Windsurf | $15-60/мес | Форк VSCode, агентные потоки |
| Cline | Бесплатно + API | 5M+ установок, любая модель |
| Amazon Q | Бесплатно-$19 | AWS-интеграция, enterprise |
IDE-агенты дают визуальный фидбэк, CLI — гибкость и автоматизацию
Выбор зависит от задач: CLI vs IDE, бюджет, приватность, модель. Claude Code лидирует в сложных задачах, Gemini CLI — самый дешёвый вход, Cursor — самый популярный IDE.
Merged MR по всем репозиториям. Первый коммит с ИИ: 3 февраля 2026.
* Янв: 7 401 строка = SIP-тестер (новый проект с нуля). Дек: 21 MR — рефакторинг с помощью чат-ИИ (не агент). Фев-мар: Claude Code (агент). Данные: 17 репозиториев. Без учёта собственных агентов (~11K строк).
Агент несколько раз обновлял стенд для нужной версии релиза, модифицировал конфигурацию для тестирования геозон и нескольких медиа-серверов
оговорка SIP-нюансы потребовали экспертизы коллеги-специалиста
| Задача | Результат |
|---|---|
| Оптимизация чтения CDR | Пройден |
| Новые поля CDR | 2/7 точек (механизм общий) |
| Очистка устаревших данных | Пройден |
| Кросс-хост звонок (2 сервера) | Пройден |
| In-memory хранилище (100+ тестов) | Пройден |
status=203/EXECRequires=etcd.service в systemd-юнитеБез агента — часы на поиск по install-скриптам и флагам. С агентом — один сеанс.
Код агентов написан в pair programming с Claude Code. Но в production они используют on-premise LLM (120B параметров) — данные не покидают сервер компании.
Go · автоматический code review
ИИ: on-premise LLM (120B)
~50% точность — ограничение локальной модели (видит только diff, не весь файл)
Go · анализ QA-багов из JIRA
ИИ: on-premise LLM + Claude (верификация)
12 тикетов проверены экспертом + JIRA. 33% опубликованных — с ошибкой.
Python, 4.1K строк · on-premise
ИИ: on-premise LLM (полностью локальный)
Данные не покидают сервер
~30-60 мин/день экономии на переключениях. Главное — не теряется контекст.
Агент понимает семантику API — не копирует примеры, а адаптирует под вашу архитектуру
Подключены: Edge TTS, Yandex SpeechKit, Groq Whisper, YooKassa
Claude Code с нуля настроил сервер, развернул сервисы, прокинул порты
25% анализов оказались неверными. Экспертная проверка выявила системные причины:
Confidence 90%
Агент нашёл удалённый коммит и решил: «поле удалено -> данные пропали». Но это поле никогда не хранило то, что описано в баге. Бага нет — система работает по дизайну.
Самый уверенный анализ — полностью неверный.
Confidence 80%
Нашёл функцию с похожим именем — приписал ей роль в авторизации. Но функция не участвует в этом потоке. Проблема в другом сервисе (C++).
Вывод по имени, а не по call chain.
Confidence 72%
Предположил, что фронт получает данные через подписку (NATS). На самом деле — из HTTP response. Вся цепочка причин ошибочна.
Не знает Frontend-Backend паттерны проекта.
Итог: Подтверждено фиксом в коде — только 17%. Опровергнуто экспертом — 25%. Проблема: знания «какое поле что хранит», «как фронт общается с бэкендом» — в головах разработчиков, не в коде.
9 задач, 23 MR — все merged после review
In-memory хранилище: 3 бага в алгоритме — агент написал код, reviewer нашёл ошибки
Async queue: агент удалил функции вместо рефакторинга — неправильно понял замечание reviewer
Агент ускоряет путь до первого рабочего варианта. Review человеком — обязателен.
| Промах | Урок |
|---|---|
| Неверно понял замечание — удалил функции вместо рефакторинга | Перечитывать diff после правок |
| Автономность — правил код без подтверждения | Настроить permissions |
| Force-push — потерялся контекст обсуждений | Никогда при открытых тредах |
| Слепой коммит — CI упал на линтере | make lint && test && func |
Claude Code видит файлы проекта — галлюцинации редки. Основные ошибки: неправильное понимание задачи.
| Промах | Урок |
|---|---|
| Галлюцинации — «придумывал» методы и функции | Видит только diff, не весь файл |
| Кириллица + JSON — HTTP 400 | Промпты на EN, ответ на RU |
| Haiku-верификатор — 100% approval | Слабая модель не проверит сильную |
| ~50% ложных срабатываний в MR-review | Локальная модель != Claude по качеству |
Локальная модель — дешевле и приватнее, но заметно слабее. Подходит для первичного скрининга, не для финальных решений.
Было: классическая разработка
Стало: разработка с ИИ-агентом
| Старый навык | Новый навык |
|---|---|
| Писать код | Формулировать задачу |
| Отлаживать | Верифицировать код ИИ |
| Знать синтаксис | Понимать архитектуру |
| Гуглить | Направлять агента |
С ИИ нужно больше квалификации, не меньше. Верифицируешь решения по нескольким сервисам одновременно.
DORA 2025: с ИИ разработчик выдаёт в 2 раза больше MR, каждый в 2.5 раза крупнее. Время на написание кода освобождается — но его нужно вложить в более тщательную проверку. Иначе +9% багов (данные DORA).
lint, unit-тесты, func-тесты
Синтаксис, типизация, регрессии, стиль кода. Агент запускает сам, исправляет сам.
Развёртывание, интеграция, логи
Интеграционные проблемы, которые unit-тесты не покрывают. Агент разворачивает стенд, прогоняет сценарии.
Архитектура, intent, бизнес-логика
Смысл, побочные эффекты, «правильно ли работает». Только человек.
Пример: In-memory хранилище — 100+ func-тестов + SIP-тестер прошли на стенде. Но 3 бага в логике нашёл reviewer. Тесты проверили «работает», человек проверил «правильно ли».
Текстовый файл в корне проекта — «инструкция для агента». Агент читает его в начале каждой сессии и сразу понимает контекст.
Инвестиция: 2-3 часа на начальное описание -> месяцы экономии.
Важно: не нужно писать всё вручную! Агент сам дополняет CLAUDE.md по ходу работы.
Режимы автономности:
Аналогия CLAUDE.md — это как онбординг нового сотрудника, только для ИИ. Файл растёт вместе с проектом — агент сам предлагает дополнения из своего опыта работы с кодом.
Внедрение ИИ — не приказ. Это создание условий, где заинтересованные могут попробовать. Результаты сами станут лучшей рекламой.
| Модель | VRAM | Уровень |
|---|---|---|
| Qwen3-Coder-480B | ~80 GB | ~ Claude Sonnet |
| DeepSeek-V3.2 | ~80 GB | > GPT-4.5 |
| Kimi-Dev-72B | ~140 GB | SOTA SWE-bench |
| Qwen3-235B | ~50 GB | ~ o3-mini |
| Llama 4 Scout | ~40 GB | Средний |
| Инструмент | Тип |
|---|---|
| OpenHands | Агент ~ Claude Code |
| Tabby | IDE, enterprise SSO |
| Cline | VSCode-агент |
| Aider | CLI + git |
| Continue | VSCode + JetBrains |
Старт: Qwen3-Coder + OpenHands или DeepSeek-V3 + Tabby
| Месяц | Токенов | Стоимость API |
|---|---|---|
| Фев 2026 | 1.73B | $1 062 |
| Мар 2026 (16д) | 1.54B | $1 067 |
| Итого | 3.27B | $2 129 |
Подписка в ~10x дешевле. Max 5x: $100/мес. Через API тот же объём обошёлся бы в $2 130.
* В статистику входят также личные петпроекты.
* On-premise: нужны GPU (H100), но без ежемесячной подписки
| Риск | Уровень | Митигация |
|---|---|---|
| Утечка данных | Высокий | Локальные модели или enterprise-контракт |
| Слепое доверие | Высокий | Обязательный review. Pre-commit чеклист |
| Деградация навыков | Средний | «Давай решим вместе», не «сгенерируй» |
| Галлюцинации | Средний | Тесты, линтер, CI — всегда проверять |
| Привязка к поставщику | Средний | CLAUDE.md — текстовые файлы, переносимы |
| Стоимость | Низкий | ROI положительный при 1-2 часах экономии/день |
DORA 2025 (5 000 разработчиков): с ИИ разработчик выдаёт в 2 раза больше MR, каждый в 2.5 раза крупнее. Время освобождается — но если не вложить его в тщательную проверку, багов становится на 9% больше.
DORA Report 2025 (Google): «ИИ — это усилитель. Он увеличивает существующие сильные и слабые стороны организации. Наибольшая отдача — не от инструментов, а от организационной системы.»
dora.dev/research/2025/dora-report
Анализирует баги без участия человека
33% опубликованных — с ошибкой. Не понимает бизнес-смысл полей и архитектуру.
Разработчик направляет, агент ищет по коду и логам
| Баг | Диагноз | Результат |
|---|---|---|
| Ошибка в CDR | Верный | MR merged |
| Падение patroni | Верный | MR merged |
100% корректных диагнозов. Оба MR прошли review без корректировки диагноза.
Разница: автономный ИИ строит убедительные, но часто неверные объяснения. ИИ + человек = верный диагноз с первого раза. Ключевое — разработчик понимает бизнес-смысл, агент ускоряет поиск по коду.
Измеряйте: время на задачу до/после, количество багов, скорость review
Павел Тихомиров · patihomirov.ru
patihomirov.ru/slides/ai-agents
Эта презентация тоже была сделана при помощи Claude Code