Документы, которые съедают жизнь
Архитектор Иван (имя изменено, но история реальная) тратил 30% рабочего времени не на проектирование, а на поиск информации. СНиПы, СП, ГОСТы, технические задания, протоколы совещаний — все это в сотнях PDF-файлов. BIM-модель — это не только 3D, это кипа документов, которые должны быть согласованы.
Ситуация знакома каждому, кто работает в строительстве: нормативную базу обновляют, а старые проекты надо проверять на соответствие. Вручную — это ад.
GigaChat против бумажного ада
Иван узнал про RAG (Retrieval-Augmented Generation) из статьи на Хабре. Если коротко, RAG — это когда нейросеть ищет ответы в ваших документах, а не выдумывает их. Зачем ему это? Чтобы задавать вопросы типа «Какой минимальный уклон кровли по СНиП 2.08.01-89?» и получать точный ответ с ссылкой на документ.
Он выбрал GigaChat — российскую LLM от Сбера, потому что она хорошо понимает контекст на русском и имеет API. К тому же, на февраль 2026 года GigaChat предлагает мощные модели для эмбеддингов и генерации, включая последнюю версию GigaChat 3.0, которая отлично справляется с техническими текстами.
Но Иван не программист. Он последний раз писал код в школе на Pascal. Поэтому он пошел по пути наименьшего сопротивления: low-code инструменты.
1 Сбор и обработка документов
Первым делом он сгреб все документы в одну папку: PDF, Word, Excel, даже сканы старых бумажных нормативов. Для конвертации в текст использовал Confluence2md — утилиту, которая извлекает текст и разметку. Она справилась с большинством форматов, хотя некоторые PDF-ки с таблицами пришлось обрабатывать вручную.
2 Разбивка на чанки и векторное представление
Длинные документы нельзя подавать в модель целиком — нужно разбивать на фрагменты. Иван использовал готовый скрипт из интернета (спасибо open-source), который разбивает текст на перекрывающиеся чанки по 500 символов. Затем он применил модель эмбеддингов от GigaChat, чтобы превратить каждый чанк в вектор чисел.
Векторы загрузил в векторную базу данных Qdrant — она бесплатная для небольших объемов и имеет простой API. Для управления этим процессом он использовал LangChain, но через визуальный интерфейс Flowise. Да, оказывается, есть drag-and-drop конструкторы для RAG-пайплайнов.
3 Настройка RAG-цепочки
Самый ответственный этап — заставить систему находить релевантные чанки и генерировать ответы. Здесь пригодились промпты для RAG, которые подсказали, как сформулировать запрос к модели. Иван задал промпт: «Ты — помощник архитектора. Используй только предоставленные документы. Если ответа нет в документах, скажи „Не могу найти информацию“».
В Flowise он настроил цепочку: запрос пользователя -> поиск по векторной базе -> выбор топ-3 релевантных чанков -> формирование промпта с контекстом -> отправка в GigaChat -> вывод ответа.
4 Интерфейс: Telegram-бот за час
Чтобы не париться с веб-интерфейсом, Иван создал Telegram-бота через BotFather. Настроил вебхук на свой сервер, где крутился Flowise. Теперь он и его коллеги могли спрашивать бота прямо в телеграме. Удобно, быстро, без установки дополнительных программ.
Что пошло не так (и как это исправить)
Первый же тест показал проблему: бот путал нормативы разных лет. Например, спрашивали про СНиП 2025 года, а он выдавал выдержку из старого СНиП 1989 года. Почему? Потому что в векторном поиске находились похожие по смыслу чанки, но без учета даты.
Решение: добавить метаданные к каждому чанку — год документа, тип, раздел. При поиске учитывать не только семантическое сходство, но и фильтровать по метаданным. В Qdrant это делается через payload.
Вторая проблема: специфические термины BIM. «Обмерный чертеж», «технико-экономическое обоснование», «акт скрытых работ» — GigaChat иногда трактовала их неправильно. Пришлось дополнить промпт глоссарием. Также помогло увеличение количества чанков в контексте с 3 до 5.
Третья: скорость. На первый запрос уходило до 10 секунд. Оказалось, что эмбеддинг-модель тормозит. Перешел на более легкую модель эмбеддингов от GigaChat, специально оптимизированную для русского языка, и время сократилось до 2-3 секунд.
Цифры, которые говорят сами за себя
Через месяц использования:
- Время на поиск информации сократилось с 3-4 часов в день до 20 минут.
- Точность ответов (по оценке Ивана) — около 85%. Ошибки в основном из-за противоречий в самих документах.
- Коллеги подтянулись: теперь ботом пользуются 5 человек из отдела.
- Затраты: API GigaChat стоит около 500 рублей в месяц, сервер на VPS — 1000 рублей. Итого 1500 рублей в месяц против экономии 100+ человеко-часов.
А что дальше?
Иван планирует подключить бота к BIM-системе (например, Revit), чтобы он мог отвечать на вопросы прямо в интерфейсе программы. Также хочет добавить обработку изображений: загрузил чертеж — бот нашел несоответствия нормам. Но это уже тема для отдельной статьи.
История Ивана показывает, что автоматизация с помощью ИИ доступна даже без глубоких технических знаний. Главное — понять принципы RAG, выбрать подходящие инструменты и не бояться экспериментировать. Кстати, если хотите подробнее разобраться в архитектуре RAG, посмотрите полное руководство по RAG на нашем сайте.
А вы уже пробовали внедрять ИИ в свою работу? Делитесь в комментариях.