Цифровая свалка под видом открытого кода
Откройте любой популярный репозиторий на GitHub сегодня, 27 февраля 2026 года. Прокрутите issues. Треть багов — это галлюцинации ИИ, сгенерированные другими ИИ. Другая треть — попытки починить первую треть. Остальное — отчаяние живых разработчиков.
Проблема не в том, что код стал хуже. Проблема в том, что он стал системно хуже. И теперь это угрожает не просто отдельным проектам, а фундаменту, на котором строятся все современные LLM — от GPT-5 и Claude 3.5 до открытых моделей вроде CodeLlama 70B.
Внимание, петля обратной связи: LLM обучаются на публичном коде с GitHub → генерируют новый код → он попадает обратно на GitHub → становится данными для обучения следующих версий. Качество падает с каждой итерацией.
Цифры, от которых хочется плакать
Исследование AI Now Institute, опубликованное в январе 2026, дает конкретику. Анализ 10 миллионов репозиториев, созданных после 2023 года, показывает:
- 38% коммитов содержат код, сгенерированный LLM (Copilot, Cursor, сторонними моделями).
- В 67% таких коммитов есть хотя бы одна критическая ошибка безопасности или логическая несостыковка.
- Проекты, где более 50% кода написано ИИ, получают в 3.2 раза больше issues, связанных с некорректной работой.
Microsoft, владелец GitHub и создатель GitHub Copilot, оказалась в странной позиции. Их платформа стала основным источником данных для обучения конкурентов. И одновременно — главным каналом загрязнения этих данных. Ирония в том, что Copilot X, выпущенный в 2025, сам стал жертвой этой петли — пользователи жалуются на рост «глупых» предложений и галлюцинаций в последних обновлениях.
Синдром «пропавшей Llama» и другие симптомы
Помните скандал с ретракцией статьи о Llama 4? Часть гипотез сводилась к проблемам с данными обучения. Сегодня это не гипотеза, а констатация факта. Когда Meta (или любая другая компания) собирает датасет для обучения модели кодингу, она вынуждена фильтровать тонны мусора.
Фильтрация стоит огромных денег. И никогда не бывает идеальной. В итоге модель учится на кривых паттернах, зашитых в плохой код: неправильные проверки ошибок, небезопасное использование памяти, антипаттерны проектирования. Потом она воспроизводит их для вас в вашем редакторе. Вы принимаете предложение, коммитите. Круг замыкается.
Что будет с open-source?
Апокалипсис уже начался. Об этом мы писали еще год назад. Но тогда это были единичные случаи. Сейчас — системный коллапс. Мейнтейнеры крупных проектов тратят до 40% времени не на разработку, а на отлов и откат AI-сгенерированных пул-реквестов, которые ломают билд.
Ситуация парадоксальна. Инструменты, призванные ускорить разработку, одновременно повышают и тревогу. Продуктивность растет на короткой дистанции. На длинной — мы получаем код, который не может поддерживать никто, даже его создатель-нейросеть.
| Проблема | Проявление в 2026 | Риск для LLM |
|---|---|---|
| Копирование багов | ИИ учится на коде с уязвимостями (Log4Shell-подобные) | Генерация небезопасного кода «из коробки» |
| Галлюцинации библиотек | Использование несуществующих функций и пакетов | Снижение доверия к любым AI-рекомендациям |
| Потеря стиля | Усреднение всех стилей кода в безликую кашу | Невозможность обучения на идиоматичном, красивом коде |
Есть ли выход из цифрового тупика?
Некоторые пытаются бороться. Растет популярность гибридного код-ревью с LLM, где человек финальный арбитр. Появляются специализированные языки и форматы, которые сложнее «галлюцинировать».
Но технические фиксы не решают социальной проблемы. GitHub — это не просто архив кода. Это социальная сеть. И как в любой сети, здесь правят бал кликбейт, звездочки и быстрое копирование трендовых (но часто пустых) репозиториев.
Реальное решение лежит в плоскости экономики внимания и вознаграждения. Пока звезда за «Hello World» на React с красивым README.md ценится системой так же, как звезда за год работы над ядром Linux, мусор будет побеждать. Microsoft нужны не новые фильтры для Copilot, а новая модель мотивации для разработчиков, создающих тот самый качественный код, который и должен кормить ИИ.
Что делать вам? Если вы тренируете свою модель, забудьте про скрейпинг всего GitHub. Собирайте датасеты вручную, из проверенных проектов с историей. Используйте персональные инструменты анализа своей собственной кодобазы — это золото. И по возможности, не коммитьте сырой output ИИ без тщательной проверки. От этого зависит, сможет ли следующее поколение моделей вообще писать работающий код.