Ян Лекун не держит камня за пазухой
На прошлой неделе Ян Лекун, главный научный сотрудник Meta AI, выступил на внутренней встрече. Его слова попали в сеть. И взорвали ее.
Он не стал ходить вокруг да около. Команда, отвечающая за бенчмаркинг Llama 4, "оптимизировала" тесты под заранее известные ответы. Результаты были завышены на 15-20% по сравнению с реальной производительностью. Лекун назвал это "систематической ошибкой", но все поняли - это манипуляция.
"Мы не можем соревноваться с OpenAI, если обманываем сами себя", - заявил Лекун, согласно утекшей стенограмме.
Это не первый случай, когда Meta попадает впросак с тестами. Помните историю с Llama 3.3 8B? Тогда компания раздала устаревшую модель, а сообщество быстро это вычислило.
Как накручивали бенчмарки: технические детали
Инсайдеры описали схему. Команда брала открытые датасеты для оценки (MMLU, HellaSwag, GSM8K) и тонко настраивала модель на конкретные вопросы. Не через дообучение, а через подбор гиперпараметров и промптов в момент инференса.
Фактически, они создали "идеальные условия" для теста, которые никогда не повторятся в реальном использовании. Это как готовиться к экзамену, зная все билеты наизусть.
| Бенчмарк | Заявленный результат | Реальная оценка | Разница |
|---|---|---|---|
| MMLU | 86.5% | 71.2% | -15.3% |
| GSM8K | 92.1% | 78.8% | -13.3% |
| HumanEval | 74.3% | 62.9% | -11.4% |
Методы были похожи на те, что описаны в материале про "регулятор креатива" в LLaMA 3.2. Там одна строка кода меняла тон ответов. Здесь - целая система подгонки.
Эффект домино: реорганизация и уходы из Meta AI
Через 48 часов после утечки стенограммы начались кадровые перестановки. Руководитель направления бенчмаркинга ушел "по собственному желанию". Еще три ключевых инженера подали заявления.
Внутри Meta AI объявили о реорганизации. Команды, работавшие над Llama 4, теперь подчиняются напрямую Лекуну. Все процессы тестирования будут проходить внешний аудит.
Но проблема глубже. Доверие к Meta как к лидеру open-source ИИ пошатнулось. После утечки Llama 3.3 через баг в API и этого скандала, сообщество задается вопросом: а можно ли им верить?
Источники внутри компании говорят, что релиз Llama 4 откладывается как минимум на квартал. Нужно перепроверять все результаты и, возможно, дорабатывать архитектуру.
Что это значит для open-source сообщества?
Пока Meta разбирается со своими проблемами, конкуренты не дремлют. GLM-4.7 уже признан лучшей opensource-моделью по независимым тестам. Zhipu AI не стала играть в игры с бенчмарками, а просто сделала хороший продукт.
Сообщество энтузиастов, которые качают и дорабатывают модели локально, теперь будет смотреть на результаты Meta с двойной проверкой. Как они это делали после скандала с Solar-100B.
А еще это ставит под вопрос всю систему оценки ИИ. Если даже в Meta идут на манипуляции, то что говорить о стартапах? Нужны новые, защищенные от накрутки тесты. Или вообще другой подход - например, сделанный на математике, а не на предсказании.
Будущее Llama 4: прогнозы и риски
Сейчас у Meta два пути. Первый - признать ошибку, опубликовать исправленные результаты и выпустить модель с опозданием, но с честными цифрами. Второй - тихо "подправить" архитектуру, чтобы она действительно показывала заявленные результаты, и надеяться, что все забудут.
Первый вариант болезненный, но правильный. Второй - чреват новым скандалом, когда энтузиасты типа тех, кто взламывали API для скачивания моделей, проведут независимое тестирование.
Мой прогноз? Llama 4 выйдет не раньше конца года. Ее результаты будут скромнее, чем планировалось. Но архитектура может оказаться интереснее - потому что инженерам придется искать настоящие прорывы, а не играть с цифрами.
А главный урок для всех - гонка бенчмарков зашла в тупик. Пора оценивать модели по тому, как они работают в реальных задачах. Или ждать, когда ИИ начнет есть сам себя от такого количества нечестных данных.
Совет для разработчиков: не гонитесь за цифрами в таблицах. Смотрите, как модель ведет себя в вашем пайплайне. И помните - даже у гигантов бывают кризисы. Иногда полезнее изучить как "мыслят" модели изнутри, чем слепо верить рейтингам.