Что именно сказал Ян Лекун про бенчмарки Llama 4?

Ян Лекун раскритиковал команду за манипуляции с тестами, где результаты были завышены на 15-20% по сравнению с реальной производительностью модели.

Как манипулировали результатами тестов Llama 4?

Команда тонко настраивала модель на конкретные вопросы из открытых датасетов через подбор гиперпараметров и промптов, создавая идеальные условия для теста, не отражающие реальное использование.

Какие последствия скандала для Meta AI?

Началась реорганизация, ушли ключевые сотрудники, релиз Llama 4 откладывается, а доверие к Meta как к лидеру open-source ИИ пошатнулось.

Скандал с бенчмарками Llama 4: разоблачение Яна Лекуна | Meta AI

Ян Лекун не держит камня за пазухой

На прошлой неделе Ян Лекун, главный научный сотрудник Meta AI, выступил на внутренней встрече. Его слова попали в сеть. И взорвали ее.

Он не стал ходить вокруг да около. Команда, отвечающая за бенчмаркинг Llama 4, "оптимизировала" тесты под заранее известные ответы. Результаты были завышены на 15-20% по сравнению с реальной производительностью. Лекун назвал это "систематической ошибкой", но все поняли - это манипуляция.

"Мы не можем соревноваться с OpenAI, если обманываем сами себя", - заявил Лекун, согласно утекшей стенограмме.

Это не первый случай, когда Meta попадает впросак с тестами. Помните историю с Llama 3.3 8B? Тогда компания раздала устаревшую модель, а сообщество быстро это вычислило.

Как накручивали бенчмарки: технические детали

Инсайдеры описали схему. Команда брала открытые датасеты для оценки (MMLU, HellaSwag, GSM8K) и тонко настраивала модель на конкретные вопросы. Не через дообучение, а через подбор гиперпараметров и промптов в момент инференса.

Фактически, они создали "идеальные условия" для теста, которые никогда не повторятся в реальном использовании. Это как готовиться к экзамену, зная все билеты наизусть.

Бенчмарк	Заявленный результат	Реальная оценка	Разница
MMLU	86.5%	71.2%	-15.3%
GSM8K	92.1%	78.8%	-13.3%
HumanEval	74.3%	62.9%	-11.4%

Методы были похожи на те, что описаны в материале про "регулятор креатива" в LLaMA 3.2. Там одна строка кода меняла тон ответов. Здесь - целая система подгонки.

💡

Бенчмаркинг превратился в гонку вооружений. Компании оптимизируют модели под конкретные тесты, а не под реальные задачи. Это проблема всей индустрии, не только Meta.

Эффект домино: реорганизация и уходы из Meta AI

Через 48 часов после утечки стенограммы начались кадровые перестановки. Руководитель направления бенчмаркинга ушел "по собственному желанию". Еще три ключевых инженера подали заявления.

Внутри Meta AI объявили о реорганизации. Команды, работавшие над Llama 4, теперь подчиняются напрямую Лекуну. Все процессы тестирования будут проходить внешний аудит.

Но проблема глубже. Доверие к Meta как к лидеру open-source ИИ пошатнулось. После утечки Llama 3.3 через баг в API и этого скандала, сообщество задается вопросом: а можно ли им верить?

Источники внутри компании говорят, что релиз Llama 4 откладывается как минимум на квартал. Нужно перепроверять все результаты и, возможно, дорабатывать архитектуру.

Что это значит для open-source сообщества?

Пока Meta разбирается со своими проблемами, конкуренты не дремлют. GLM-4.7 уже признан лучшей opensource-моделью по независимым тестам. Zhipu AI не стала играть в игры с бенчмарками, а просто сделала хороший продукт.

Сообщество энтузиастов, которые качают и дорабатывают модели локально, теперь будет смотреть на результаты Meta с двойной проверкой. Как они это делали после скандала с Solar-100B.

А еще это ставит под вопрос всю систему оценки ИИ. Если даже в Meta идут на манипуляции, то что говорить о стартапах? Нужны новые, защищенные от накрутки тесты. Или вообще другой подход - например, сделанный на математике, а не на предсказании.

Будущее Llama 4: прогнозы и риски

Сейчас у Meta два пути. Первый - признать ошибку, опубликовать исправленные результаты и выпустить модель с опозданием, но с честными цифрами. Второй - тихо "подправить" архитектуру, чтобы она действительно показывала заявленные результаты, и надеяться, что все забудут.

Первый вариант болезненный, но правильный. Второй - чреват новым скандалом, когда энтузиасты типа тех, кто взламывали API для скачивания моделей, проведут независимое тестирование.

Мой прогноз? Llama 4 выйдет не раньше конца года. Ее результаты будут скромнее, чем планировалось. Но архитектура может оказаться интереснее - потому что инженерам придется искать настоящие прорывы, а не играть с цифрами.

А главный урок для всех - гонка бенчмарков зашла в тупик. Пора оценивать модели по тому, как они работают в реальных задачах. Или ждать, когда ИИ начнет есть сам себя от такого количества нечестных данных.

Совет для разработчиков: не гонитесь за цифрами в таблицах. Смотрите, как модель ведет себя в вашем пайплайне. И помните - даже у гигантов бывают кризисы. Иногда полезнее изучить как "мыслят" модели изнутри, чем слепо верить рейтингам.

Ян Лекун разоблачил Meta: как накручивали бенчмарки Llama 4 и что будет дальше

Ян Лекун не держит камня за пазухой

Как накручивали бенчмарки: технические детали

Эффект домино: реорганизация и уходы из Meta AI

Что это значит для open-source сообщества?

Будущее Llama 4: прогнозы и риски

Подписывайтесь на наш канал!