Какую модель использовал PewDiePie для fine-tuning?

Он использовал open-source модель Qwen2.5-Coder-32B от Alibaba, доработав её с помощью своих данных.

Насколько модель PewDiePie превзошла ChatGPT 4o?

На бенчмарке HumanEval результат составил 89.2% против 86.7%, на MBPP — 78.5% против 75.1%.

Какой метод fine-tuning использовался?

Применялась техника QLoRA (Quantized Low-Rank Adaptation) с использованием библиотеки Unsloth для эффективного обучения на одном GPU A100.

PewDiePie fine-tuned Qwen2.5-Coder-32B vs ChatGPT 4o: разбор

Шведский блогер сделал то, что не смогли инженеры FAANG

Если в феврале 2025 года вы спросили бы любого разработчика, можно ли fine-tuning'ом open-source модели превзойти GPT-4o в генерации кода, вам бы покрутили пальцем у виска. Через год Феликс Чельберг, он же PewDiePie, выложил на GitHub веса своей доработанной Qwen2.5-Coder-32B и результаты тестов. HumanEval: 89.2% против 86.7% у ChatGPT 4o. MBPP: 78.5% против 75.1%. LeetCode Medium: 94% успешных решений против 91%. Индустрия замерла.

На момент 28.02.2026 ChatGPT 4o уже не флагман OpenAI (вышел GPT-5.1), но он остаётся самым распространённым коммерческим инструментом. Qwen2.5-Coder-32B — тоже не самая новая модель от Alibaba (уже есть Qwen3-Coder), но именно её PewDiePie выбрал за баланс размера и производительности.

1Не учебные данные, а код с Twitch

Вся магия началась не с классического датасета вроде Stack Overflow. PewDiePie годами стримил разработку игр на Unity и модов для Minecraft. Он собрал 50 часов своих собственных транскрибированных сессий кодирования. Каждая решенная проблема, каждый баг, каждый спонтанный рефакторинг. Это не чистый, отполированный код. Это живой процесс с ошибками, тупиками и внезапными озарениями.

💡

Обычный файн-тюнинг учит модель повторять правильные ответы. PewDiePie, сам того не зная, применил дистилляцию мышления, как в кейсе с Qwen 14B и головоломками NYT Connections. Его датасет передавал не просто код, а путь к нему.

2Инструменты, которые не разорят

Без облачного бюджета Google делать файн-тюнинг 32B-параметричной модели — авантюра. Феликс использовал трюк: QLoRA (Quantized Low-Rank Adaptation) через библиотеку Unsloth, которая на 28.02.2026 стала стандартом де-факто. Она ускоряет обучение в 2-3 раза и сокращает потребление памяти на 70%. Все обучение прошло на одном арендованном GPU A100 80GB за 12 дней. Стоимость? Около $600.

Вот где открытые модели бьют проприетарные. Вы не можете залезть внутрь ChatGPT и подкрутить его под свой стиль написания API на Go. С Qwen — запросто. (Хотя для начальной настройки локальной среды все равно придется попотеть, как в нашем гайде по Qwen Code).

Бенчмарк	PewDiePie Qwen2.5-Coder-32B	ChatGPT 4o (базовый)	IQuest-Coder-V1 40B
HumanEval Pass@1	89.2%	86.7%	88.5%
MBPP	78.5%	75.1%	79.0%
LeetCode Medium (50 задач)	94%	91%	93%

Почему это работает? Контекст - король

ChatGPT 4o - универсальный солдат. Он пишет стихи, переводит языки и генерирует SQL. Qwen2.5-Coder-32B после настройки Чельберга стала узким специалистом по одной задаче: писать код в стиле PewDiePie. Это значит - лаконично, с минимальными комментариями, с предпочтением конкретных библиотек и частым использованием определенных паттернов. В нишевой задаче специалист всегда побьет общегоist'а. Это тот же принцип, что и в случае с IQuest-Coder-V1 40B, но достигнутый не масштабом модели, а качеством данных.

Важный нюанс: модель PewDiePie не превзошла новейший GPT-5.1 в комплексных тестах на рассуждение. Но в своей полосе - генерации игрового кода и скриптов для стримов - она стала незаменимым инструментом.

Что это значит для нас, обычных разработчиков?

Во-первых, миф о недостижимости качества проприетарных AI развеян. Во-вторых, ключ - не в модели, а в данных. Феликс не имел PhD по computer science. У него были его собственные, уникальные данные. Этот кейс доказывает: будущее за персонализированными моделями. Зачем использовать общий ChatGPT для вашего специфического кодового стиля, если можно создать своего цифрового двойника?

Это также ставит жирный крест на идее, что для успеха нужны гигантские датасеты. 50 часов транскрипций - это примерно 3-4 мегабайта текста. Ничтожно мало. Но качество этих данных перевешивает гигабайты случайного кода с GitHub.

Попробуйте повторить. Не со стримами, а с вашим собственным корпусом кода. Начните с малого - настройте, например, Qwen3.5 для своего продакшена, как описано в личном опыте использования. Арендуйте GPU на платформе вроде RunPod (это партнерская ссылка, но сервис реально хорош) или используйте Inference API от Hugging Face.

А что дальше?

Через месяц после релиза весов, три стартапа склонировали репозиторий PewDiePie и начали предлагать услуги по созданию «персональных ИИ-кодеров». Цена - от $2000. Это новый тренд. Не ждите, пока OpenAI выпустит ChatGPT для вашей компании. Соберите свои данные. Настройте свою модель. Как показал кейс с решением математической проблемы, иногда ИИ нужна не сила, а правильный контекст и направление.

Прогноз на 2027 год? Мы увидим бум рынка микро-моделей, заточенных под код конкретной команды или даже одного senior-разработчика. Их будут продавать, наследовать и, возможно, даже страховать. Главный урок от шведского блогера: самый ценный актив в эпоху ИИ - не вычислительные ресурсы, а ваша уникальная манера думать. Начинайте её записывать.

Подписаться на канал

Как PewDiePie fine-tuned Qwen2.5-Coder-32B превзошел ChatGPT 4o: разбор кейса и методики