StepFun наконец-то рассекретил свой SFT датасет
Сегодня, 15 марта 2026 года, команда StepFun опубликовала в открытом доступе датасет для supervised fine-tuning (SFT) своей флагманской модели Step 3.5 Flash. Этот датасет, который разработчики использовали для доводки модели перед релизом, теперь может скачать любой желающий на Hugging Face Hub.
И сразу же вопрос: зачем? Ведь Step 3.5 Flash уже давно работает у тысяч разработчиков, а на подходе новые архитектуры. Ответ прост: этот датасет - не просто куча текстов, а тщательно подобранные инструкции и ответы, которые превращают сырую модель в послушного ассистента. И теперь вы можете повторить этот трюк на своих данных.
Датасет уже доступен под названием stepfun/sft-step-3.5-flash на Hugging Face. Включает примерно 500 тысяч примеров в формате \"инструкция-ответ\", охватывающих код, рассуждения, творческие задачи и tool calling.
Что внутри и почему это важно
Открыв датасет, первое, что бросается в глаза - разнообразие. Здесь не только стандартные QA пары, но и сложные multi-turn диалоги, примеры использования инструментов (tool calls) и цепочки рассуждений (Chain-of-Thought). Особенно ценны последние, учитывая, что Step 3.5 Flash иногда грешит галлюцинациями в инструментах, как мы писали ранее.
Структура датасета проста:
- Каждый пример - JSON объект с полями
instruction,outputи метаданными. - Инструкции на английском, но есть и мультиязычные примеры.
- Ответы сгенерированы с помощью более мощных моделей (вероятно, Step-4 или аналогов) и проверены человеком.
Для тех, кто хочет копнуть глубже, в нашем интервью с создателями StepFun были намеки на то, как они собирали данные. Теперь мы видим результат.
Актуальность в 2026: зачем это сейчас?
С момента релиза Step 3.5 Flash прошло достаточно времени, и модель успела обрасти мифами. Одни говорят, что это лучшая модель для локального запуска, другие - что она устарела после выхода Gemma 3 Pro. Но факт остается: Step 3.5 Flash до сих пор одна из самых эффективных моделей по соотношению скорость/качество, особенно после оптимизаций вроде DFlash.
Выпуск SFT датасета - это стратегический ход. StepFun явно хочет, чтобы сообщество активно дообучало модель под специфические задачи: медицинские консультации, юридический анализ, генерацию кода для нишевых фреймворков. И вместо того чтобы ждать, пока они выпустят специализированные версии, вы можете сделать это сами.
Как использовать датасет: неочевидные сценарии
Очевидное применение - дообучить Step 3.5 Flash для своих нужд. Но есть и другие идеи:
- Дистилляция в меньшие модели: использовать датасет для обучения компактной модели, сохраняя качество. Методика, похожая на ту, что мы описывали в статье про дистилляцию визуального мышления.
- Создание синтетических данных: на основе этого датасета можно сгенерировать дополнительные примеры для других задач, используя подходы из материала про CoT-датасеты.
- Бенчмаркинг: сравнивать качество своих моделей с эталонными ответами из датасета.
И вот важный момент: датасет от StepFun - это не панацея. Он хорошо сбалансирован, но может не покрывать вашу специфическую область. Поэтому лучшая стратегия - взять его за основу и добавить свои данные. Например, если вы работаете в кибербезопасности, дополните датасет примерами из статьи про аудит безопасности.
Что не так с этим датасетом? (спойлер: несколько проблем)
После беглого анализа нашлись и недостатки:
- Размер: 500 тысяч примеров - это много, но для некоторых задач может не хватить. Современные SFT датасеты часто переваливают за миллион.
- Языковой перекос: несмотря на мультиязычность, около 80% данных - английский. Для русского или китайского придется искать дополнения.
- Лицензия: датасет выпущен под непрозрачной лицензией, которая запрещает коммерческое использование без согласования. Типично для StepFun.
И еще один нюанс: датасет оптимизирован под Step 3.5 Flash. Попытка использовать его для обучения другой модели, например, Qwen 3 VL, может дать неожиданные результаты. Но это уже территория экспериментов.
Внимание: Fine-tuning больших моделей требует значительных вычислительных ресурсов. Если у вас нет доступа к мощным GPU, рассмотрите облачные сервисы, такие как RunPod или Lambda Labs. Аренда одного A100 на неделю обойдется примерно в $300-500, но результат того стоит.
Что дальше?
Релиз этого датасета - четкий сигнал: StepFun переходит к стратегии open-source не только для моделей, но и для данных. Вероятно, в ближайшие месяцы мы увидим аналогичные датасеты для Step-3-VL-10B и других моделей.
А пока что, если вы хотите получить максимальную отдачу от Step 3.5 Flash, скачайте датасет, ознакомьтесь с нашим глубоким обзором модели и начинайте экспериментировать. И помните: лучшая модель - та, которую вы настроили под себя.
P.S. Если вы решитесь на fine-tuning, поделитесь результатами. Сообществу нужны живые кейсы, а не только теоретические выкладки.