Проблема, которая всех бесит: маленькие модели не умеют считать

Спросите у Qwen-0.6B: "Сколько будет 17 * 23?" Получите 391. Или 382. Или 405. Каждый раз по-разному. Это не баг - это фундаментальное ограничение архитектуры.

Трансформеры обучаются на вероятностях. Они предсказывают следующее слово на основе статистики, а не логики. Для языка это работает. Для арифметики - нет.

Проблема глубже, чем кажется. Даже 7B-модели ошибаются в простых вычислениях. Они запоминают частые ответы (7*8=56), но не понимают операцию умножения как таковую.

Решение: зачем изобретать калькулятор, если он уже есть?

WorldModel-Qwen-0.6B не пытается научить трансформер математике. Вместо этого модель учится генерировать WASM-код.

WASM (WebAssembly) - бинарный формат, который выполняется в изолированной среде. Быстрее JavaScript. Безопаснее нативных библиотек. Идеально для встраивания в LLM.

💡

Идея гениально проста: вместо того чтобы предсказывать ответ "391", модель предсказывает код на WASM, который вычисляет 17*23. Затем выполняет этот код. Результат всегда точный.

Как работает магия: три слоя абстракции

Представьте конвейер:

Модель получает промпт: "Вычисли 17*23"
Внутренние слои генерируют WASM-байткод
Встроенный интерпретатор выполняет код
Результат конвертируется обратно в текст

Ключевой момент: модель обучается не на парах "вопрос-ответ", а на тройках "вопрос-WASM_код-ответ". Она учится переводить естественный язык на язык вычислений.

Что внутри: анатомия WorldModel-Qwen-0.6B

Возьмите обычный Qwen-0.6B. Добавьте:

Специальные токены для WASM (начало/конец кода)
Дополнительный словарь с WASM-инструкциями
Минимальный WASM-рантайм внутри модели
Fine-tuning на датасете математических задач с решениями в WASM

Компонент	Назначение	Размер (примерно)
Базовый Qwen-0.6B	Понимание естественного языка	600M параметров
WASM-токенизатор	Кодирование WASM-инструкций	+200 токенов
WASM-рантайм	Выполнение сгенерированного кода	~5MB бинарника

1 Fine-tuning: как учить модель генерировать код

Самый сложный этап. Нужны данные особого формата:

{
  "question": "What is 17 multiplied by 23?",
  "wasm_code": "(module (func (result i32) (i32.const 17) (i32.const 23) i32.mul) (export \"main\" (func 0)))",
  "answer": "391"
}

Модель видит вопрос и WASM-код одновременно. Учится устанавливать связь между языковым описанием и вычислительной инструкцией.

Проблема: таких датасетов почти нет. Приходится генерировать синтетически или использовать обратную трассировку (из ответа генерировать код).

2 Инференс: что происходит при генерации

Когда вы спрашиваете "17*23?":

Модель токенизирует промпт
Генерирует последовательность токенов, включая специальный
После идёт WASM-байткод в виде токенов
Затем и возможно текстовое пояснение
Система извлекает код между маркерами
Выполняет его в изолированном рантайме
Подставляет результат в финальный ответ

Важно: WASM-рантайм работает в песочнице. Даже если модель сгенерирует вредоносный код, он не получит доступ к файловой системе или сети. Только к выделенной памяти.

Почему именно WASM, а не Python или JavaScript?

Пять причин:

Бинарный формат: компактнее текстовых языков. Меньше токенов для генерации.
Детерминированное выполнение: один и тот же WASM-код даёт одинаковый результат на любой платформе.
Изоляция: песочница по умолчанию. Безопасность встроена в дизайн.
Скорость: ближе к нативному коду, чем интерпретируемые языки.
Стандарт: W3C, поддержка во всех браузерах, инструментарий.

JavaScript потребовал бы полноценный движок V8. Python - интерпретатор с зависимостями. WASM - самодостаточный бинарник в несколько мегабайт.

Ограничения: что НЕ умеет WorldModel-Qwen-0.6B

Не обманывайтесь маркетингом. Технология решает конкретную проблему, но не все:

Только арифметика и простая логика: сложные алгоритмы требуют длинного кода, который модель не сгенерирует точно
Зависит от качества fine-tuning: если в данных нет примера для какой-то операции, модель не научится её генерировать
Нет понимания контекста вычислений: модель генерирует код, но не понимает, зачем он нужен в broader context
Overhead на генерацию кода: для простых вычислений типа 2+2 генерация WASM дольше, чем прямое предсказание

Это инструмент для специфических задач, а не универсальное решение. Как WeDLM от Tencent для математики, но на архитектурном уровне.

Практическое применение: где эта штука полезна

Три реальных сценария:

Финансовые расчёты в чат-ботах: проценты, конвертация валют, сложные проценты. Точность критична.
Научные симуляции: простые физические расчёты, статистика.
Образовательные системы: проверка математических задач с гарантированной точностью.

Представьте: студент спрашивает у образовательной LLM решение уравнения. Модель не просто даёт ответ, а генерирует код, который это уравнение решает. Студент видит и ответ, и алгоритм.

Для таких сценариев посмотрите "Школа в коробке" - похожая идея, но для образовательного контента.

Технические детали реализации

Если хотите повторить:

# Псевдокод архитектуры
class WorldModelQwen:
    def __init__(self):
        self.llm = load_qwen_0_6b()
        self.wasm_runtime = WasmMicroRuntime()
        self.special_tokens = {
            'wasm_start': 32000,
            'wasm_end': 32001
        }
    
    def generate_with_calculation(self, prompt):
        # Генерация с маркерами WASM
        full_output = self.llm.generate(
            prompt + " [WASM_START]"
        )
        
        # Извлечение WASM-кода
        wasm_code = extract_between_markers(
            full_output, 
            '[WASM_START]', 
            '[WASM_END]'
        )
        
        # Выполнение
        result = self.wasm_runtime.execute(wasm_code)
        
        # Формирование финального ответа
        return f"Результат: {result}. Код: {wasm_code}"

На практике сложнее: нужно обрабатывать ошибки компиляции, таймауты выполнения, ограничения памяти.

Сравнение с альтернативами

Подход	Точность вычислений	Требуемые ресурсы	Гибкость
WorldModel + WASM	100% (детерминированно)	+5-10% к модели	Ограничена WASM
Токен-калькулятор (как в ChatGPT)	100%	Внешний сервис	Только предопределённые операции
Улучшенный fine-tuning на математике	90-95%	Только данные	Любые задачи в данных
Цепочка размышлений (CoT)	70-85%	Длинный контекст	Универсальный

WASM-подход выигрывает в точности, но проигрывает в универсальности. Это специализированный инструмент.

Будущее: куда движется эта технология

WorldModel-Qwen-0.6B - только начало. Дальше будет:

Поддержка большего подмножества WASM: сейчас только базовые операции
Компиляция из высокоуровневых языков: модель генерирует Python, который компилируется в WASM
Интеграция с внешними API через WASM: безопасный доступ к базам данных, файлам
Оптимизация под квантованные модели: для работы на старом железе

Представьте модель, которая не только считает, но и рисует графики (генерируя WASM для Canvas API), работает с базами данных (через WASM-драйверы), делает HTTP-запросы.

Это следующий шаг после World Models - LLM как универсальный исполнитель программ.

FAQ: частые вопросы

Можно ли запустить WorldModel-Qwen-0.6B на моём ноутбуке?

Да. 600M параметров - это примерно 1.2GB в FP16. Плюс 5-10MB для WASM-рантайма. Влезет даже на GPU с 4GB VRAM. Для квантования смотрите гайд по квантованию.

Будет ли работать с русским языком?

Базовый Qwen-0.6B понимает русский. Но fine-tuning делали на английских математических задачах. Для русского нужен дополнительный fine-tuning или перевод датасета.

Можно ли адаптировать для других маленьких моделей, например Llama 3.1 8B?

Теоретически да. Практически нужно: 1) добавить специальные токены, 2) дообучить на WASM-датасете, 3) интегрировать WASM-рантайм. Для 8B-моделей это проще - они лучше понимают структуру кода.

Насколько безопасно выполнять сгенерированный WASM-код?

WASM работает в песочнице по умолчанию. Нет доступа к файловой системе, сети, системным вызовам. Но всегда есть риск уязвимостей в самом рантайме. Для критичных систем нужна дополнительная изоляция.

Итог: стоит ли заморачиваться?

Если вам нужна маленькая модель для приложения с математическими расчётами - да, безусловно. WorldModel-Qwen-0.6B даёт точность больших моделей в размере 600M параметров.

Если вы делаете общего чат-бота - возможно, нет. Overhead на генерацию WASM не оправдан для большинства диалогов.

Технология показывает главное: будущее маленьких LLM не в том, чтобы делать их умнее, а в том, чтобы дать им доступ к точным инструментам. Не учить рыбу лазать по деревьям, а дать ей воду, где она и так плавает лучше всех.

Следующий логичный шаг - интеграция с спецификационными фреймворками. Модель генерирует не только код, но и его спецификацию. Проверяет соответствие. Доказывает корректность.

Но это уже совсем другая история.

WorldModel-Qwen-0.6B: Как заставить 600-миллионную модель считать как математик