Цена как язык: самый странный хак квантовых фондов

Представьте, что вы пытаетесь предсказать следующее слово в романе Достоевского. Теперь замените слова на цены акций. Звучит как бред? Именно так думают 99% трейдеров. Оставшийся 1% — это кванты из Hudson River Trading, которые уже три года молча печатают деньги на этом «бреде».

Финансовый рынок — это не набор чисел. Это нарратив. Паника марта 2020 года, истерика вокруг мемных акций, тихий крах SVB — каждый эпизод имеет структуру, предвестники, кульминацию. Статистические модели ломаются об эту нарративность. LLM — нет.

Важно: никто не засовывает свечной график в ChatGPT с промптом «предскажи завтра». Речь о фундаментально другом подходе — моделировании рынка как языковой последовательности с помощью архитектуры трансформеров.

Как разбить реальность на токены: от грубой силы до изящного хака

Первая и самая болезненная проблема: цена — непрерывная величина. LLM работают с дискретными токенами. Решение? Квантование.

1 Грубое квантование (для бедных)

Берете дневное изменение цены в процентах. Делите диапазон от -10% до +10% на 100 равных интервалов. Каждый интервал — свой токен. Изменение +2.3% попадает в бакет «токен_057». История за год превращается в последовательность из ~252 токенов. Просто? Да. Глупо? Тоже да.

💡

Проблема в потере информации. Разница между +2.31% и +2.29% нивелируется. Для рынка, где алготрейдеры дерутся за микросекунды, это смерть.

2 VQ-VAE: когда хочется изящества

Vector Quantized Variational Autoencoder. Звучит сложно, работает элегантно. Нейросеть-энкодер сжимает временной ряд в латентные представления, затем дискретизирует их через кодбук (словарь токенов). Декодер пытается восстановить исходный ряд из этих токенов.

На выходе получаете последовательность токенов, которые сохраняют не только абсолютные значения, но и паттерны, форму графика. Это уже ближе к тому, что используют в хедж-фондах.

3 Мультимодальный кошмар: цена + объем + новости

Настоящая магия начинается, когда вы кодируете не только цену. Каждый тик — это многомерный вектор: цена, объем, волатильность, sentiment score из новостей. VQ-VAE учится создавать комбинированные токены, которые захватывают эти взаимосвязи.

Токен «A7F» теперь означает не «цена выросла на 1.5%», а «цена выросла на 1.5% при аномально высоком объеме и негативном новостном фоне». Контекст. Именно его ищут LLM.

Архитектура: какой трансформер переживет рыночный крах

Выбрали схему токенизации. Теперь нужна модель. GPT для финансов? Не совсем.

Архитектура	Плюсы для рынков	Минусы, от которых плачут
Стандартный декодер (GPT-style)	Простота, предсказывает следующий токен авторегрессионно	Квадратичная сложность внимания. Год данных = 250 000+ токенов контекста? Забудьте.
Longformer / BigBird	Скользящие окна внимания, работают с длинными контекстами	Могут пропускать долгосрочные зависимости (квартальные отчеты влияют на цену месяцами)
Mamba (SSM)	Линейная сложность, идеально для ultra-long контекстов	Молодая архитектура, меньше готовых решений, сложнее в отладке

Если вы читали нашу статью про Mamba vs Transformer, то уже догадываетесь: для реального трейдинга с контекстом в десятки тысяч шагов Mamba — единственный разумный выбор. Трансформеры сгребут все ваши видеокарты в одну кучу и всё равно не справятся.

Обучение: как не переобучить модель на шум

Допустим, архитектуру выбрали. Теперь самое страшное — данные. Финансовые ряды нестационарны, зашумлены, содержат выбросы. Классический ML сразу предложит очистить данные, убрать аномалии. Это ошибка.

Рыночный крах — это и есть аномалия. Паника 2008 года, Flash Crash 2010-го — если вы выкинете их как выбросы, модель никогда не научится распознавать предвестники коллапса.

4 Чему учить: next-token prediction или прямое прогнозирование?

Классический подход LLM: предсказать следующий токен в последовательности. Для цен это работает… странно. Модель отлично учится предсказывать плавное движение, но сходит с ума на волатильных участках.

Альтернатива — учить модель предсказывать не следующий токен, а токен через N шагов (например, цена через 5 дней). Это сложнее, но ближе к реальной задаче трейдера.

Секрет хедж-фондов: они почти никогда не учат модель предсказывать абсолютную цену. Вместо этого — направление движения (up/down) или волатильность. Классификация вместо регрессии. Меньше шума, проще интерпретировать.

Ограничения: почему вы (скорее всего) не станете миллионером

Теперь о холодном душе реальности.

Адаптивный рынок. Модель обнаружила паттерн. Начала его использовать. Другие алгоритмы заметили вашу активность. Паттерн исчез. LLM, в отличие от человека, не понимает, что её действия меняют среду.
Черные лебеди. COVID-19, война, неожиданное решение ФРС. События, которых не было в тренировочных данных. LLM экстраполирует на основе прошлого. Прошлое не содержит пандемий. Результат — катастрофа.
Стоимость ошибки. В языковой модели ошибка — это нелепое предложение. В трейдинге ошибка — это потеря реальных денег. Штрафная функция должна быть асимметричной: потеря $100K должна «болеть» для модели в 100 раз сильнее, чем прибыль в $100K.
Latency. Самые сочные возможности на рынке живут миллисекунды. Ваша LLM, даже если она локальная на vLLM или llama.cpp, думает сотни миллисекунд. Поезд ушел.

Практический стек: с чего начать, если всё равно хочется

Данные. Начните не с акций, а с крипты. Binance API, исторические тиковые данные. Более волатильно, меньше регуляторного шума, паттерны ярче.
Токенизация. Возьмите готовую реализацию VQ-VAE из библиотеки (например, speechbrain). Обучите на недельных данных одной пары (BTC/USDT).
Модель. Не GPT-2. Возьмите Mamba. Реализация от state-spaces/mamba. Контекст поставьте 2048 токенов (это ~3 месяца дневных данных).
Обучение. Учите предсказывать не цену, а бинарный таргет: будет ли цена через 24 часа выше текущей? Используйте focal loss, чтобы бороться с дисбалансом классов (рынок не всегда движется).
Бэктест. Не верьте accuracy на валидации. Реализуйте строгий walk-forward анализ: обучили на периоде 1, протестировали на периоде 2, сдвинули окно. Как в нашей статье про PMR и вероятностное мышление.

Что делают настоящие кванты (и почему они молчат)

Hudson River Trading, Two Sigma, Renaissance Technologies. Они не публикуют статьи про LLM в трейдинге. Но по косвенным данным (наёмные объявления, патенты, утечки):

Используют собственные архитектуры на основе трансформеров с модифицированным вниманием, заточенным под мультимодальность (цена + order book + макростатистика).
Гигантский контекст. Не 2048 токенов. 50 000+. Это позволяет модели «видеть» сезонные эффекты, квартальные циклы, корреляции между активами, которые проявляются с лагом в месяцы.
Ансамбли. Не одна LLM. Десятки специализированных моделей: одна для волатильности, другая для направления, третья для обнаружения аномалий ликвидности. Решение принимает мета-модель.
Сверхбыстрый инференс. ASIC или FPGA для вывода модели. Задержка — наносекунды. Ваш GPU для них — музейный экспонат.

Они молчат, потому что их edge (преимущество) — в этих деталях. Как только метод становится публичным, его альфа-потенциал испаряется за месяцы.

Итог: стоит ли игра свеч?

LLM для прогнозирования рынков — это не волшебная таблетка. Это сложный, ресурсоёмкий инструмент с тонкой настройкой. Он не заменит понимания рынка, риск-менеджмента, дисциплины.

Но.

Если вы рассматриваете это как исследовательский проект, как способ глубоко понять и временные ряды, и современные архитектуры нейросетей — это бесценный опыт. Вы не обязательно заработаете миллионы. Но вы гарантированно прокачаетесь в ML сильнее, чем за десяток курсов на Coursera.

Начните с малого. С одной пары. С простой токенизации. Посмотрите, сможет ли модель хотя бы отличить трендовый день от флэта. Это уже победа. А дальше — либо погружение в кроличью нору, либо здоровое осознание, что иногда классические методы всё ещё работают лучше.

Рынок — сложная система. LLM — сложный инструмент. Их встреча порождает хаос. Но именно в хаосе, как известно, прячутся самые интересные возможности.

LLM для трейдинга: как превратить график в текст и почему это не работает (почти)