Цена как язык: самый странный хак квантовых фондов
Представьте, что вы пытаетесь предсказать следующее слово в романе Достоевского. Теперь замените слова на цены акций. Звучит как бред? Именно так думают 99% трейдеров. Оставшийся 1% — это кванты из Hudson River Trading, которые уже три года молча печатают деньги на этом «бреде».
Финансовый рынок — это не набор чисел. Это нарратив. Паника марта 2020 года, истерика вокруг мемных акций, тихий крах SVB — каждый эпизод имеет структуру, предвестники, кульминацию. Статистические модели ломаются об эту нарративность. LLM — нет.
Важно: никто не засовывает свечной график в ChatGPT с промптом «предскажи завтра». Речь о фундаментально другом подходе — моделировании рынка как языковой последовательности с помощью архитектуры трансформеров.
Как разбить реальность на токены: от грубой силы до изящного хака
Первая и самая болезненная проблема: цена — непрерывная величина. LLM работают с дискретными токенами. Решение? Квантование.
1 Грубое квантование (для бедных)
Берете дневное изменение цены в процентах. Делите диапазон от -10% до +10% на 100 равных интервалов. Каждый интервал — свой токен. Изменение +2.3% попадает в бакет «токен_057». История за год превращается в последовательность из ~252 токенов. Просто? Да. Глупо? Тоже да.
2 VQ-VAE: когда хочется изящества
Vector Quantized Variational Autoencoder. Звучит сложно, работает элегантно. Нейросеть-энкодер сжимает временной ряд в латентные представления, затем дискретизирует их через кодбук (словарь токенов). Декодер пытается восстановить исходный ряд из этих токенов.
На выходе получаете последовательность токенов, которые сохраняют не только абсолютные значения, но и паттерны, форму графика. Это уже ближе к тому, что используют в хедж-фондах.
3 Мультимодальный кошмар: цена + объем + новости
Настоящая магия начинается, когда вы кодируете не только цену. Каждый тик — это многомерный вектор: цена, объем, волатильность, sentiment score из новостей. VQ-VAE учится создавать комбинированные токены, которые захватывают эти взаимосвязи.
Токен «A7F» теперь означает не «цена выросла на 1.5%», а «цена выросла на 1.5% при аномально высоком объеме и негативном новостном фоне». Контекст. Именно его ищут LLM.
Архитектура: какой трансформер переживет рыночный крах
Выбрали схему токенизации. Теперь нужна модель. GPT для финансов? Не совсем.
| Архитектура | Плюсы для рынков | Минусы, от которых плачут |
|---|---|---|
| Стандартный декодер (GPT-style) | Простота, предсказывает следующий токен авторегрессионно | Квадратичная сложность внимания. Год данных = 250 000+ токенов контекста? Забудьте. |
| Longformer / BigBird | Скользящие окна внимания, работают с длинными контекстами | Могут пропускать долгосрочные зависимости (квартальные отчеты влияют на цену месяцами) |
| Mamba (SSM) | Линейная сложность, идеально для ultra-long контекстов | Молодая архитектура, меньше готовых решений, сложнее в отладке |
Если вы читали нашу статью про Mamba vs Transformer, то уже догадываетесь: для реального трейдинга с контекстом в десятки тысяч шагов Mamba — единственный разумный выбор. Трансформеры сгребут все ваши видеокарты в одну кучу и всё равно не справятся.
Обучение: как не переобучить модель на шум
Допустим, архитектуру выбрали. Теперь самое страшное — данные. Финансовые ряды нестационарны, зашумлены, содержат выбросы. Классический ML сразу предложит очистить данные, убрать аномалии. Это ошибка.
Рыночный крах — это и есть аномалия. Паника 2008 года, Flash Crash 2010-го — если вы выкинете их как выбросы, модель никогда не научится распознавать предвестники коллапса.
4 Чему учить: next-token prediction или прямое прогнозирование?
Классический подход LLM: предсказать следующий токен в последовательности. Для цен это работает… странно. Модель отлично учится предсказывать плавное движение, но сходит с ума на волатильных участках.
Альтернатива — учить модель предсказывать не следующий токен, а токен через N шагов (например, цена через 5 дней). Это сложнее, но ближе к реальной задаче трейдера.
Секрет хедж-фондов: они почти никогда не учат модель предсказывать абсолютную цену. Вместо этого — направление движения (up/down) или волатильность. Классификация вместо регрессии. Меньше шума, проще интерпретировать.
Ограничения: почему вы (скорее всего) не станете миллионером
Теперь о холодном душе реальности.
- Адаптивный рынок. Модель обнаружила паттерн. Начала его использовать. Другие алгоритмы заметили вашу активность. Паттерн исчез. LLM, в отличие от человека, не понимает, что её действия меняют среду.
- Черные лебеди. COVID-19, война, неожиданное решение ФРС. События, которых не было в тренировочных данных. LLM экстраполирует на основе прошлого. Прошлое не содержит пандемий. Результат — катастрофа.
- Стоимость ошибки. В языковой модели ошибка — это нелепое предложение. В трейдинге ошибка — это потеря реальных денег. Штрафная функция должна быть асимметричной: потеря $100K должна «болеть» для модели в 100 раз сильнее, чем прибыль в $100K.
- Latency. Самые сочные возможности на рынке живут миллисекунды. Ваша LLM, даже если она локальная на vLLM или llama.cpp, думает сотни миллисекунд. Поезд ушел.
Практический стек: с чего начать, если всё равно хочется
- Данные. Начните не с акций, а с крипты. Binance API, исторические тиковые данные. Более волатильно, меньше регуляторного шума, паттерны ярче.
- Токенизация. Возьмите готовую реализацию VQ-VAE из библиотеки (например,
speechbrain). Обучите на недельных данных одной пары (BTC/USDT). - Модель. Не GPT-2. Возьмите Mamba. Реализация от state-spaces/mamba. Контекст поставьте 2048 токенов (это ~3 месяца дневных данных).
- Обучение. Учите предсказывать не цену, а бинарный таргет: будет ли цена через 24 часа выше текущей? Используйте focal loss, чтобы бороться с дисбалансом классов (рынок не всегда движется).
- Бэктест. Не верьте accuracy на валидации. Реализуйте строгий walk-forward анализ: обучили на периоде 1, протестировали на периоде 2, сдвинули окно. Как в нашей статье про PMR и вероятностное мышление.
Что делают настоящие кванты (и почему они молчат)
Hudson River Trading, Two Sigma, Renaissance Technologies. Они не публикуют статьи про LLM в трейдинге. Но по косвенным данным (наёмные объявления, патенты, утечки):
- Используют собственные архитектуры на основе трансформеров с модифицированным вниманием, заточенным под мультимодальность (цена + order book + макростатистика).
- Гигантский контекст. Не 2048 токенов. 50 000+. Это позволяет модели «видеть» сезонные эффекты, квартальные циклы, корреляции между активами, которые проявляются с лагом в месяцы.
- Ансамбли. Не одна LLM. Десятки специализированных моделей: одна для волатильности, другая для направления, третья для обнаружения аномалий ликвидности. Решение принимает мета-модель.
- Сверхбыстрый инференс. ASIC или FPGA для вывода модели. Задержка — наносекунды. Ваш GPU для них — музейный экспонат.
Они молчат, потому что их edge (преимущество) — в этих деталях. Как только метод становится публичным, его альфа-потенциал испаряется за месяцы.
Итог: стоит ли игра свеч?
LLM для прогнозирования рынков — это не волшебная таблетка. Это сложный, ресурсоёмкий инструмент с тонкой настройкой. Он не заменит понимания рынка, риск-менеджмента, дисциплины.
Но.
Если вы рассматриваете это как исследовательский проект, как способ глубоко понять и временные ряды, и современные архитектуры нейросетей — это бесценный опыт. Вы не обязательно заработаете миллионы. Но вы гарантированно прокачаетесь в ML сильнее, чем за десяток курсов на Coursera.
Начните с малого. С одной пары. С простой токенизации. Посмотрите, сможет ли модель хотя бы отличить трендовый день от флэта. Это уже победа. А дальше — либо погружение в кроличью нору, либо здоровое осознание, что иногда классические методы всё ещё работают лучше.
Рынок — сложная система. LLM — сложный инструмент. Их встреча порождает хаос. Но именно в хаосе, как известно, прячутся самые интересные возможности.