Застряли на плато? Веса трогать нельзя, а апгрейд нужен

Представьте: у вас есть Qwen2.5-72B-Instruct (или любая другая монструозная модель на 10 марта 2026 года). Она хороша, но не идеальна. Fine-tuning стоит как небольшой самолет, дообучение с нуля - проще продать почку. А лидерборд Hugging Face Open LLM Leaderboard так и манит первым местом. Что делать? Правильно - схитрить.

Метод дублирования слоев - это не магия, а инженерный лайфхак. Вы не меняете ни один параметр модели. Вы просто меняете то, как она их использует. Результат? На момент публикации этой статьи (10.03.2026) модифицированная таким образом модель стабильно занимает топовые позиции в рейтинге по ключевым метрикам: ARC, HellaSwag, MMLU.

Суть метода: зачем копировать то, что уже работает

Трансформерные архитектуры (все современные LLM) состоят из слоев. Обычно их десятки. Идея проста до безобразия: берем определенный непрерывный блок слоев (например, с 20-го по 27-й) и заставляем модель проходить через него дважды подряд во время инференса.

Это не обучение. Веса остаются замороженными. Вы просто меняете функциональную схему прохода данных. Представьте водопроводную трубу: вы добавляете дополнительную петлю, но насос тот же самый.

Почему это вообще работает? Современные гигантские модели часто страдают от когнитивного затухания в глубине сети. Информация, попадая в средние слои, "размазывается". Дублирование ключевого блока позволяет модели повторно обработать и усилить важные паттерны, прежде чем передать их дальше. Это как дать модели второй шанс подумать над сложной мыслью.

Хакинг лидерборда: как независимый исследователь обогнал корпорации

История успеха выглядела так: базовой моделью была Qwen2.5-72B-Instruct (актуальная на начало 2026 года). На двух RTX 4090 (24 ГБ каждая) с помощью библиотеки vLLM последней версии был запущен инференс с модифицированным графом вычислений.

Были продублированы блоки слоев 20-27 и 40-47. Почему именно они? Эмпирически. После анализа активаций и градиентов (с помощью инструментов вроде TransformerLens) стало ясно, что эти участки отвечают за синтез логических связей и работу с контекстом. Их дублирование дало максимальный прирост на задачах, требующих reasoning.

💡

Прирост производительности нелинейный. Дублирование первых или последних слоев часто бесполезно. Нужно искать "бутылочные горлышки" конкретной архитектуры. Для Qwen2.5 это оказалась середина сети.

Результат отправки такой модифицированной модели на Open LLM Leaderboard - первое место по совокупному среднему баллу (Average). Ключевой скачок произошел в MMLU (массовый многозадачный языковой понимание) и ARC (AI2 Reasoning Challenge). Модель стала лучше рассуждать, а не просто помнить факты.

1 Готовим окружение и модель

Вам понадобится Python 3.11+, PyTorch 2.3+ (актуальные на 2026 год), и библиотеки transformers, vLLM или llama.cpp с поддержкой кастомных графов. Установите их.

pip install torch transformers vllm --upgrade
# Или для полного контроля:
# git clone https://github.com/ggerganov/llama.cpp
# cd llama.cpp && make

Скачайте целевую модель, например, Qwen/Qwen2.5-72B-Instruct с Hugging Face. Убедитесь, что у вас достаточно VRAM. Для 72B в FP16 нужно ~144 ГБ. Используйте квантование (например, GPTQ или AWQ) для запуска на двух RTX 4090. Актуальные рецепты квантования ищите в статье про лучшие LLM для локального запуска.

2 Анализируем модель и ищем слабые места

Не бросайтесь дублировать слои наугад. Запустите бенчмарки (те же задачи из Open LLM Leaderboard) и посмотрите, где модель ошибается чаще. Используйте инструменты для интерпретируемости, такие как TransformerLens или Captum, чтобы визуализировать поток информации через слои.

# Примерный псевдокод для анализа активаций
from transformers import AutoModelForCausalLM
import torch

model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-72B-Instruct", torch_dtype=torch.float16, device_map="auto")

# Хук для захвата активаций в определенном слое
activations = {}
def get_activation(name):
    def hook(model, input, output):
        activations[name] = output.detach()
    return hook

# Регистрируем хук для слоя 25
model.model.layers[25].register_forward_hook(get_activation("layer_25"))
# ... прогоняем тестовые данные ...
# Анализируем статистики активаций (среднее, дисперсия)

Ищите слои, где активации резко меняются или, наоборот, становятся слишком "шумными". Обычно это сигнал о потере информации.

3 Модифицируем граф вычислений

Самый ответственный этап. Вы не меняете файлы модели. Вы создаете обертку (wrapper) над моделью, которая переопределяет порядок вызова слоев. Вот упрощенная концепция на PyTorch.

class DuplicatedLayersWrapper(torch.nn.Module):
    def __init__(self, original_model, duplicate_start, duplicate_end):
        super().__init__()
        self.model = original_model
        self.start, self.end = duplicate_start, duplicate_end
        self.duplicate_block = torch.nn.Sequential(*[self.model.model.layers[i] for i in range(self.start, self.end)])

    def forward(self, hidden_states, attention_mask=None):
        # Проходим через слои до start
        for i in range(self.start):
            hidden_states = self.model.model.layers[i](hidden_states, attention_mask=attention_mask)[0]
        
        # ДУБЛИРУЕМ: дважды прогоняем через целевой блок
        for _ in range(2):
            hidden_states = self.duplicate_block(hidden_states)
        
        # Продолжаем обычный проход с слоя end
        for i in range(self.end, len(self.model.model.layers)):
            hidden_states = self.model.model.layers[i](hidden_states, attention_mask=attention_mask)[0]
        
        return hidden_states

Это концепт. В реальности нужно аккуратно обрабатывать attention_mask, кеши ключ-значений (KV-cache) и другие аргументы. Для продакшена используйте vLLM с кастомным ядром или модифицируйте код llama.cpp.

4 Тестируем и отправляем на лидерборд

Запустите локальное тестирование на датасетах из лидерборда (ARC, HellaSwag, MMLU, TruthfulQA). Убедитесь, что модификация не сломала базовую функциональность. Затем подготовьте модель для отправки: создайте репозиторий на Hugging Face, загрузите конфиг и скрипты загрузки, которые применяют вашу обертку. Важно: сами веса остаются оригинальными, вы загружаете только код изменения архитектуры.

Важно: На лидерборде проверяют, что модель доступна для загрузки и инференса. Ваш скрипт загрузки (modeling_duplicated_qwen.py) должен быть безупречным. Одна ошибка в обработке формата ввода - и оценка провалится.

Где вас подставят: четыре фатальные ошибки

Дублирование всех подряд. Скопируете первые 10 слоев - получите нулевой прирост или деградацию. Нужен анализ, а не случайный выбор. Метод слепого поиска отнимет недели.
Игнорирование KV-cache. При дублировании слоев кеш ключ-значений должен быть согласован. Иначе модель начнет "галлюцинировать" на длинных контекстах. Это частая причина провала в TruthfulQA.
Попытка дообучить дублированные слои. Это уже не наш метод. Если вы разморозите веса и попробуете fine-tuning, вы сломаете оригинальную модель. Мы работаем только с инференсом.
Неправильная оценка. Не полагайтесь только на один бенчмарк. Протестируйте на разнообразных задачах, включая те, что требуют вызова функций. Методики из статьи про тестирование недетерминированных LLM помогут избежать сюрпризов.

Вопросы, которые вы хотели задать, но стеснялись

Вопрос	Короткий ответ
Это не обман лидерборда?	Нет. Вы не меняете веса, не подбираете данные под тесты. Вы легально улучшаете архитектуру инференса, как и многие другие методы (например, speculative decoding).
Замедляется ли работа модели?	Да, на 15-30%. Вы добавляете лишние вычисления. Но иногда прирост качества того стоит, особенно для оффлайн-задач.
Работает ли с маленькими моделями (7B, 13B)?	Эффект менее выражен. Маленькие модели чаще всего упираются в недостаток параметров, а не в глубину. Но попробовать можно.
Можно ли дублировать больше двух раз?	Технически - да. Практически - после третьего прохода полезный сигнал тонет в шуме. Закон убывающей отдачи в действии.

Метод дублирования слоев - это доказательство того, что современные LLM еще далеки от оптимальности в плане архитектуры инференса. Возможно, будущие модели (после 2026 года) будут изначально проектироваться с подобными петлями обработки. А пока что этот лайфхак - ваш билет на первую строчку рейтинга без миллионов долларов на вычисления.

Что дальше? Экспериментируйте с другими моделями. Попробуйте дублировать не соседние слои, а разнесенные. Изучите, как этот метод сочетается с продвинутыми техниками оптимизации, например, с агентным обучением с подкреплением, где каждое «размышление» модели можно усилить.

И помните: главное в этом методе - не слепое копирование, а понимание того, как ваша модель думает. Иногда, чтобы стать умнее, ей просто нужно повторить урок.

Подписаться на канал

Метод дублирования слоев: как улучшить LLM без изменения весов и занять первое место на Open LLM Leaderboard