LLM деанонимизация: 90% точность | Угроза анонимности в интернете

Маска сорвана. Искусственным интеллектом

Запомните этот день. 3 марта 2026 года может стать точкой, когда ваше анонимное альтер эго в сети перестало существовать. Точнее, оно перестало быть анонимным для алгоритмов. Новая работа исследователей из Массачусетского технологического института (MIT) и Университета Карнеги-Меллона ставит жирный крест на иллюзиях: большие языковые модели сегодня идентифицируют личность за псевдонимом с точностью, от которой кровь стынет в жилах – до 90%.

Вы думали, что никто не свяжет ваш аккаунт на форуме любителей кактусов с профилем в LinkedIn? Ошибались. Современные LLM – такие как GPT-5, Claude 4 Opus и Gemini 2.0 Ultra – научились делать то, что раньше было под силу только спецслужбам с гигантскими базами данных. И делают это по вашему стилю письма. По мелочам, которые вы даже не замечаете.

Это не теория. Это результаты реального эксперимента, где моделям давали образцы текстов с разных псевдонимных аккаунтов одного человека. Итог – девять из десяти пар были успешно сопоставлены. Девяносто процентов.

Как нейросеть видит вас сквозь псевдоним

Механизм до смешного прост и от этого еще страшнее. LLM не ищет ваше имя. Она строит ваш лингвистический отпечаток пальца. Как это выглядит на практике?

Синтаксические паттерны: Сколько запятых вы ставите в сложных предложениях? Как часто начинаете фразы с союза «а»? Используете ли дефисы вместо тире? Это уникальная сигнатура.
Лексический выбор: Ваши любимые словечки-паразиты («как бы», «типа», «в общем-то»), специфические профессиональные термины, даже опечатки – все это маркеры.
Семантические предпочтения: О чем вы пишете чаще? Какие метафоры используете? Как строите аргументацию? Это стиль мышления, который сложно подделать.

Исследователи скормили моделям десятки тысяч пар сообщений с Reddit, Twitter (ныне X), форумов и блогов. Задачей было найти совпадения. И модели справились. Блестяще. Особенно отличилась свежая, только что анонсированная модель Claude 4 Sonnet с её улучшенными возможностями контекстного анализа. GPT-5 с её мультимодальным пониманием (она анализировала не только текст, но и паттерны времени публикации, если данные были доступны) показала результат в 87%.

💡

Это перекликается с нашим предыдущим расследованием о том, куда уходят ваши диалоги с ChatGPT. Данные, которые вы считаете приватными, уже могут быть использованы для построения вашего цифрового профиля.

Почему в 2026 году это стало возможным? Контекст имеет значение

Точность в 60-70% была достигнута еще пару лет назад. Рывок до 90% – заслуга трех факторов.

Гигантский контекст. Современные LLM обрабатывают сотни тысяч токенов. Они могут проанализировать всю историю постов пользователя за годы, выявив даже эволюцию стиля.
Мультимодальность. Модели типа GPT-5 или Gemini 2.0 Pro видят не только текст. Паттерны активности, связанные изображения, сетевые связи – все это дополнительные векторы для деанонимизации.
Специализированное обучение. Модели тонко настраивают на задачах стилометрии и анализа авторства, используя датасеты, о которых мы раньше и не мечтали.

Звучит как технологический прорыв? Безусловно. Но цена – наша с вами приватность. Ситуация становится абсурдной: с одной стороны, компании вроде Google или OpenAI внедряют инструменты вроде LLM-Shield для защиты данных. С другой – их же флагманские продукты могут стать идеальным оружием для срывания масок.

Кому это нужно? Сценарии, от которых не по себе

«Ну и что? – скажет кто-то. – Я не преступник, мне скрывать нечего». Классическая ошибка. Деанонимизация LLM – это не про поиск террористов. Это про:

Целевую рекламу: Рекламодатель сможет связать ваш «честный» профиль в соцсети с анонимными жалобами на здоровье на медицинском форуме и предложить вам конкретные таблетки.
Давление на инакомыслящих: Автор анонимного политического блога может внезапно получить звонок с работы.
Шантаж и вымогательство: Помните историю про LLM-вымогательство? Теперь для него не нужны утекшие пароли. Достаточно нескольких ваших постов.
Дискредитацию: Если вы, как автор, используете LLM для редактуры, об этом могут «узнать» и использовать против вас, как мы писали в материале про скрытое использование нейросетей.

Скандал с Google NotebookLM, из-за которого адвокат лишился Gmail, показал, насколько хрупка наша цифровая идентичность. Деанонимизация доводит эту хрупкость до предела.

Что делать? Инструкция по выживанию в эпоху всевидящих LLM

Паниковать? Бесполезно. Надеяться на регуляторов? Они всегда опаздывают. Действовать нужно самостоятельно и уже сейчас.

Во-первых, разделяйте идентичности. Железное правило: один псевдоним – один стиль. Пишите на разных площадках с разной лексикой, длиной предложений, даже грамматикой. Создайте себе несколько лингвистических личностей и не смешивайте их. Это сложно, но необходимо.

Во-вторых, используйте текстовые «шумы». Перед публикацией пропускайте текст через простые парафразеры, меняющие структуру предложений. Или добавляйте случайные символы в конце (но не так, как описано в уязвимости с невидимыми Unicode-символами – это уже детектируется).

В-третьих, минимизируйте цифровой след. Чем меньше вы пишете под одним ником, тем сложнее построить ваш стилометрический профиль. Иногда молчание – не только золото, но и броня.

В-четвертых, изучайте технологии защиты. Если вы запускаете свои self-hosted LLM, обязательно изучите методы защиты от prompt injection. Ваша модель не должна стать инструментом против вас же.

Что дальше? Прогноз от 03.03.2026

Через год, к марту 2027, точность деанонимизации, скорее всего, приблизится к 95-97% для активных пользователей. Появятся коммерческие сервисы «проверки авторства» для HR-отделов и страховых компаний. На волне хайпа возникнет и контр-движение: стартапы начнут предлагать услуги по «стилевому камуфляжу» – генерации текстов, маскирующих ваш настоящий стиль под другой.

Но главный удар придется не по отдельным пользователям, а по самой идее свободного, анонимного обсуждения в интернете. Форумы, где люди откровенничали о своих проблемах, начнут пустеть. Мы будем писать не то, что думаем, а то, что не выдаст нас. Искусственный интеллект, созданный для понимания человеческого языка, может стать тем, что заставит нас перестать быть собой в сети.

Ирония? Еще какая. Мы строили цифровой мир, чтобы быть свободнее. А получили идеального цифрового сыщика, который помнит каждое наше слово.

* Исследование «High-Precision Cross-Platform User De-anonymization via Pre-trained Language Models» доступно в открытом доступе с 28 февраля 2026 года. В эксперименте использовались актуальные на момент публикации версии языковых моделей, включая GPT-5 (релиз декабрь 2025), Claude 4 Sonnet/Opus (январь 2026) и Gemini 2.0 Ultra (ноябрь 2025).

Подписаться на канал

Как LLM угрожают анонимности: исследование деанонимизации псевдонимных пользователей с точностью до 90%