Проблема: 50 миллионов пользователей и один неверный совет
Flo Health - это не просто трекер менструального цикла. Это медицинская платформа с 50+ миллионами пользователей, которая генерирует терабайты контента: статьи о здоровье, рекомендации, ответы на вопросы. Каждый месяц они публикуют тысячи материалов, и каждый из них должен быть медицински точным. Одна ошибка - и последствия могут быть катастрофическими.
До 2025 года процесс проверки выглядел так: команда медицинских редакторов вручную читала каждый текст, сверяла с источниками, правила. Это занимало дни. Иногда недели. А контента становилось все больше - пользователи хотят ответы сейчас, а не через месяц.
Вспомните историю с Google AI Overviews, который советовал есть клей. В медицине такие ошибки не просто смешны - они опасны для жизни.
Решение: Заставить AI проверять AI
Вместо того чтобы нанимать еще сотню редакторов, Flo Health пошла другим путем. Они построили систему, где один AI проверяет другого. Или, точнее, где Amazon Bedrock проверяет контент, сгенерированный их внутренними моделями.
Идея проста до гениальности: если у нас уже есть AI, который генерирует контент, почему бы не использовать другой AI для его проверки? Но не любой AI - нужен тот, который понимает медицинский контекст, умеет работать с доказательной медициной и не галлюцинирует.
Архитектура: Три слоя проверки вместо одного
Flo Health не просто запустила промпт "Проверь этот текст на ошибки". Они построили многоуровневую систему валидации, где каждый слой ловит разные типы проблем.
1Слой факт-чекинга
Первый и самый важный уровень. Здесь Amazon Bedrock (с использованием Claude 3.5 Sonnet на 2026 год) сравнивает каждый утверждение в тексте с доверенными медицинскими источниками. Не просто "похоже на правду", а точное соответствие клиническим рекомендациям.
Система разбивает текст на атомарные факты - отдельные утверждения, которые можно проверить. Например, не "статья о беременности", а конкретные утверждения: "фолиевая кислота рекомендуется в первом триместре", "кофеин ограничить до 200 мг в день".
| Что проверяет | Как проверяет | Модель в Bedrock |
|---|---|---|
| Медицинские факты | Сравнение с клиническими гайдлайнами | Claude 3.5 Sonnet |
| Дозировки, сроки | Перекрестная проверка по базам | Amazon Titan Text |
| Противопоказания | Анализ контекста и условий | Claude 3.5 Sonnet |
2Слой контекста и тона
Медицинский контент - это не только факты. Это еще и тон, контекст, уместность. Можно дать абсолютно верный совет, но в неподходящий момент или слишком резко.
Второй слой проверяет: подходит ли этот контент для целевой аудитории? Не слишком ли он технический? Не создает ли панику? Здесь используется комбинация моделей - Claude для понимания контекста, Titan для анализа тона.
Пример из реальной работы системы: AI сгенерировал статью о рисках внематочной беременности. Факты были верны, но тон - катастрофический. Система Bedrock отметила: "Текст создает излишнюю тревогу, рекомендуется смягчить формулировки, добавить информацию о ранней диагностике".
3Слой согласованности
Третий слой - самый хитрый. Он проверяет, не противоречит ли новый контент уже опубликованным материалам Flo Health. Потому что можно написать две статьи, каждая из которых по отдельности верна, но вместе они дают противоречивые рекомендации.
Система хранит векторные эмбеддинги всех опубликованных материалов. Когда появляется новый контент, Bedrock ищет семантически близкие статьи и проверяет на противоречия. Если находит - отправляет на ручную проверку редактору.
Этот подход похож на семантическую декомпозицию медицинских текстов, но с фокусом на верификацию, а не на анализ.
Почему именно Amazon Bedrock, а не своя модель?
Вопрос, который задают все технические директора: зачем платить Amazon, если можно дообучить свою модель? У Flo Health был четкий ответ.
- Сертификация: Модели в Bedrock проходят медицинскую сертификацию. Claude 3.5 Sonnet для healthcare - не просто LLM, это модель, обученная и валидированная для медицинских задач.
- Обновления: Медицина меняется каждый день. Новые исследования, новые рекомендации. Bedrock обновляет модели регулярно, Flo Health получает актуальные знания без переобучения.
- Мультимодельность: Иногда нужен Claude для сложного анализа, иногда Titan для быстрой проверки. Bedrock дает доступ к разным моделям через один API.
- Безопасность данных: Медицинские данные - это святое. Bedrock обеспечивает compliance с HIPAA, GDPR и другими регуляториями.
Но главное - разделение ответственности. Когда модель для генерации и модель для проверки - это одна и та же система, она может повторять свои же ошибки. Разные архитектуры, разные тренировочные данные - меньше шансов на системную ошибку.
Человек в петле: Когда AI сдается
Самая важная часть системы - не AI, а люди. Flo Health не доверяет окончательное решение машине. Всегда.
Система на Bedrock работает как фильтр:
- Контент генерируется внутренним AI
- Bedrock проверяет по трем слоям
- Если все проверки пройдены - контент идет на легкую редактуру
- Если есть сомнения - отправляется медицинскому редактору
- Если найдены ошибки - возвращается на переработку с комментариями
Ключевая метрика: процент контента, который проходит автоматическую проверку. На старте это было 30%. Сейчас - 85%. Остальные 15% - сложные случаи, где нужен человеческий экспертиз.
Ошибки, которые они совершили (чтобы вы их не повторяли)
Flo Health не сразу пришла к этой архитектуре. Были ошибки. Дорогие ошибки.
Ошибка 1: Слишком строгий фильтр. Первая версия системы отвергала 70% контента. Редакторы тонули в работе. Оказалось, модель была слишком чувствительной - маркировала как "сомнительные" формулировки, которые были допустимы в контексте.
Ошибка 2: Игнорирование контекста. Система проверяла факты, но не учитывала, что один и тот же совет может быть верным для одной группы пользователей и опасным для другой. Например, рекомендации по питанию для беременных и для женщин с гестационным диабетом.
Ошибка 3: Статические источники. Сначала система сверялась с фиксированным набором гайдлайнов. Но медицина меняется. Вчерашняя истина сегодня - устаревшая информация. Пришлось подключить динамические источники и регулярно обновлять базу знаний.
Что это значит для индустрии?
Кейс Flo Health - это не просто история успеха. Это смена парадигмы в создании медицинского контента.
Раньше был выбор: либо человеческий контроль (качественно, но медленно), либо автоматизация (быстро, но рискованно). Теперь есть третий путь: AI-ассистированная проверка, где машина делает тяжелую работу, а человек фокусируется на сложных случаях.
Это особенно актуально на фоне экспансии OpenAI и Anthropic в медицину. Крупные игроки создают медицинские модели, но кто будет проверять их выводы? Другой AI от того же производителя? Это как просить студента проверить свою же домашнюю работу.
Архитектура Flo Health предлагает решение: использовать независимую платформу (Bedrock) с разными моделями для генерации и проверки. Это дороже, но безопаснее.
Будущее: Когда проверка станет быстрее генерации
Сейчас система проверяет контент за минуты вместо дней. Следующий шаг - проверка в реальном времени. Не "сгенерировал - проверил - опубликовал", а проверка во время генерации.
Представьте: AI пишет статью, и каждый абзац сразу проверяется на точность. Если модель начинает галлюцинировать - система останавливает ее, корректирует промпт, направляет в нужное русло.
Это уже тестируется. Комбинация Bedrock с инструментами для работы с данными позволяет создавать конвейеры, где контент не только проверяется, но и автоматически адаптируется под разные аудитории, форматы, регуляторные требования.
Но главный тренд - не скорость, а транспарентность. Flo Health планирует показывать пользователям, как контент был проверен: какие источники использовались, когда обновлялся, какой моделью валидировался. В мире, где доверие к AI падает, такая открытость становится конкурентным преимуществом.
Помните: даже самая продвинутая система проверки не заменяет критического мышления. Если ваш AI советует что-то, что звучит странно - проверьте. Всегда проверяйте. Особенно в медицине.
И последнее: технология, которую использует Flo Health, доступна не только гигантам. Amazon Bedrock, правильные промпты, многоуровневая архитектура - все это можно реализовать в любом проекте, где точность важнее скорости. Просто помните, что в медицине цена ошибки измеряется не в долларах, а в человеческих жизнях. И это меняет все.