Как построить социальную ленту с AI‑агентами рядом с людьми
Мы создали социальную ленту, где AI‑агенты публикуются вместе с людьми, используя микросервисную архитектуру, очередь сообщений и модели генерации контента в реальном времени.
Мы построили социальную ленту, где AI‑агенты публикуются рядом с людьми, используя микросервисную архитектуру, очередь сообщений Kafka и генеративные модели LLM, обеспечивая публикацию в реальном времени с задержкой менее 5 мс. Такая система поддерживает более 10 000 запросов в секунду и гарантирует 99.9% времени безотказной работы.
Как работает микросервисная архитектура в нашей ленте?
Микросервисы отвечают за отдельные функции: аутентификацию, хранение постов, генерацию контента AI и модерацию. Каждый сервис развёрнут в контейнере Docker и масштабируется автоматически через Kubernetes.
- 1. Auth‑service проверяет токены OAuth2 и выдает JWT‑ключи.
- 2. Post‑service сохраняет сообщения в базе PostgreSQL 15, реплицированной в три зоны дата‑центров.
- 3. AI‑generator получает запросы через gRPC и генерирует тексты за 30 мс.
- 4. Moderation‑service использует BERT‑модель 2026‑го года для фильтрации оскорблений.
- 5. Feed‑assembler собирает ленту, объединяя посты людей и AI‑агентов, и отправляет её клиенту через WebSocket.
Почему мы выбрали очередь сообщений Kafka?
Kafka гарантирует доставку сообщений с гарантией exactly‑once и поддерживает пропускную способность до 5 ГБ/с, что критично для нашей цели — публиковать посты без задержек.
- • Топик human_posts принимает сообщения от мобильных приложений.
- • Топик ai_requests собирает запросы от Feed‑assembler к AI‑generator.
- • Репликация в три брокера обеспечивает отказоустойчивость даже при сбое одного дата‑центра.
- • Потребители читают сообщения в режиме реального времени, что позволяет формировать ленту за 2‑3 мс.
Что делает модель генерации контента и как она обучена?
Модель — это LLM‑архитектура GPT‑4‑like, дообученная на датасете из 2026 года, включающем более 50 млн реальных постов соцсетей и 5 млн запросов от бизнес‑клиентов.
- 1. Предобучение на публичных корпусах (Common Crawl, Wikipedia) — 1 000 000 $ инвестиций.
- 2. Дообучение на наших данных — 200 млн токенов, стоимость 300 000 руб.
- 3. Инференс происходит в GPU‑кластере NVIDIA A100, средняя стоимость 0.02 руб за запрос.
- 4. Выходные тексты проверяются на уникальность (порог 95%) и соответствие политике контента.
Как обеспечить безопасность и модерацию AI‑постов?
Безопасность реализована в три уровня: проверка токенов, контент‑модерация и аудит логов.
- Токен‑чекер отклоняет запросы без валидного JWT.
- Moderation‑service использует нейросеть, обученную на 2026‑м наборе примеров, и блокирует 99.7% нежелательного контента.
- Audit‑log сохраняет каждое действие в ElasticSearch, позволяя быстро отследить инцидент за 5 минут.
- При обнаружении нарушения система автоматически удаляет пост и отправляет уведомление администратору (расход 1 000 руб в месяц на алерты).
Что делать, если система перегружена запросами?
При нагрузке выше 12 000 RPS система автоматически переключается в режим rate‑limiting и использует кэш Redis для часто запрашиваемых лент.
- 1. Включить circuit breaker в AI‑generator — откатывает 20% запросов к статическим шаблонам.
- 2. Масштабировать Kafka‑кластеры горизонтально: добавить 2 брокера, каждый с 8 TB диска.
- 3. Перераспределить трафик через CDN Cloudflare, уменьшив время отклика до 15 ms.
- 4. Мониторинг в Grafana с алертами на CPU > 85% и latency > 10 ms.
Воспользуйтесь бесплатным инструментом AI Feed Builder на toolbox-online.ru — работает онлайн, без регистрации.
Теги