Чтобы предсказать, контрафактный товар или нет, сервис комбинирует четыре независимые модели, каждая из которых обучена в своей предметной области (социальные сети, мобильные приложения, недвижимость, финтех). Это и есть «иерархическая кросс-доменная композиция»: один главный канал даёт основной сигнал (вес 0,875 — 87,5 % итогового вердикта), три дополнительных канала уточняют ответ (вес 0,025–0,075 каждый). Веса подобраны на отдельной валидационной выборке и зафиксированы — не пересчитываются на каждый запрос.
pHCDM = 0,875 · pрепутация и контент + 0,075 · pизображение + 0,025 · pбренд и цена + 0,025 · pтекст+картинка
Каждое p... — это число от 0 до 1, вероятность контрафакта
по своему сигналу. Финальное pHCDM — взвешенная сумма;
порог 0,5 → товар попадает в очередь модератора, порог 0,85
→ автоматическая блокировка.
| Канал | Что смотрит | Вес в HCDM |
|---|---|---|
| Репутация и контент Mode 3 (Deep Deliberation), домен соц. сетей | Историческая частота контрафакта у продавца, бренда, категории; текстовые и визуальные признаки | 0,875 |
| Только изображение Baseline C, домен мобильных приложений | Логистическая регрессия на эмбеддинге фото CLIP — независимый визуальный сигнал | 0,075 |
| Бренд и цена M2-FE+, домен недвижимости | Аномалии цены и характеристик товара относительно бренда; признаки «опечаток» в названии бренда | 0,025 |
| Совместный текст и картинка FT-MFF (late fusion), домен финтеха | Совместное представление текста и изображения для перекрёстной верификации | 0,025 |
Все три метрики ниже — стандартные для задач с сильным дисбалансом классов (≈ 7 % контрафакта). PR-AUC измеряет, насколько хорошо модель ранжирует подозрительные товары на вершину списка. R@P ≥ 0,9 отвечает на вопрос «сколько процентов всех настоящих контрафактов мы поймаем, если требуем точность не ниже 90 %» — это бизнес-метрика для канала автоматической блокировки. ROC-AUC — общая метрика разделимости классов.
| Метрика | На полном тестовом множестве n = 58 410 товаров | На «чистой» валидационной половине n = 24 842 (без подбора весов) |
|---|---|---|
| PR-AUC | 0,8044 | 0,7909 |
| R@P ≥ 0,9 | 0,2068 | 0,3920 |
| ROC-AUC | 0,9720 | 0,9714 |
Многосидовая валидация — повторение замера с 5 разными случайными разбиениями данных (random_state ∈ {1, 7, 42, 123, 2024}). HCDM значимо превзошла предыдущую командную конфигурацию (CDSM v3) в 5 случаях из 5 — это самый устойчивый эмпирический результат работы (§ 5.4.6.6 диплома).
Карточки — компоненты системы; стрелки — потоки данных, подписанные используемым протоколом. Зелёный поток — синхронный путь, фиолетовый — асинхронный (через очередь сообщений).
| prediction_requests | audit вход (PK task_id, JSON tab_inputs) |
|---|---|
| predictions_async | результаты sync+async (proba, signals, reasoning) |
| inference_queue | durable · TTL 5 мин · max 10 000 |
|---|---|
| inference_dlq | DLX для отвергнутых и истёкших |
PREDICTOR_TYPE · publisher_confirmsbasic.ack + UPDATE predictions_async SET status='done'.
Ошибка: basic.reject(requeue=False) → сообщение в DLX → inference_dlq.
127.0.0.1 на VPS, доступ через SSH-туннель: ssh -L 5050:localhost:5050 -L 15672:localhost:15672 root@5.129.242.72