Детектор контрафакта

Проверить товар

Фото товара *

📷

Нажмите или перетащите фото

JPG, PNG, WEBP — до 10 МБ

Без фото товара модель не сможет проанализировать карточку — это основной визуальный сигнал. Пожалуйста, прикрепите изображение.

Название товара *

Полное название, как в карточке маркетплейса.

Пожалуйста, укажите название товара — без него модель не сможет проанализировать текстовую модальность и сформулировать объяснение.

Описание

Бренд

Оставьте пустым, если бренд не указан в карточке.

Категория (CommercialTypeName4)

Цена (₽)

Оставьте пустым, если данных нет. Чтобы передать ноль — введите 0.

Дней на площадке

Сколько дней карточка опубликована.

Продажи за 30 дней

Возвраты за 30 дней

Возраст продавца (дни)

Сколько дней зарегистрирован продавец.

ItemID (опционально)

Идентификатор товара. Оставьте пустым для live-инференса по введённым полям.

Метрики сервиса

Загрузка…

Архитектура сервиса

Финальная модель — HCDM

Чтобы предсказать, контрафактный товар или нет, сервис комбинирует четыре независимые модели, каждая из которых обучена в своей предметной области (социальные сети, мобильные приложения, недвижимость, финтех). Это и есть «иерархическая кросс-доменная композиция»: один главный канал даёт основной сигнал (вес 0,875 — 87,5 % итогового вердикта), три дополнительных канала уточняют ответ (вес 0,025–0,075 каждый). Веса подобраны на отдельной валидационной выборке и зафиксированы — не пересчитываются на каждый запрос.

p_HCDM = 0,875 · p_{репутация и контент} + 0,075 · p_{изображение} + 0,025 · p_{бренд и цена} + 0,025 · p_{текст+картинка}

Каждое p_... — это число от 0 до 1, вероятность контрафакта по своему сигналу. Финальное p_HCDM — взвешенная сумма; порог 0,5 → товар попадает в очередь модератора, порог 0,85 → автоматическая блокировка.

Канал	Что смотрит	Вес в HCDM
Репутация и контент Mode 3 (Deep Deliberation), домен соц. сетей	Историческая частота контрафакта у продавца, бренда, категории; текстовые и визуальные признаки	0,875
Только изображение Baseline C, домен мобильных приложений	Логистическая регрессия на эмбеддинге фото CLIP — независимый визуальный сигнал	0,075
Бренд и цена M2-FE+, домен недвижимости	Аномалии цены и характеристик товара относительно бренда; признаки «опечаток» в названии бренда	0,025
Совместный текст и картинка FT-MFF (late fusion), домен финтеха	Совместное представление текста и изображения для перекрёстной верификации	0,025

Метрики итоговой модели

Все три метрики ниже — стандартные для задач с сильным дисбалансом классов (≈ 7 % контрафакта). PR-AUC измеряет, насколько хорошо модель ранжирует подозрительные товары на вершину списка. R@P ≥ 0,9 отвечает на вопрос «сколько процентов всех настоящих контрафактов мы поймаем, если требуем точность не ниже 90 %» — это бизнес-метрика для канала автоматической блокировки. ROC-AUC — общая метрика разделимости классов.

Метрика	На полном тестовом множестве n = 58 410 товаров	На «чистой» валидационной половине n = 24 842 (без подбора весов)
PR-AUC	0,8044	0,7909
R@P ≥ 0,9	0,2068	0,3920
ROC-AUC	0,9720	0,9714

Многосидовая валидация — повторение замера с 5 разными случайными разбиениями данных (random_state ∈ {1, 7, 42, 123, 2024}). HCDM значимо превзошла предыдущую командную конфигурацию (CDSM v3) в 5 случаях из 5 — это самый устойчивый эмпирический результат работы (§ 5.4.6.6 диплома).

Глоссарий технических терминов

HCDM: Hierarchical Cross-Domain Model — авторское название итоговой композиции 4 моделей
Канал / channel: Один из 4 базовых predictor'ов (отдельная нейронная сеть или дерево решений)
Convex blending: Линейная комбинация с положительными весами, в сумме дающими 1 (как процентное распределение голосов)
Wolpert-валидация: Протокол подбора весов на одной половине данных и оценки на другой — гарантирует, что веса не «подсмотрены» под итоговый тест [Wolpert, 1992]
PR-AUC (precision-recall AUC): Площадь под кривой precision/recall. От 0 до 1, выше — лучше. При базовой частоте 7 % случайная модель даёт ~0,07; HCDM = 0,8044
R@P ≥ 0,9 (recall at precision): «Сколько процентов контрафактов мы ловим, если ставим порог так, чтобы 90 % срабатываний были истинными»
ROC-AUC: Общая разделимость классов. Случайная модель даёт 0,5; HCDM = 0,972
CatBoost: Алгоритм градиентного бустинга от Yandex — основа большинства каналов HCDM
CLIP ViT-B/32: Нейросетевой эмбеддер изображений от OpenAI — переводит фото в 512-мерный вектор для дальнейшей обработки
multilingual-e5-small: Текстовый эмбеддер (Microsoft) — переводит текст в 384-мерный вектор; поддерживает русский
Frozen lookup: Сервис не пересчитывает предсказание, а отдаёт заранее вычисленное значение из parquet-файла. Используется для известных товаров из тестового сплита — гарантирует бит-точное соответствие метрикам диплома
Live HCDM: Запуск всех 4 моделей на лету для нового товара (которого нет в parquet). Качество может быть чуть ниже headline-метрик, потому что для нового продавца нет исторической статистики

Стек сервиса

Карточки — компоненты системы; стрелки — потоки данных, подписанные используемым протоколом. Зелёный поток — синхронный путь, фиолетовый — асинхронный (через очередь сообщений).

🖥 Браузер пользователя

SPA на vanilla JavaScript · разделы Проверить · Метрики · Архитектура

HTTPS · multipart/form-data

⚡ FastAPI (uvicorn ASGI)

POST /predict POST /predict-async GET /result/{task_id} GET /predict/{task_id}/reasoning GET /health GET /api/metrics

Внутренний компонент HCDMHeadlinePredictor: lookup (canonical ItemID) · live 4-channel composition · D2V fallback

SQL · asyncpg

AMQP · aio_pika

🐘 PostgreSQL 16

prediction_requests	audit вход (PK task_id, JSON tab_inputs)
predictions_async	результаты sync+async (proba, signals, reasoning)

UI на :5050 (pgAdmin) · async-драйвер asyncpg

🐰 RabbitMQ 3.13

inference_queue	durable · TTL 5 мин · max 10 000
inference_dlq	DLX для отвергнутых и истёкших

UI на :15672 · policy inference-resilience

basic.consume · prefetch=1

⚙ Worker (aio_pika consumer)

Async consumer · pluggable PREDICTOR_TYPE · publisher_confirms
Успех: basic.ack + UPDATE predictions_async SET status='done'. Ошибка: basic.reject(requeue=False) → сообщение в DLX → inference_dlq.

crud.mark_done() · запись результата

Production-инстанс и документация

🌐 Production: marketplace-fraud.ru (Timeweb VPS, HTTPS через Let's Encrypt)
📚 Swagger UI: /docs · ReDoc: /redoc
🐰 RabbitMQ Management и 🐘 pgAdmin — слушают только 127.0.0.1 на VPS, доступ через SSH-туннель: ssh -L 5050:localhost:5050 -L 15672:localhost:15672 root@5.129.242.72

Разделы диплома

§ 5.4.6 — HCDM как итог общекомандного синтеза (Phase 2)
§ 5.4.6.3 — Финальная конфигурация HCDM и формула
§ 5.4.6.6 — Многосидовая валидация (5/5)
§ 5.5 — SHAP-интерпретация мета-уровня
§ 5.6 — Выбор модели для production-сервиса
§ 6.2 — Архитектура сервиса (pluggable predictor + reasoning канал)
§ 7.3 — Асинхронная обработка через RabbitMQ (индивидуальный вклад автора)
§ 7.5 — Тестирование и нагрузка (индивидуальный вклад автора)