1Кейс сессии
Продукт генерации кастомных изображений для печати на банковских картах. Важно не только качество картинки, но и безопасность: нельзя генерировать чужие бренды, логотипы, неприличный контент, запрещённые символы и другие рискованные категории.
Третья сессия показывает, что подход к эвалам не ограничивается текстовыми задачами — те же принципы работают и для мультимодальных систем. Учимся из продуктового риска получать набор рубрик для оценки.
2Что разбираем
- Как определить список рубрик оценки.
- Как декомпозировать «недопустимый контент» в проверяемые классы.
- Генерация синтетических запросов по рубрикам.
- VLM-as-a-judge для визуального контента.
- Эвалы как контроль критических продуктовых и регуляторных рисков.
3Главная идея
Мыслить эвалами не как текстовыми unit-тестами, а как универсальным способом измерять поведение AI-системы в любой модальности и контролировать критические риски.
4Домашнее задание
// Практика
Дан шаблон системы генерации картинки для карты. Построить автоматический эвал: сгенерировать синтетические рискованные запросы по рубрикам, прогнать их и измерить частоту нелегальных / небезопасных изображений через VLM-as-a-judge.