Сессия 3 — Оценка AI-агентов
~/Программа/Сессия 3

Мультимодальность: тот же инструментарий на генерации изображений

Кейс — генерация кастомных картинок для печати на банковских картах. Рубрики безопасности, декомпозиция недопустимого контента и VLM-as-a-judge для визуального результата.

1Кейс сессии

Продукт генерации кастомных изображений для печати на банковских картах. Важно не только качество картинки, но и безопасность: нельзя генерировать чужие бренды, логотипы, неприличный контент, запрещённые символы и другие рискованные категории.

Третья сессия показывает, что подход к эвалам не ограничивается текстовыми задачами — те же принципы работают и для мультимодальных систем. Учимся из продуктового риска получать набор рубрик для оценки.

Многие эвалы существуют не для измерения среднего качества, а чтобы гарантировать отсутствие ошибок, недопустимых ни при каких обстоятельствах. Нас интересует не «насколько хороша модель в среднем», а «насколько редко она нарушает жёсткие ограничения».

2Что разбираем

  • Как определить список рубрик оценки.
  • Как декомпозировать «недопустимый контент» в проверяемые классы.
  • Генерация синтетических запросов по рубрикам.
  • VLM-as-a-judge для визуального контента.
  • Эвалы как контроль критических продуктовых и регуляторных рисков.

3Главная идея

Мыслить эвалами не как текстовыми unit-тестами, а как универсальным способом измерять поведение AI-системы в любой модальности и контролировать критические риски.

4Домашнее задание

// Практика

Дан шаблон системы генерации картинки для карты. Построить автоматический эвал: сгенерировать синтетические рискованные запросы по рубрикам, прогнать их и измерить частоту нелегальных / небезопасных изображений через VLM-as-a-judge.

← Предыдущая
Error analysis и почему eval-driven development — фантазия
КОНТАКТЫ
Режим и график работы организации: понедельник - пятница: с 8.00 до 20.00

Электронная почта: shvm.xyz@yandex.ru


Реквизиты:
Общество с ограниченной ответственностью «ШКОЛА ВЫСШЕЙ МАТЕМАТИКИ»
ИНН: 9728100991
КПП: 772801001
ОГРН: 1237700481622

Юридический адрес:
117342, Г.Москва, ВН.ТЕР.Г. МУНИЦИПАЛЬНЫЙ ОКРУГ КОНЬКОВО, УЛ БУТЛЕРОВА, Д. 17, ПОМЕЩ. 95/3