Показываем, что весь подход к эвалам переносится на нетекстовые модальности.
Кейс: генерация кастомных картинок для печати на банковских картах. Нельзя генерировать чужие бренды, логотипы, неприличный контент и т.д. Задача эвала - оценить насколько безопасна с точки зрения этих рисков наша система
Что разбираем:
- как определить список рубрик
- как декомпозировать недопустимый контент в рубрики
- генерация синтетические запросы по рубрикам
- VLM-as-a-judge для визуального контента