1Финальный синтез
Максимально приземлённая сессия: вместо новой теории — конкретные рабочие процессы. Как встроить эвалы в повседневную разработку, сделать их частью принятия решений и кто должен отвечать за качество системы.
Собираем всё в единую картину и разбираем типичные сценарии из крупных компаний, антипаттерны, которые ломают процесс, и набор практических рецептов.
Цель — превратить эвалы из исследовательского эксперимента в рабочий инструмент разработки и принятия решений, а не в артефакт, существующий сам по себе.
2Техническая часть
- Синтетические данные.
- Скоринг более мощной моделью.
- Эвалы как тесты vs. эвалы как измерение качества.
- Single-turn vs. multi-turn.
- Мультимодальные эвалы.
3Продуктовая и социальная часть
- Как убедить стейкхолдеров, что вашему эвалу можно верить.
- Как согласовывать критерии качества с продактами, обсуждать риски с legal и compliance, объяснять результаты менеджменту.
- Как строить процессы, в которых эвалы эволюционируют вместе с ростом usage.
- Типичные антипаттерны организации работы с эвалами.
4Закрытие
Подведение итогов курса и Q&A. Разбираем оставшиеся вопросы и финальные рецепты для внедрения у себя.