1Кейс сессии
QnA-компонента в поиске по справке Revolut: отвечает на вопросы пользователей на основе базы FAQ и документации. Специально симулируем типичную для ранней стадии ситуацию — систему уже нужно оценивать, а реального трафика ещё нет.
Первая сессия заземляет разговор об эвалах в реальный продуктовый кейс, а не обсуждает абстрактные метрики в вакууме. Проходим весь путь: что именно делает система, зачем она пользователю и бизнесу, как заранее определить, что такое «хороший ответ», как построить базовую QnA-систему и как измерить качество её итоговых ответов.
2Что разбираем
- Продукт — что вообще делаем и зачем.
- Как определить «хороший ответ» до выкатки в прод.
- Как собрать синтетические запросы для оценки, когда живых данных нет.
- Как построить саму QnA-систему.
- Как оценивать качество итогового ответа.
3Главная идея
Участники получают не теорию про «надо тестировать LLM», а рабочий шаблон мышления: ожидания → синтетический датасет → тестовый набор → улучшение продукта.
4Домашнее задание
// Практика
Дан шаблон QnA-бота на реальных публичных FAQ Revolut. Задача — допилить вокруг него эвал по стратегии, обсуждённой на звонке.