1Кейс сессии
Реальный финансовый AI-ассистент Revolut AIR — LLM-чатбот с доступом к транзакционной базе пользователя, помогает с вопросами про расходы, переводы, категории трат и финансовое поведение. Пользователь взаимодействует в несколько turns.
Четвёртая сессия — про более сложный и реалистичный формат AI-продукта: многошаговый чат, где качество нельзя измерить одним ответом на один запрос. Пользователь уточняет вопрос, меняет формулировку, просит детализацию, может ошибаться или давать неполный контекст.
2Что разбираем
- Как симулировать поведение пользователя через LLM.
- Как задавать сценарии и ground truth для LLM-as-a-judge в multi-turn-сеттинге.
- Что мерить кроме финального pass rate: качество диалога, устойчивость к уточнениям, корректность работы с данными, полезность ответа.
- Как создавать синтетические персоны пользователей.
3Главная идея
В multi-turn-продукте важна не отдельная реплика, а способность системы довести пользователя до результата через весь диалог.
4Домашнее задание
// Практика
Дан шаблон AI-ассистента с базой банковских транзакций, куда можно подставить свою выгрузку. Написать 10 end-to-end эвалов, покрывающих ключевые сценарии, создать 5 синтетических персон пользователей и проскорить все комбинации.