Сессия 1 — Оценка AI-агентов
~/Программа/Сессия 1

Интро и философия эвалов на простом кейсе

Кейс — QnA-поиск по справке Revolut. Весь путь от продуктовой постановки до первого работающего эвала в ситуации, когда живых пользовательских данных ещё нет.

1Кейс сессии

QnA-компонента в поиске по справке Revolut: отвечает на вопросы пользователей на основе базы FAQ и документации. Специально симулируем типичную для ранней стадии ситуацию — систему уже нужно оценивать, а реального трафика ещё нет.

Первая сессия заземляет разговор об эвалах в реальный продуктовый кейс, а не обсуждает абстрактные метрики в вакууме. Проходим весь путь: что именно делает система, зачем она пользователю и бизнесу, как заранее определить, что такое «хороший ответ», как построить базовую QnA-систему и как измерить качество её итоговых ответов.

Сначала формулируем ожидания к поведению системы, затем учимся создавать синтетический датасет, максимально похожий на реальные запросы, потом строим тестовый набор — и только после этого улучшаем сам продукт.

2Что разбираем

  • Продукт — что вообще делаем и зачем.
  • Как определить «хороший ответ» до выкатки в прод.
  • Как собрать синтетические запросы для оценки, когда живых данных нет.
  • Как построить саму QnA-систему.
  • Как оценивать качество итогового ответа.

3Главная идея

Участники получают не теорию про «надо тестировать LLM», а рабочий шаблон мышления: ожидания → синтетический датасет → тестовый набор → улучшение продукта.

4Домашнее задание

// Практика

Дан шаблон QnA-бота на реальных публичных FAQ Revolut. Задача — допилить вокруг него эвал по стратегии, обсуждённой на звонке.

КОНТАКТЫ
Режим и график работы организации: понедельник - пятница: с 8.00 до 20.00

Электронная почта: shvm.xyz@yandex.ru


Реквизиты:
Общество с ограниченной ответственностью «ШКОЛА ВЫСШЕЙ МАТЕМАТИКИ»
ИНН: 9728100991
КПП: 772801001
ОГРН: 1237700481622

Юридический адрес:
117342, Г.Москва, ВН.ТЕР.Г. МУНИЦИПАЛЬНЫЙ ОКРУГ КОНЬКОВО, УЛ БУТЛЕРОВА, Д. 17, ПОМЕЩ. 95/3