Сессия 2 — Оценка AI-агентов
~/Программа/Сессия 2

Error analysis и почему eval-driven development — фантазия

Почему нельзя один раз придумать идеальный эвал и «разрабатывать под него». Чтение трейсов, кластеризация ошибок, few-shot mining и автоподбор промптов через GEPA и DSPy.

1Кейс сессии

Типичная продакшн-ситуация: первая версия LLM-системы уже работает, общий pass rate вроде бы понятен — но непонятно, что именно чинить дальше. Разбираем топовые решения кейса из сессии 1 и идём глубже.

Во второй сессии разбираем, почему в реальной разработке невозможно один раз придумать идеальный эвал и дальше просто «разрабатывать под него». Смотрим, где системы ошибаются, как читать трейсы, как находить повторяющиеся паттерны и как превращать наблюдения в конкретные улучшения.

Error analysis — главный двигатель улучшения качества. Эвал не пишется один раз: он расширяется по мере того, как становятся видны новые классы поломок.

2Что разбираем

  • Error analysis как движок улучшения качества.
  • Как анализировать и кластеризовать трейсы, искать паттерны ошибок.
  • Как чинить систему на основе найденных паттернов.
  • Few-shot examples mining.
  • Расширение эвалов по мере того, как становится понятнее, что ломается.
  • Автоподбор промптов через GEPA и DSPy.

3Главная идея

Реальный цикл улучшения: прогон → трейсы → паттерны ошибок → фикс → обновлённый эвал, который лучше отражает новые знания о проблеме. И так по кругу.

4Домашнее задание

// Практика

Даётся 1000 запросов. Прогнать их через систему из сессии 1, записать трейсы, найти типы часто повторяющихся ошибок, пофиксить систему и обновить эвал.

← Предыдущая
Интро и философия эвалов на простом кейсе
КОНТАКТЫ
Режим и график работы организации: понедельник - пятница: с 8.00 до 20.00

Электронная почта: shvm.xyz@yandex.ru


Реквизиты:
Общество с ограниченной ответственностью «ШКОЛА ВЫСШЕЙ МАТЕМАТИКИ»
ИНН: 9728100991
КПП: 772801001
ОГРН: 1237700481622

Юридический адрес:
117342, Г.Москва, ВН.ТЕР.Г. МУНИЦИПАЛЬНЫЙ ОКРУГ КОНЬКОВО, УЛ БУТЛЕРОВА, Д. 17, ПОМЕЩ. 95/3