1Кейс сессии
Типичная продакшн-ситуация: первая версия LLM-системы уже работает, общий pass rate вроде бы понятен — но непонятно, что именно чинить дальше. Разбираем топовые решения кейса из сессии 1 и идём глубже.
Во второй сессии разбираем, почему в реальной разработке невозможно один раз придумать идеальный эвал и дальше просто «разрабатывать под него». Смотрим, где системы ошибаются, как читать трейсы, как находить повторяющиеся паттерны и как превращать наблюдения в конкретные улучшения.
2Что разбираем
- Error analysis как движок улучшения качества.
- Как анализировать и кластеризовать трейсы, искать паттерны ошибок.
- Как чинить систему на основе найденных паттернов.
- Few-shot examples mining.
- Расширение эвалов по мере того, как становится понятнее, что ломается.
- Автоподбор промптов через GEPA и DSPy.
3Главная идея
Реальный цикл улучшения: прогон → трейсы → паттерны ошибок → фикс → обновлённый эвал, который лучше отражает новые знания о проблеме. И так по кругу.
4Домашнее задание
// Практика
Даётся 1000 запросов. Прогнать их через систему из сессии 1, записать трейсы, найти типы часто повторяющихся ошибок, пофиксить систему и обновить эвал.