LLM-as-a-judge

Давайте научимся автоматические оценивать качество ответов агента (Evaluation), с помощью другой LLM.

Документация:

Создайте подключение к LLM в проекте Langfuse

В вашем проекте Langfuse зайдите в раздел

Settings \ LLM Connections

Создайте новое подключение к LLM - нажмите Add LLM Connection, укажите:

  • LLM adapter: openai
  • Provider name: mws-gpt
  • API key: sk-II8bOcxALbJSOXL8epeCmQ
  • API Base URL: https://api.gpt.mws.ru
  • Custom models: qwen3-vl-30b-a3b-instruct

llm llm

Создайте ШАБЛОН evaluator'а

Для этого в вашем проекте Langfuse перейдите в раздел LLM-as-a-judge

Нажмите + Set up evaluator и выберите + Create Custom Evaluator (внизу справа кнопка)

Выберите имя для шаблона, например custom eval и введите примерно такой текст в Evaluation prompt:

Ты проверяешь адекватность и соответствие ответа бота на запрос пользователя. Тебе нужно убедиться, что ответ {{output}} соответствует запросу пользователя {{input}}

llm

Примечание: Создание шаблона может подвисать (баг langfuse). Перезагрузите страницу, скорее всего шаблон создался

Создайте экземпляр evaluator'а из шаблона

Для этого снова нажмите + Set up evaluator и выберите из списка ранее созданный custom eval в разделе Custom evaluators

Добавьте в фильтр условие Name any of run-agent (чтобы проверка работала только для финалного запроса)

Уберите из фильтра TYPE

Если фильтр выбран верно - вы увидите список подходящих спанов run-agent в таблице.

llm

Настройте маппинг секций {{output}} и {{input}} - установите Object Field в Output и Input соответственно

llm

Сделайте запросы к агенту

Сделайте несколько запросов к агенту

Задача

Добиться появления в трейсах Langfuse у спана run-agent оценки качества и ее обоснования

llm

llm