公開LLM公開 2026年5月21日更新 2026年5月21日24分Deep Search の評価に安易に LLM-as-a-Judge 使う前にREFLECTが、Deep research agent を評価する LLM-as-a-Judge を「既知の失敗を見抜けるか」という形でメタ評価する仕組みを整理します。LLMLLM-as-a-JudgeDeep Research評価REFLECT論文紹介