Deep Search の評価に安易に LLM-as-a-Judge 使う前に
REFLECTが、Deep research agent を評価する LLM-as-a-Judge を「既知の失敗を見抜けるか」という形でメタ評価する仕組みを整理します。
7本の記事を、このタグからまとめて確認できます。
REFLECTが、Deep research agent を評価する LLM-as-a-Judge を「既知の失敗を見抜けるか」という形でメタ評価する仕組みを整理します。
ZClaw をベースにした通常版 ESP32 と Ollama を組み合わせ、自然言語の指示で GPIO22 と GPIO23 の LED をオンオフする構成を整理します。
PCNETとPC-LDCDが、LLMのハルシネーションを隠れ層の幾何的な異常として検出し、必要なときだけデコード時に介入する仕組みを論文ベースで整理します。
Transformerのカウント失敗を、内部表現の欠如ではなく、出力ヘッドと数字トークンの幾何学的な読み出しズレとして説明する論文を整理します。
HiGMemが長期会話エージェントの記憶をTurnとEventに分け、LLMに読むべき証拠だけを選ばせる仕組みを論文ベースで整理します。
A-MemがLLMエージェントの長期記憶をどのようにノート化し、リンクし、進化させるのかを論文ベースで整理します。
推論モデルの公開価格と実コストがなぜずれるのかを、thinking token を中心に論文ベースで整理します。