Category Not Found

1252 prompts

Sort:

Build semantic similarity Eval Harness for bug root-cause analysis on Gemini 2.0 Flash

Design an eval harness for bug root-cause analysis using semantic similarity that tracks inter-judge agreement across prompt versions on Gemini 2.0 Flash.

Build BERTScore Eval Harness for bug root-cause analysis on Llama 3.3 70B

Design an eval harness for bug root-cause analysis using BERTScore that tracks cost-per-correct-answer across prompt versions on Llama 3.3 70B.

Build DeepEval metrics Eval Harness for bug root-cause analysis on Mistral Large

Design an eval harness for bug root-cause analysis using DeepEval metrics that tracks cost-per-correct-answer across prompt versions on Mistral Large.

Build semantic similarity Eval Harness for bug root-cause analysis on Qwen 2.5 72B

Design an eval harness for bug root-cause analysis using semantic similarity that tracks token cost across prompt versions on Qwen 2.5 72B.

Build BERTScore Eval Harness for log anomaly detection on o1-mini

Design an eval harness for log anomaly detection using BERTScore that tracks token cost across prompt versions on o1-mini.

Build promptfoo assertions Eval Harness for log anomaly detection on o3-mini

Design an eval harness for log anomaly detection using promptfoo assertions that tracks token cost across prompt versions on o3-mini.

Build human pairwise comparison Eval Harness for log anomaly detection on GPT-4o

Design an eval harness for log anomaly detection using human pairwise comparison that tracks p95 latency across prompt versions on GPT-4o.

Build factuality with retrieval Eval Harness for log anomaly detection on GPT-4o-mini

Design an eval harness for log anomaly detection using factuality with retrieval that tracks p95 latency across prompt versions on GPT-4o-mini.

Build embedding distance Eval Harness for log anomaly detection on Claude 3.7 Sonnet

Design an eval harness for log anomaly detection using embedding distance that tracks accuracy across prompt versions on Claude 3.7 Sonnet.

Build rubric scoring Eval Harness for log anomaly detection on Claude 4.5 Sonnet

Design an eval harness for log anomaly detection using rubric scoring that tracks accuracy across prompt versions on Claude 4.5 Sonnet.

Build LLM-as-judge Eval Harness for log anomaly detection on Claude Haiku 4

Design an eval harness for log anomaly detection using LLM-as-judge that tracks F1 score across prompt versions on Claude Haiku 4.

Build tool-call accuracy Eval Harness for log anomaly detection on Gemini 2.0 Flash

Design an eval harness for log anomaly detection using tool-call accuracy that tracks F1 score across prompt versions on Gemini 2.0 Flash.

🤖Any Model

374110