Category Not Found

1252 prompts

Sort:

Build regex match checks Eval Harness for log anomaly detection on Qwen 2.5 72B

Design an eval harness for log anomaly detection using regex match checks that tracks accuracy across prompt versions on Qwen 2.5 72B.

Build DeepEval metrics Eval Harness for log anomaly detection on o1-mini

Design an eval harness for log anomaly detection using DeepEval metrics that tracks F1 score across prompt versions on o1-mini.

Build semantic similarity Eval Harness for log anomaly detection on o3-mini

Design an eval harness for log anomaly detection using semantic similarity that tracks F1 score across prompt versions on o3-mini.

Build BERTScore Eval Harness for log anomaly detection on Command R+

Design an eval harness for log anomaly detection using BERTScore that tracks factuality across prompt versions on Command R+.

Build promptfoo assertions Eval Harness for log anomaly detection on GPT-4o-mini

Design an eval harness for log anomaly detection using promptfoo assertions that tracks factuality across prompt versions on GPT-4o-mini.

Build human pairwise comparison Eval Harness for log anomaly detection on Claude 3.7 Sonnet

Design an eval harness for log anomaly detection using human pairwise comparison that tracks factuality across prompt versions on Claude 3.7 Sonnet.

Build factuality with retrieval Eval Harness for log anomaly detection on Claude 4.5 Sonnet

Design an eval harness for log anomaly detection using factuality with retrieval that tracks refusal rate across prompt versions on Claude 4.5 Sonnet.

Build embedding distance Eval Harness for log anomaly detection on Claude Haiku 4

Design an eval harness for log anomaly detection using embedding distance that tracks refusal rate across prompt versions on Claude Haiku 4.

Build rubric scoring Eval Harness for log anomaly detection on Gemini 2.0 Flash

Design an eval harness for log anomaly detection using rubric scoring that tracks toolcall precision across prompt versions on Gemini 2.0 Flash.

Build LLM-as-judge Eval Harness for log anomaly detection on DeepSeek-R1

Design an eval harness for log anomaly detection using LLM-as-judge that tracks toolcall precision across prompt versions on DeepSeek-R1.

Build tool-call accuracy Eval Harness for log anomaly detection on Mistral Large

Design an eval harness for log anomaly detection using tool-call accuracy that tracks format-compliance rate across prompt versions on Mistral Large.

Build rubric scoring Eval Harness for log anomaly detection on Qwen 2.5 72B

Design an eval harness for log anomaly detection using rubric scoring that tracks format-compliance rate across prompt versions on Qwen 2.5 72B.

🤖Any Model

137862