Category Not Found

1252 prompts

Sort:

Build tool-call accuracy Eval Harness for log anomaly detection on GPT-4.1

Design an eval harness for log anomaly detection using tool-call accuracy that tracks token cost across prompt versions on GPT-4.1.

Build G-Eval Eval Harness for log anomaly detection on Claude 3.7 Sonnet

Design an eval harness for log anomaly detection using G-Eval that tracks token cost across prompt versions on Claude 3.7 Sonnet.

Build exact match Eval Harness for log anomaly detection on Claude 4.5 Sonnet

Design an eval harness for log anomaly detection using exact match that tracks token cost across prompt versions on Claude 4.5 Sonnet.

Build JSON schema validation Eval Harness for log anomaly detection on Claude Haiku 4

Design an eval harness for log anomaly detection using JSON schema validation that tracks p95 latency across prompt versions on Claude Haiku 4.

Build Trulens feedback functions Eval Harness for log anomaly detection on Gemini 2.0 Flash

Design an eval harness for log anomaly detection using Trulens feedback functions that tracks p95 latency across prompt versions on Gemini 2.0 Flash.

Build BLEU/ROUGE Eval Harness for log anomaly detection on DeepSeek-R1

Design an eval harness for log anomaly detection using BLEU/ROUGE that tracks accuracy across prompt versions on DeepSeek-R1.

Build regex match checks Eval Harness for log anomaly detection on Llama 3.1 405B

Design an eval harness for log anomaly detection using regex match checks that tracks accuracy across prompt versions on Llama 3.1 405B.

Build DeepEval metrics Eval Harness for log anomaly detection on Qwen 2.5 72B

Design an eval harness for log anomaly detection using DeepEval metrics that tracks F1 score across prompt versions on Qwen 2.5 72B.

Build BLEU/ROUGE Eval Harness for log anomaly detection on o1-mini

Design an eval harness for log anomaly detection using BLEU/ROUGE that tracks F1 score across prompt versions on o1-mini.

Build regex match checks Eval Harness for log anomaly detection on o3-mini

Design an eval harness for log anomaly detection using regex match checks that tracks factuality across prompt versions on o3-mini.

Build DeepEval metrics Eval Harness for log anomaly detection on Command R+

Design an eval harness for log anomaly detection using DeepEval metrics that tracks factuality across prompt versions on Command R+.

Build semantic similarity Eval Harness for log anomaly detection on GPT-4.1

Design an eval harness for log anomaly detection using semantic similarity that tracks factuality across prompt versions on GPT-4.1.

🤖Any Model

2141316