Category Not Found

1252 prompts

Sort:

Build Trulens feedback functions Eval Harness for log anomaly detection on Command R+

Design an eval harness for log anomaly detection using Trulens feedback functions that tracks toolcall precision across prompt versions on Command R+.

Build BLEU/ROUGE Eval Harness for log anomaly detection on GPT-4.1

Design an eval harness for log anomaly detection using BLEU/ROUGE that tracks format-compliance rate across prompt versions on GPT-4.1.

Build regex match checks Eval Harness for log anomaly detection on Claude 3.7 Sonnet

Design an eval harness for log anomaly detection using regex match checks that tracks format-compliance rate across prompt versions on Claude 3.7 Sonnet.

Build DeepEval metrics Eval Harness for log anomaly detection on Claude 4.5 Sonnet

Design an eval harness for log anomaly detection using DeepEval metrics that tracks hallucination rate across prompt versions on Claude 4.5 Sonnet.

Build semantic similarity Eval Harness for log anomaly detection on Claude Haiku 4

Design an eval harness for log anomaly detection using semantic similarity that tracks hallucination rate across prompt versions on Claude Haiku 4.

Build BERTScore Eval Harness for log anomaly detection on Gemini 2.0 Flash

Design an eval harness for log anomaly detection using BERTScore that tracks hallucination rate across prompt versions on Gemini 2.0 Flash.

Build promptfoo assertions Eval Harness for log anomaly detection on DeepSeek-R1

Design an eval harness for log anomaly detection using promptfoo assertions that tracks user satisfaction (CSAT) across prompt versions on DeepSeek-R1.

Build human pairwise comparison Eval Harness for log anomaly detection on Llama 3.1 405B

Design an eval harness for log anomaly detection using human pairwise comparison that tracks user satisfaction (CSAT) across prompt versions on Llama 3.1 405B.

Build factuality with retrieval Eval Harness for log anomaly detection on Qwen 2.5 72B

Design an eval harness for log anomaly detection using factuality with retrieval that tracks inter-judge agreement across prompt versions on Qwen 2.5 72B.