Category Not Found

1252 prompts

Sort:

Build Trulens feedback functions Eval Harness for bug root-cause analysis on o1

Design an eval harness for bug root-cause analysis using Trulens feedback functions that tracks factuality across prompt versions on o1.

Build BLEU/ROUGE Eval Harness for bug root-cause analysis on o3

Design an eval harness for bug root-cause analysis using BLEU/ROUGE that tracks factuality across prompt versions on o3.

Build regex match checks Eval Harness for bug root-cause analysis on Grok 3

Design an eval harness for bug root-cause analysis using regex match checks that tracks factuality across prompt versions on Grok 3.

Build DeepEval metrics Eval Harness for bug root-cause analysis on GPT-4o

Design an eval harness for bug root-cause analysis using DeepEval metrics that tracks refusal rate across prompt versions on GPT-4o.

Build semantic similarity Eval Harness for bug root-cause analysis on GPT-4o-mini

Design an eval harness for bug root-cause analysis using semantic similarity that tracks refusal rate across prompt versions on GPT-4o-mini.

Build BERTScore Eval Harness for bug root-cause analysis on Claude 3.7 Sonnet

Design an eval harness for bug root-cause analysis using BERTScore that tracks toolcall precision across prompt versions on Claude 3.7 Sonnet.

Build promptfoo assertions Eval Harness for bug root-cause analysis on Claude Opus 4.5

Design an eval harness for bug root-cause analysis using promptfoo assertions that tracks toolcall precision across prompt versions on Claude Opus 4.5.

Build human pairwise comparison Eval Harness for bug root-cause analysis on Gemini 2.5 Pro

Design an eval harness for bug root-cause analysis using human pairwise comparison that tracks format-compliance rate across prompt versions on Gemini 2.5 Pro.

Build factuality with retrieval Eval Harness for bug root-cause analysis on DeepSeek-V3

Design an eval harness for bug root-cause analysis using factuality with retrieval that tracks format-compliance rate across prompt versions on DeepSeek-V3.

Build promptfoo assertions Eval Harness for bug root-cause analysis on Llama 3.3 70B

Design an eval harness for bug root-cause analysis using promptfoo assertions that tracks hallucination rate across prompt versions on Llama 3.3 70B.

Build human pairwise comparison Eval Harness for bug root-cause analysis on Mistral Large

Design an eval harness for bug root-cause analysis using human pairwise comparison that tracks hallucination rate across prompt versions on Mistral Large.

Build factuality with retrieval Eval Harness for bug root-cause analysis on Qwen 2.5 72B

Design an eval harness for bug root-cause analysis using factuality with retrieval that tracks hallucination rate across prompt versions on Qwen 2.5 72B.

🟠Claude

13098