Prompts/Prompt Engineering/Prompt Optimization & Evals

PremiumPrompt Engineering💬 ChatGPT

A/B Test inter-judge agreement Between Two Prompts for legal brief summarization on Claude Haiku 4

ChatGPT Prompt for Prompt Optimization & Evals

Run a rigorous A/B test on prompt variants for legal brief summarization, measuring inter-judge agreement on Claude Haiku 4 using promptfoo assertions.

Related prompts

More prompts for Prompt Optimization & Evals.

Browse all Prompt Engineering →

Prompt Engineering

Premium

A/B Test cost-per-correct-answer Between Two Prompts for API design decisions on Claude Opus 4.5

Run a rigorous A/B test on prompt variants for API design decisions, measuring cost-per-correct-answer on Claude Opus 4.5 using rubric scoring.

Build BLEU/ROUGE Eval Harness for bug root-cause analysis on Llama 3.3 70B

Design an eval harness for bug root-cause analysis using BLEU/ROUGE that tracks token cost across prompt versions on Llama 3.3 70B.

Build DeepEval metrics Eval Harness for bug root-cause analysis on GPT-4o

Design an eval harness for bug root-cause analysis using DeepEval metrics that tracks refusal rate across prompt versions on GPT-4o.

Cut token cost by 30% on academic grading Prompt for Claude Opus 4.5

Token-cost and latency reduction playbook for a academic grading prompt running on Claude Opus 4.5, judged by human pairwise comparison.

A/B Test hallucination rate Between Two Prompts for legal brief summarization on o1-mini

Run a rigorous A/B test on prompt variants for legal brief summarization, measuring hallucination rate on o1-mini using promptfoo assertions.

A/B Test toolcall precision Between Two Prompts for API design decisions on GPT-4o-mini

Run a rigorous A/B test on prompt variants for API design decisions, measuring toolcall precision on GPT-4o-mini using Trulens feedback functions.

🤖Any Model

1941514

A/B Test inter-judge agreement Between Two Prompts for legal brief summarization on Claude Haiku 4

Related prompts

A/B Test cost-per-correct-answer Between Two Prompts for API design decisions on Claude Opus 4.5

Build BLEU/ROUGE Eval Harness for bug root-cause analysis on Llama 3.3 70B

Build DeepEval metrics Eval Harness for bug root-cause analysis on GPT-4o

Cut token cost by 30% on academic grading Prompt for Claude Opus 4.5

A/B Test hallucination rate Between Two Prompts for legal brief summarization on o1-mini

A/B Test toolcall precision Between Two Prompts for API design decisions on GPT-4o-mini

A/B Test inter-judge agreement Between Two Prompts for legal brief summarization on Claude Haiku 4

Related prompts

A/B Test cost-per-correct-answer Between Two Prompts for API design decisions on Claude Opus 4.5

Build BLEU/ROUGE Eval Harness for bug root-cause analysis on Llama 3.3 70B

Build DeepEval metrics Eval Harness for bug root-cause analysis on GPT-4o

Cut token cost by 30% on academic grading Prompt for Claude Opus 4.5

A/B Test hallucination rate Between Two Prompts for legal brief summarization on o1-mini

A/B Test toolcall precision Between Two Prompts for API design decisions on GPT-4o-mini

Tags

Who this is for