Category Not Found

1252 prompts

Sort:

Build semantic similarity Eval Harness for API design decisions on Mistral Large

Design an eval harness for API design decisions using semantic similarity that tracks inter-judge agreement across prompt versions on Mistral Large.

Build BERTScore Eval Harness for API design decisions on o1

Design an eval harness for API design decisions using BERTScore that tracks cost-per-correct-answer across prompt versions on o1.

Build promptfoo assertions Eval Harness for API design decisions on o3

Design an eval harness for API design decisions using promptfoo assertions that tracks cost-per-correct-answer across prompt versions on o3.

Build human pairwise comparison Eval Harness for API design decisions on Grok 3

Design an eval harness for API design decisions using human pairwise comparison that tracks token cost across prompt versions on Grok 3.

Build factuality with retrieval Eval Harness for API design decisions on GPT-4o

Design an eval harness for API design decisions using factuality with retrieval that tracks token cost across prompt versions on GPT-4o.

Build embedding distance Eval Harness for API design decisions on GPT-4o-mini

Design an eval harness for API design decisions using embedding distance that tracks token cost across prompt versions on GPT-4o-mini.

Build rubric scoring Eval Harness for API design decisions on Claude 3.7 Sonnet

Design an eval harness for API design decisions using rubric scoring that tracks p95 latency across prompt versions on Claude 3.7 Sonnet.

Build LLM-as-judge Eval Harness for API design decisions on Claude Opus 4.5

Design an eval harness for API design decisions using LLM-as-judge that tracks p95 latency across prompt versions on Claude Opus 4.5.

Build tool-call accuracy Eval Harness for API design decisions on Gemini 2.5 Pro

Design an eval harness for API design decisions using tool-call accuracy that tracks accuracy across prompt versions on Gemini 2.5 Pro.

Build G-Eval Eval Harness for bug root-cause analysis on DeepSeek-V3

Design an eval harness for bug root-cause analysis using G-Eval that tracks accuracy across prompt versions on DeepSeek-V3.

Build exact match Eval Harness for bug root-cause analysis on Llama 3.3 70B

Design an eval harness for bug root-cause analysis using exact match that tracks F1 score across prompt versions on Llama 3.3 70B.

Build JSON schema validation Eval Harness for bug root-cause analysis on Mistral Large

Design an eval harness for bug root-cause analysis using JSON schema validation that tracks F1 score across prompt versions on Mistral Large.

🟠Claude

168857