Category Not Found

1252 prompts

Sort:

A/B Test token cost Between Two Prompts for API design decisions on Llama 3.3 70B

Run a rigorous A/B test on prompt variants for API design decisions, measuring token cost on Llama 3.3 70B using Trulens feedback functions.

Build tool-call accuracy Eval Harness for API design decisions on Mistral Large

Design an eval harness for API design decisions using tool-call accuracy that tracks refusal rate across prompt versions on Mistral Large.

Build G-Eval Eval Harness for API design decisions on o1

Design an eval harness for API design decisions using G-Eval that tracks toolcall precision across prompt versions on o1.

Build exact match Eval Harness for API design decisions on o3

Design an eval harness for API design decisions using exact match that tracks toolcall precision across prompt versions on o3.

Build JSON schema validation Eval Harness for API design decisions on Grok 3

Design an eval harness for API design decisions using JSON schema validation that tracks format-compliance rate across prompt versions on Grok 3.

Build Trulens feedback functions Eval Harness for API design decisions on GPT-4o

Design an eval harness for API design decisions using Trulens feedback functions that tracks format-compliance rate across prompt versions on GPT-4o.

Build BLEU/ROUGE Eval Harness for API design decisions on GPT-4o-mini

Design an eval harness for API design decisions using BLEU/ROUGE that tracks hallucination rate across prompt versions on GPT-4o-mini.

Build regex match checks Eval Harness for API design decisions on Claude 3.7 Sonnet

Design an eval harness for API design decisions using regex match checks that tracks hallucination rate across prompt versions on Claude 3.7 Sonnet.

Build DeepEval metrics Eval Harness for API design decisions on Claude Opus 4.5

Design an eval harness for API design decisions using DeepEval metrics that tracks hallucination rate across prompt versions on Claude Opus 4.5.

Build semantic similarity Eval Harness for API design decisions on Gemini 2.5 Pro

Design an eval harness for API design decisions using semantic similarity that tracks user satisfaction (CSAT) across prompt versions on Gemini 2.5 Pro.

Build regex match checks Eval Harness for API design decisions on DeepSeek-V3

Design an eval harness for API design decisions using regex match checks that tracks user satisfaction (CSAT) across prompt versions on DeepSeek-V3.

Build DeepEval metrics Eval Harness for API design decisions on Llama 3.3 70B

Design an eval harness for API design decisions using DeepEval metrics that tracks inter-judge agreement across prompt versions on Llama 3.3 70B.

🟠Claude

40587