EasyEvaluationPython 3

Eval Failure Aggregator

Aggregate eval run rows into stable pass-rate and error diagnostics.

25m3 sample tests5 hidden tests

Summarize model evaluation runs into pass rate, failing cases, and top errors.

Requirements

Define summarize_runs(runs).
Each run is a dict with case_id, passed, optional category, and optional error.
Return a dict with:
- total
- passed
- pass_rate
- failing_cases
- top_errors
failing_cases contains unique failed case IDs sorted alphabetically.
top_errors contains (error, count) pairs for failed rows with a non-empty error.
Sort top errors by count descending, then error alphabetically.
For no runs, pass_rate is 0.

Example

python

runs = [
    {"case_id": "a", "passed": True},
    {"case_id": "b", "passed": False, "error": "timeout"},
]
summary = summarize_runs(runs)
assert summary["pass_rate"] == 0.5
assert summary["failing_cases"] == ["b"]

Constraints

Don't mutate input runs.
Count each run toward total, even repeated case IDs.
Count unique case IDs only in failing_cases.

Editor

Eval Failure Aggregator

Requirements

Example

Constraints

Sample Tests

Clarification Questions

Complexity Analysis

Solution Guide

Follow-up Guide