SOFTWARE-BENCHMARKS

30 days · UTC

LIVE_DATA_STREAM // APRIL_14_2026

Synchronizing with global intelligence nodes...

DENSITY_RATIO: MAX

SWE-CI SHIFTS AGENT EVALUATION FROM ONE-SHOT BUG FIXES TO CI-DRIVEN MAINTAINABILITY

A new CI-loop benchmark, SWE-CI, measures whether AI coding agents can maintain real repositories over time, not just pass one-off tests. [SWE-CI](ht...