Vergleich · 5 Modelle
| qwen3.6 | gemma4:26b | gemma4:e4b | phi4 | deepseek-r1 | |
|---|---|---|---|---|---|
| Pearson r | 0.734 | 0.877 | 0.823 | 0.714 | 0.726 |
| Mean abs Δ | 14.8 | 10.2 | 19.8 | 16.3 | 16.5 |
| Band-Match | 60 % | 74 % | 52 % | 64 % | 56 % |
| False-Negatives | 8 | 4 | 0 | 3 | 2 |
| False-Positives | 5 | 3 | 13 | 11 | 8 |
| HIGH→LOW (worst) | 0 | 0 | 0 | 0 | 1 |
| Score=45 Klumpung | 19 | 9 | 7 | 8 | 0 |
| ⌀ Latenz (s) | 51 | 21 | 20 | 72 | 139 |
Risiko: Nur
deepseek-r1 verwirft 1 echten Anthropic-HIGH-Treffer komplett als LOW. Alle anderen Modelle haben hier eine 0 — kein Treffer geht verloren.
Korrelation zur Cloud-Baseline
Latenz · Sekunden / Tender
gemma4:26b
26 B Parameter · lokal auf Win11 · ~21 s/Call
Pearson r
0.877
Mittl. Δ
10.2 Pkt
Band-Match
74 %
Erstaunlich: klassisches Modell schlägt
die Reasoning-Distills (qwen3.6, deepseek-r1) und das hyped phi4 in jeder
gemessenen Metrik — schneller, genauer, ohne worst-case-Fehler.