be|Shaping the Future
LLM-Benchmark TenderAgent
5 Ollama-Modelle vs. Anthropic Claude Sonnet 4 — gleicher Prompt, gleiches Test-Set
2026-05-08
50 Tender stratifiziert
DACH-Firmenprofil
Vergleich · 5 Modelle
qwen3.6 gemma4:26b gemma4:e4b phi4 deepseek-r1
Pearson r0.7340.8770.8230.7140.726
Mean abs Δ14.810.219.816.316.5
Band-Match60 %74 %52 %64 %56 %
False-Negatives84032
False-Positives5313118
HIGH→LOW (worst)00001
Score=45 Klumpung199780
⌀ Latenz (s)51212072139
Risiko: Nur deepseek-r1 verwirft 1 echten Anthropic-HIGH-Treffer komplett als LOW. Alle anderen Modelle haben hier eine 0 — kein Treffer geht verloren.
Korrelation zur Cloud-Baseline
gemma4:26b0.877
gemma4:e4b0.823
qwen3.60.734
deepseek-r10.726
phi40.714
Latenz · Sekunden / Tender
gemma4:e4b19.9
gemma4:26b20.7
qwen3.651.0
phi471.8
deepseek-r1139.1
★ Klarer Sieger
gemma4:26b
26 B Parameter · lokal auf Win11 · ~21 s/Call
Pearson r
0.877
Mittl. Δ
10.2 Pkt
Band-Match
74 %
Erstaunlich: klassisches Modell schlägt die Reasoning-Distills (qwen3.6, deepseek-r1) und das hyped phi4 in jeder gemessenen Metrik — schneller, genauer, ohne worst-case-Fehler.

gemma4:26b

Production-Kandidat
  • Beste Genauigkeit über alle Metriken
  • Moderate Latenz (~21 s)
  • Kein Treffer-Verlust

gemma4:e4b

Pre-Filter-Spezialist
  • 0 False-Negatives (alle 16 HIGHs)
  • Schnellstes Modell (~20 s)
  • Systematisch zu hoch (+17.8 Pkt)

qwen3.6 (32 B)

Solide, aber unauffällig
  • Kein Score-Bias
  • "Klumpt" 19× bei Score 45
  • Erkennt nur 50 % der HIGHs

phi4 (14 B)

Enttäuschung
  • Aus dem Hype-Bereich
  • Schwächste Korrelation 0.714
  • Lange Latenz trotz Größe (72 s)

deepseek-r1:32b

Reasoning-Distill mit Caveat
  • Differenziert eigene Score-Räume
  • Einziges mit echtem Treffer-Verlust
  • Mit 139 s langsamstes Modell

claude-sonnet-4 ✦

Cloud-Baseline (Referenz)
  • ~3 s Latenz, präzises Scoring
  • Cents pro Call
  • Cloud-Abhängigkeit
Production-Cron (täglich)
claude-sonnet-4 ODER gemma4:26b
Cloud-Default, Privacy/Cost-Backup mit gemma4. ~50–100 neue Tender / Tag = 17–35 Min lokal.
Pre-Filter / Initial-Sortierung
gemma4:e4b
Genau dafür gebaut: 0 False-Negatives. Was als HIGH durchgeht → genauerer Scorer.
Privacy-First (alles im LAN)
gemma4:26b
Pearson 0.877 ≈ Cloud-Niveau, alles im Heimnetz. Win11 muss zur Cron-Zeit laufen.
Final-Scorer für Top-Treffer
claude-sonnet-4 (Cloud)
Beste absolute Genauigkeit, ~3 s/Call, Cents pro Tender — letzten 5 Punkte Schärfe wert.