LLM-Benchmark TenderAgent · Be Shaping the Future

Vergleich · 5 Modelle

	qwen3.6	gemma4:26b	gemma4:e4b	phi4	deepseek-r1
Pearson r	0.734	0.877	0.823	0.714	0.726
Mean abs Δ	14.8	10.2	19.8	16.3	16.5
Band-Match	60 %	74 %	52 %	64 %	56 %
False-Negatives	8	4	0	3	2
False-Positives	5	3	13	11	8
HIGH→LOW (worst)	0	0	0	0	1
Score=45 Klumpung	19	9	7	8	0
⌀ Latenz (s)	51	21	20	72	139

Risiko: Nur deepseek-r1 verwirft 1 echten Anthropic-HIGH-Treffer komplett als LOW. Alle anderen Modelle haben hier eine 0 — kein Treffer geht verloren.

Korrelation zur Cloud-Baseline

gemma4:26b0.877

gemma4:e4b0.823

qwen3.60.734

deepseek-r10.726

phi40.714

Latenz · Sekunden / Tender

gemma4:e4b19.9

gemma4:26b20.7

qwen3.651.0

phi471.8

deepseek-r1139.1

★ Klarer Sieger

gemma4:26b

26 B Parameter · lokal auf Win11 · ~21 s/Call

Pearson r

0.877

Mittl. Δ

10.2 Pkt

Band-Match

74 %

Erstaunlich: klassisches Modell schlägt die Reasoning-Distills (qwen3.6, deepseek-r1) und das hyped phi4 in jeder gemessenen Metrik — schneller, genauer, ohne worst-case-Fehler.

gemma4:26b

gemma4:e4b

qwen3.6 (32 B)

phi4 (14 B)

deepseek-r1:32b

claude-sonnet-4 ✦