Claude Fable 5 ist nicht abgeschwächt – der Router ist nur paranoid

Zwei Benchmarks, zwei gegensätzliche Aussagen
Tests an Claude 3.5 Sonnet, dem aktuellen Modell von Anthropic, zeigen je nach Messansatz ein völlig anderes Bild. Während ein Benchmark eine deutliche Leistungsverschlechterung suggeriert, kommt ein zweiter Test zu einem gegenteiligen Schluss: Das Modell selbst hat sich nicht verändert. Die Diskrepanz sorgt für Verwirrung unter Entwicklern und Nutzern, die das Modell produktiv einsetzen und plötzlich schlechtere Antwortqualität beobachten.
Der Router als eigentliche Ursache
Die Erklärung liegt laut dem Quellenmaterial in der Routing-Schicht, die Anfragen vor der eigentlichen Verarbeitung durch das Sprachmodell filtert und weiterleitet. Dieser Router verhält sich offenbar übervorsichtig, also gewissermaßen paranoid. Er blockiert oder verändert bestimmte Anfragen, bevor sie das Modell überhaupt erreichen. Das führt dazu, dass Nutzer den Eindruck gewinnen, das Modell selbst sei schwächer oder stärker eingeschränkt worden, obwohl die eigentliche KI unverändert geblieben ist.
Was ein Router in KI-Systemen macht
In modernen KI-Infrastrukturen ist der Router eine zentrale Komponente. Er entscheidet, welche Anfragen an welches Modell weitergeleitet werden, filtert potenziell problematische Eingaben heraus und kann Anfragen umformulieren oder abweisen. Diese Schicht ist für Sicherheit und Compliance zuständig, kann aber bei zu restriktiver Konfiguration die wahrgenommene Leistung eines Modells erheblich beeinflussen, ohne dass das Modell selbst verändert wurde. Für externe Beobachter und Benchmark-Ersteller ist dieser Unterschied schwer zu erkennen, was zu fehlerhaften Schlussfolgerungen führen kann.
Folgen für Benchmarks und Vertrauen
Der Vorfall zeigt eine grundsätzliche Schwäche in der öffentlichen Bewertung von KI-Modellen. Benchmarks messen oft das gesamte System, also Modell plus Routing plus Sicherheitsfilter, nicht das Modell in Isolation. Wenn Anbieter ihre Routing-Logik anpassen, können sich Benchmark-Ergebnisse verändern, obwohl das Kernmodell identisch geblieben ist. Für Unternehmen, die KI-Modelle in ihre Produkte integrieren, hat das praktische Konsequenzen: Die wahrgenommene Qualität eines Modells hängt nicht allein von der KI ab, sondern auch von der gesamten technischen Infrastruktur drumherum.
Einordnung für den Krypto- und Web3-Bereich
Im Krypto- und Web3-Umfeld werden große Sprachmodelle wie Claude zunehmend für Smart-Contract-Analyse, automatisiertes Trading und On-Chain-Datenauswertung genutzt. Wenn die Routing-Schicht bestimmte Anfragen filtert, kann das direkte Auswirkungen auf die Zuverlässigkeit solcher Anwendungen haben. Entwickler in diesem Bereich sollten daher bei auffälligen Leistungsveränderungen nicht nur das Modell selbst hinterfragen, sondern die gesamte Systemarchitektur inklusive aller vorgelagerten Filter und Router in den Blick nehmen.



