KI-Chatbots im Praxistest

·

·

Was der Kassensturz‑Test wirklich aussagt

Der aktuelle Vergleichstest von KI‑Sprachmodellen, den die Fachhochschule Nordwestschweiz (FHNW) im Auftrag von SRF Kassensturz durchgeführt hat, hat für Aufmerksamkeit gesorgt – nicht zuletzt, weil ChatGPT in der kostenlosen Version nur im Mittelfeld gelandet ist. Für viele dürfte das überraschend sein. Für andere bestätigt der Test vor allem eine bekannte Erkenntnis: KI‑Assistenten sind nützlich, aber keineswegs gleichwertig – und schon gar nicht unfehlbar.

In diesem Artikel ordne ich den Test ein, ergänze ihn um eigene Erfahrungen aus der Praxis und stelle die Frage, die im SRF‑Beitrag offen bleibt: Was sagt dieser Test wirklich aus – und was nicht?

Einordnung: Warum der Kassensturz-Test Gewicht hat

Kassensturz wurde 1974 erstmals ausgestrahlt und geht auf eine Initiative von Roger Schawinski zurück. Die Sendung profilierte sich früh mit Produktvergleichen und investigativen Recherchen im Sinne des Konsumentenschutzes.

Legendär sind unter anderem der in den späten 1970er-Jahren aufgedeckte «Ravioli-Skandal», Berichte über Mineralwasser ohne Mineralstoffe oder die Enttarnung überzuckerter Weine. Kassensturz war dabei nie ein klassisches Wirtschaftsmagazin, sondern stets konsequent auf konkrete Alltagsfragen von Konsumentinnen und Konsumenten ausgerichtet.

Bis heute zählt Kassensturz zu den erfolgreichsten und glaubwürdigsten Fernsehsendungen der Schweiz. Vor diesem Hintergrund ist auch der aktuelle KI-Test als konsumentennahe Standortbestimmung zu verstehen – nicht als akademische Benchmark.

Der Test in Kürze

Die FHNW testete für SRF zehn weit verbreitete KI‑Assistenten in ihren kostenlosen Standardversionen. Grundlage waren über 300 Fragen aus den Bereichen Alltag, Allgemeinwissen, Recht und Gesundheit. Rund 20% der Fragen hatten einen expliziten Schweiz‑Bezug.

Ein Fachgremium bewertete die Antworten paarweise nach Kriterien wie Verständlichkeit, Struktur, Vollständigkeit und fachlicher Korrektheit. Aspekte wie Datenschutz, Geschwindigkeit oder Zusatzfunktionen (z. B. Bildgenerierung) spielten im Ranking keine Rolle.

Das Ergebnis: Claude von Anthropic liegt vorne, ChatGPT landet im Mittelfeld, während andere Modelle – darunter Lumo von Proton – deutlich schlechter abschneiden.

Die Resultate im Überblick

Zur besseren Einordnung hat SRF die getesteten KI‑Sprachmodelle mit einer Gesamtnote bewertet:

KI‑ModellAnbieterGesamturteilGesamtnote
ClaudeAnthropicgut5.0
CopilotMicrosoftgut4.9
GeminiGooglegut4.9
Le ChatMistral AIgenügend4.6
GrokxAIgenügend4.5
PerplexityPerplexity AIgenügend4.2
ChatGPTOpenAIgenügend4.1
Meta AIMetaungenügend3.9
DeepSeekDeepSeekungenügend3.9
LumoProtonungenügend3.8
Die Tabelle macht sichtbar, warum das Abschneiden von ChatGPT öffentlich diskutiert wird – und weshalb Claude im Test aktuell als Referenzmodell gilt.

Warum ChatGPT nur im Mittelfeld landet

Als ChatGPT‑Plus‑Nutzer hat mich dieses Resultat zunächst irritiert. In der täglichen Arbeit liefert ChatGPT oft sehr brauchbare, gut strukturierte Antworten. Der entscheidende Punkt ist jedoch: Getestet wurde nicht die kostenpflichtige Version, sondern die frei zugängliche Variante.

Und genau hier liegt die Stärke, aber auch die Fairness des Tests. Die Mehrheit der Nutzerinnen und Nutzer greift auf kostenlose KI‑Assistenten zurück. Insofern bildet der Test eine reale Nutzungssituation ab, auch wenn Power‑User mit Bezahlabos sich darin nicht vollständig wiederfinden.

chatgpt-chatbot

Halluzinationen – besonders bei Schweiz‑Bezug

Eine zentrale Erkenntnis des Tests ist wenig neu, aber umso relevanter: Viele Chatbots halluzinieren, insbesondere bei Fragen mit lokalem oder rechtlichem Bezug zur Schweiz.

Diese Beobachtung deckt sich mit meinen eigenen Tests. Vor einigen Monaten habe ich verschiedene Modelle – darunter GPT‑OSS – gezielt zu aktuellen Schweizer Mehrwertsteuersätzen befragt. Die Antworten wirkten auf den ersten Blick plausibel, waren aber schlicht falsch.

Wichtig ist dabei die Differenzierung: Nicht jede falsche Antwort ist eine klassische Halluzination. In einigen Fällen basieren die Antworten auf veralteten Trainingsdaten, nicht auf frei erfundenen Fakten. Für Nutzerinnen und Nutzer macht das im Ergebnis allerdings keinen Unterschied – die Information ist unbrauchbar.

Lumo von Proton: Datenschutz allein reicht nicht

Besonders schlecht schneidet im Test Lumo, der KI‑Assistent von Proton, ab. Das ist bemerkenswert, denn Proton steht wie kaum ein anderes Unternehmen für Datenschutz und digitale Souveränität.

Der Test zeigt jedoch klar: Starker Datenschutz kompensiert keine schwache Antwortqualität. Kurze, unpräzise oder inhaltlich falsche Antworten sind im Alltag schlicht nicht hilfreich – selbst dann, wenn sie datenschutzrechtlich vorbildlich sind.

Für Nutzerinnen und Nutzer bedeutet das: Datenschutz ist ein wichtiges Kriterium, aber kein alleiniges.

lumo-ai-assistant-by-proton

Claude an der Spitze – warum?

An der Spitze des Rankings steht Claude von Anthropic. Die Begründung der Tester ist nachvollziehbar: Claude liefert vergleichsweise klare, strukturierte und kontextuell passende Antworten und geht mit Unsicherheiten oft transparenter um als andere Modelle.

Das heisst nicht, dass Claude «die Wahrheit kennt». Aber das Modell scheint besser darin zu sein, Wissenslücken kenntlich zu machen, anstatt sie mit selbstbewusst klingenden, aber falschen Aussagen zu füllen.

claude-chatbot

Die grosse Leerstelle: Wo bleibt Apertus?

Eine Frage bleibt nach dem Test offen – und sie ist aus Schweizer Sicht besonders spannend:

Warum wurde das Schweizer Open‑Source‑Sprachmodell Apertus nicht berücksichtigt?

Gerade in einem Test, der Schwächen bei lokalem Kontext und Schweiz‑Bezug aufzeigt, wäre Apertus ein hochinteressanter Kandidat gewesen. Als Open‑Source‑Modell mit europäischem und explizit schweizerischem Anspruch hätte es zumindest als Referenz dienen können – selbst wenn es (noch) nicht auf Augenhöhe mit den grossen kommerziellen Modellen agiert.

Dass Apertus im Test fehlt, ist kein Vorwurf an SRF oder die FHNW, wirft aber ein strukturelles Problem auf: Sichtbarkeit und Vergleichbarkeit europäischer und offener Modelle fehlen in vielen öffentlichen Tests.

Apertus KI Chatbot

Was wir aus dem Test lernen sollten

Der Kassensturz‑Test ist weder eine Abrechnung mit ChatGPT noch eine endgültige Rangliste der «besten KI». Er zeigt vielmehr:

  • Kostenlose KI‑Assistenten unterscheiden sich deutlich in Qualität.
  • Lokaler Kontext ist nach wie vor eine grosse Schwäche vieler Modelle.
  • Halluzinationen sind kein Randphänomen, sondern ein zentrales Risiko.
  • Datenschutz, Open Source und Antwortqualität müssen gemeinsam betrachtet werden.

Für Unternehmen, Medienschaffende und Wissensarbeitende heisst das: KI‑Assistenten sind Werkzeuge – keine Autoritäten. Wer sie nutzt, braucht weiterhin fachliches Urteilsvermögen, Kontextwissen und im Zweifel eine zweite Quelle.

Ein persönliches Fazit

Dass ChatGPT im Mittelfeld landet, sagt weniger über ChatGPT aus als über die Erwartungen an KI. Der Test ist sinnvoll, weil er reale Nutzungsszenarien abbildet – und ernüchternd, weil er zeigt, wie schnell KI‑Antworten in die Irre führen können.

Vielleicht ist die wichtigste Erkenntnis nicht, welches Modell vorne liegt, sondern dass wir dringend bessere Tests, mehr Transparenz und stärkere europäische Alternativen brauchen.

Die Frage nach Apertus ist deshalb mehr als eine Randnotiz. Sie ist ein Hinweis darauf, wohin sich die Debatte entwickeln sollte.

Credits