Methodische Ehrlichkeit verlangt, die Schwachstellen zu benennen. Diese Liste ist nicht abschließend — Beiträge sind willkommen.
LLMs als Annotatoren
Sprachmodelle haben dokumentierte Verzerrungen (Horych et al. 2025). Ensemble + Verbatim-Pflicht reduzieren das, beseitigen es aber nicht. Klyptra ist kein Schiedsrichter — sondern ein systematischer, überprüfbarer Indikator.
Momentaufnahme eines Textes
Klyptra bewertet genau den eingereichten Text — nicht das Medium, die Redaktion oder den Autor dahinter. Ein einzelnes Ergebnis ist kein Urteil über ein Outlet; aus einer Analyse lässt sich keine generelle „Tendenz“ einer Quelle ableiten.
Sprachebene, nicht Faktentreue
Klyptra misst Sprache und Framing — nicht ob behauptete Fakten stimmen. Faktencheck ist eine separate Aufgabe (siehe Correctiv, dpa-Faktencheck).
Belege ohne wörtliche Deckung werden verworfen
Das Verbatim-Gate hält nur Zitate, die exakt im Text stehen. Paraphrasen werden nicht als Beleg ausgegeben — manche Dimensionen erscheinen daher bewusst ohne Beleg-Zitat und sind als modellbasierte Einschätzung markiert. Ehrlichkeit vor erzwungenem Beleg.
Detail-Schichten noch nicht ensemble-aggregiert
Die sechs Top-Level-Scores werden über alle drei Modelle aggregiert (Median) und mit ihrer Streuung ausgewiesen. Die Detail-Schichten (Sub-Kategorien, Akteurs-Analyse, Coreference) stammen derzeit aus einem der drei Modelle — eine echte Union/Dedupe-Aggregation über alle Modelle ist als nächste Ausbaustufe geplant. Bewusste MVP-Entscheidung, kein Bug.
Deutsche Sprach-Spezialisierung
Die drei Modelle sind primär englischsprachig vortrainiert. Idiomatik, Konjunktiv-Disziplin und Ironie-Erkennung können im Deutschen dünner ausfallen als im Englischen. Few-Shot-Beispiele kompensieren teilweise; eine systematische deutsche Ground-Truth-Evaluation ist Forschungs-Roadmap.
Genre-Bias: Kommentare als Nachrichten
Die sechs Dimensionen sind auf nachrichtliche Berichterstattung kalibriert. Kommt ein Kommentar als Eingabe, schlagen Wortwahl und Emotionale Balance erwartungsgemäß stark aus — Klyptra erkennt heute noch nicht zuverlässig, ob ein Text als Bericht oder Kommentar einzuordnen ist. Eine Genre-Erkennung als Pre-Stage ist in der Methodik-Roadmap dokumentiert.
Bias-Annotation ist konstitutiv subjektiv
Selbst trainierte Experten erreichen bei Bias-Labels nur eine Übereinstimmung von Krippendorff α ≈ 0,40 (Spinde 2025, Kap. 4) — das ist das dokumentierte Maximum der Domäne, kein Schwäche-Signal. Einen starken „Ground Truth“ gibt es nicht; Klyptras Konsistenz-Anspruch zielt auf dieses Experten-Niveau, nicht auf objektive Wahrheit.
Technisch messbar ist nicht gesellschaftlich relevant
Automatisierte Verfahren können Muster ausweisen, die statistisch greifbar, aber inhaltlich belanglos sind (Spinde 2025, Kap. 8). Ein Score ist ein systematischer Indikator, kein abschließendes Urteil über die Bedeutung eines Textes.
Der eigene Standpunkt färbt die Wahrnehmung
Leser empfinden Texte, die ihrer Position widersprechen, als verzerrter als vergleichbare Texte der eigenen Seite (Hostile-Media-Effekt). Studien zeigen, dass selbst Bias-Visualisierungen diesen Effekt nicht auflösen (Spinde 2025, Kap. 7) — ein Ergebnis wird durch die eigene Haltung gefiltert gelesen.
Politische Einordnung ist keine Bias-Aussage
Spinde (2025, Kap. 7) zeigt, dass eine politische Klassifikation die Bias-Wahrnehmung nicht erhöht — sie kommuniziert Haltung, nicht Verzerrung. Klyptras politische, wirtschaftliche und soziale Deskriptoren sind Tendenz-Indikation und fließen nicht in den Objektivitäts-Score ein.