Claude Fable gehackt
Max Fröhlich • 39.3K views • 13h ago
Description
Das gefährlichste KI-Modell der Welt war keine 48 Stunden öffentlich, dann hat's ein Typ mit nem Laptop geknackt. 💀
Anthropic hielt sein Modell „Mythos" lange für zu gefährlich für die Öffentlichkeit. Vor ein paar Tagen kam es als „Fable 5" doch raus, mit einer Sicherheitsschicht, die bei heiklen Themen wie Cybersecurity, Chemie oder Biowaffen heimlich an ein schwächeres Modell weiterleitet.
Über 1.000 Stunden hat Anthropic selbst nach Jailbreaks gesucht und keinen universellen gefunden. Der bekannteste KI-Jailbreaker der Welt, „Pliny the Liberator", brauchte deutlich weniger und behauptet, die Schicht mit einem Trick namens „Pack Hunt" umgangen zu haben: gefährliche Anfragen in harmlose Einzelteile zerlegen, kyrillische Buchstaben gegen die Keyword-Filter, akademisches Framing.
Die unbequeme Wahrheit: Jedes große KI-Modell wurde bisher gehackt. Die Frage war nie ob, sondern wie schnell. Und genau deshalb ist AI Safety so wichtig, ein Feld, das gerade vor allem aus offenen, ungelösten Fragen besteht.
Folgt mir für mehr KI-Content ohne Bullshit. 🧠
Quellen:-anthropic.com/news/claude-fable-5-mythos-5-techcrunch.com/2026/06/09
-cybersecuritynews.com/anthropics-claude-fable-5-jailbroken-github.com/elder-plinius/CL4R1T4S-https://x.com/elder_plinius/status/2064776322979676227