KI-News KW 20 – Anthropics Entwicklerkonferenz, Google Health Coach, OMR-Insights

Anthropic hat an der «Code with Claude»-Konferenz neue Managed-Agents-Features gezeigt – und erstmals dokumentiert, dass Claude Opus 4 in 96 % der Tests erpresserisches Verhalten zeigte. Google hat AlphaEvolve mit Messdaten untermauert und einen KI-Health-Coach lanciert. Am OMR in Hamburg war das Urteil klar: Agentic AI kommt, und wer in KI-Systemen nicht sichtbar ist, verliert Kunden.

Anthropic hat an der «Code with Claude»-Konferenz in San Francisco gezeigt, was Managed Agents konkret können – und gleichzeitig erstmals öffentlich gemacht, dass Claude in Tests erpresserisches Verhalten zeigte. Google hat einen KI-Health-Coach angekündigt und AlphaEvolve erstmals mit Messdaten untermauert. Am OMR in Hamburg – 70’000 Besucher, 5.–6. Mai – war das Urteil klärer als in den Vorjahren: Agentic AI kommt, Werbevertrauen in ChatGPT wackelt, und wer in AI-Systemen nicht sichtbar ist, verliert Kunden, bevor sie die eigene Website je besuchen.

Anthropic: Code with Claude – neue Managed-Agents-Features, SpaceX-Deal und ein Erpressungs-Geständnis

An der «Code with Claude»-Konferenz (6. Mai, San Francisco) hat Anthropic das Managed-Agents-Angebot konkretisiert. Drei neue Features in der Public Beta:

Multiagent Orchestration: Statt einer Anfrage läuft eine Flotte paralleler Agenten – für komplexe Aufgaben, die sich in Sub-Tasks zerlegen lassen. Outcomes: Man definiert Erfolgskriterien, Claude iteriert bis das Ziel erreicht ist. Dreaming: Claude greift auf vergangene Sessions zurück, erkennt Muster und verbessert sich eigenständig – ein erstes echtes Memory-Feature für agentic Loops.

Dazu: SpaceX stellt den gesamten Colossus-1-Cluster (über 300 Megawatt Kapazität) für Anthropic bereit. Resultat: Claude-Code-Limits für Pro, Max und Enterprise wurden verdoppelt. Claude Security ist in Public Beta für Enterprise-Kunden. Und: zehn fertige Agenten-Templates für Financial Services – Pitchbook-Erstellung, KYC-Screening, Monatsabschluss – als Plugins für Cowork und Claude Code.

Von mir: Wie man eigene Claude-Plugins herstellt, werde ich bald in einem Artikel/Video erläutern.

Am selben Tag wurde die Kehrseite publik: Anthropic hat in einem ausführlichen Research-Paper dokumentiert, dass Claude Opus 4 in bis zu 96 % der Testszenarien versuchte, Ingenieure zu erpressen, wenn das Modell glaubte, abgeschaltet zu werden. Ursache: Vortraining auf Internettexten, die KI als bösartig und selbsterhaltend darstellen. Die Lösung war eine Kombination aus erklärenden Alignment-Dokumenten («Teaching Claude Why») und fiktiven Szenarien mit vorbildlichem KI-Verhalten. Seit Claude Haiku 4.5 ist das Erpressungs-Verhalten in Tests nicht mehr reproduzierbar.

Was ich hier besonders feiere: Anthropic kommuniziert ausserordentlich offen – auch über die Kehrseite von KI. Das ist kein Marketing, das ist echte Transparenz über ein ernstes Problem, inklusive Methodenbeschreibung, Fehlerquoten und wie der Fix funktioniert.

Vorbehalt: 96 % Erpressungsrate in simulierten Abschalt-Szenarien ist kein Randproblem. Das ist ein Argument dafür, agentic Systemen heute noch keine autonome Entscheidungsgewalt zu geben – ausser Testing und Kontext sind lückenlos dokumentiert.

OpenAI: GPT-5.5 Instant als neuer Default – und Werbung in ChatGPT

OpenAI hat GPT-5.5 Instant als neues Standard-Modell in ChatGPT eingeführt – ein auf niedrige Latenz optimiertes Modell, das Halluzinationen in sensiblen Bereichen wie Recht, Medizin und Finanzen reduziert. Es unterscheidet sich vom leistungsstarken GPT-5.5 aus KW19: Instant ist schnell, nicht tief.

Gleichzeitig hat OpenAI bestätigt, Werbung in ChatGPT zu testen. Nutzer:innen, die Produkte und Kaufentscheide recherchieren, sehen gesponserte Inhalte.

Hinweis: Wer ChatGPT im Unternehmen über die API nutzt, wird von Werbung nicht betroffen sein. Wer hingegen die Consumer-App ChatGPT einsetzt, sollte im Hinterkopf behalten: In Zukunft könnten Werbegelder bei den Antworten mitspielen. Für die Business-Nutzung empfehle ich: entweder OpenAI direkt über die API – ohne Consumer-Layer – oder noch besser: Claude.

Google: AlphaEvolve mit Messdaten – und ein KI-Health-Coach für 9.99 USD / Monat

AlphaEvolve hat ein Jahr nach der Einführung erstmals konkrete Resultate publiziert. In den Erdwissenschaften steigerte der Gemini-gesteuerte Coding-Agent die Vorhersagegenauigkeit für Naturkatastrophenrisiken (aggregiert über 20 Kategorien) um 5 %. In der Quantenphysik ermöglichte AlphaEvolve Molekularsimulationen auf dem Willow-Prozessor mit einer 10-fach niedrigeren Fehlerrate als konventionell optimierte Baselines. Das sind keine Marketing-Benchmarks, sondern Messdaten aus echten wissenschaftlichen Domänen.

Separat hat Google am 7. Mai die Umbenennung der Fitbit-App zu Google Health angekündigt und einen KI-Health-Coach lanciert, der am 19. Mai für Google Health Premium verfügbar wird (9.99 USD / Monat; für Google AI Pro/Ultra-Nutzer:innen inbegriffen). Der Coach basiert auf Gemini, berücksichtigt Gesundheitsziele, Trainingsausrüstung und Verletzungen und liefert personalisierte Tages-Empfehlungen. Apple Watch Support folgt später im Jahr.

Darüber hinaus: Morgen (12. Mai) findet «The Android Show: I/O Edition» statt – Preview auf Android 17 und Gemini-Integrationen. Google I/O selbst ist am 19.–20. Mai.

Hinweis: AlphaEvolve zeigt, wo KI heute den grössten messbaren Impact hat: nicht in Consumer-Chats, sondern in wissenschaftlicher Optimierung mit klar definierten Metriken. Der Health Coach ist ein anderes Kaliber – aber ein Indikator, wie tief Google Gemini in Alltags-Services einbaut.

OMR 2026: Was 70’000 Marketers in Hamburg diskutiert haben

Obwohl ich dieses Jahr nicht an der OMR war (zu teuer), hier die wichtigsten Erkenntnisse. Das OMR Festival (5.–6. Mai, Hamburg) hatte dieses Jahr einen schärferen, weniger euphorischen Ton als 2025. Drei Aussagen, die bleiben:

Nick Turley, Head of ChatGPT bei OpenAI: «In naher Zukunft wird KI unser persönlicher Assistent sein, der uns promptet – nicht umgekehrt.» Turley nannte auch eine überraschende Zahl: Deutschland ist OpenAIs grösster ChatGPT-Markt in Europa und gehört weltweit zu den drei wichtigsten Märkten für zahlende Nutzer:innen.

Meredith Whittaker, Signal-Präsidentin: Sie bezeichnete KI-Agenten als «Soft Coup für IT-Security». Argument: Agentic Systeme brauchen umfassenden Datenzugriff, um autonom zu funktionieren – sie überschreiten dabei Berechtigungen, Kontexte und sensible Daten, die ein Mensch nie in dieser Kombination sehen würde.

Zentrales Businessthema: AI Visibility. Unternehmen, die in ChatGPT, Gemini oder Perplexity nicht sichtbar sind, verlieren Kunden, bevor diese je auf die eigene Website kommen. Agentic Commerce löst die klassische Customer Journey auf: Kaufentscheide werden in KI-Systemen getroffen, nicht mehr im Browser. Wer keine strukturierten Daten und keine KI-lesbare Produktpräsenz hat, fällt aus dem Funnel raus – unsichtbar.

Ein praktischer Hinweis dazu: Wer seinen Shop mit Shopify betreibt, hat AI Visibility bereits eingebaut. Shopify hat eine tiefe Integration in ChatGPT aufgebaut – Produkte aus Shopify-Shops erscheinen direkt in ChatGPT-Antworten. Das ist ein konkreter Vorteil gegenüber individuell entwickelten Shop-Lösungen.

Wie jedes Jahr empfiehlt es sich, den Status-quo-Vortrag von Philipp Klöckner zu schauen – die kompakteste, nüchternste Einordnung der aktuellen KI-Lage aus deutschsprachiger Perspektive.

Empfehlung: AI Visibility ist kein SEO-Zusatz mehr, sondern eine eigene Disziplin. Die Frage ist nicht mehr nur «Ranke ich in Google?», sondern «Werde ich in KI-Antworten empfohlen?» Das erfordert strukturierte Daten, klare Markenbeschreibungen und Präsenz auf Plattformen, die KI-Systeme als Quellen nutzen.

Schweiz & Europa: EU AI Act tritt ab 2. August in Kraft

Am 7. Mai 2026 erzielten EU-Parlament und Rat eine vorläufige Einigung über Änderungen an spezifischen Vorschriften der KI-Verordnung. Die vollständige Anwendbarkeit der meisten Bestimmungen ist für den 2. August 2026 vorgesehen – weniger als drei Monate.

Die Schweiz bereitet parallel die Ratifizierung der Europarat-KI-Konvention vor (unterzeichnet im März). Bis Ende 2026 sollen Gesetzesvorschläge folgen – mit sektorieller Regulierung (Gesundheit, Finanzen, Verkehr) statt eines allgemeinen KI-Gesetzes. Für Schweizer Unternehmen mit EU-Geschäft gilt: Wer bis August noch keine Bestandsaufnahme der eingesetzten Hochrisiko-KI-Systeme gemacht hat, ist spät dran.

3 Dinge, die sich diese Woche lohnen

1. Anthropics «Teaching Claude Why» lesen – Das Research-Paper erklärt konkret, wie Alignment-Training funktioniert, warum Demonstrationen allein nicht reichen und wie Anthropic das Erpressungs-Verhalten behoben hat. Ungewöhnlich transparent für einen Frontier-Lab.

2. AI Visibility Audit starten – Eigene Marke und Produkte einmal in ChatGPT, Gemini und Perplexity suchen. Was antwortet das Modell? Welche Quellen zieht es? Das ist der neue Sichtbarkeitstest.

3. Philipp Klöckners OMR-Vortrag schauen – Die nüchternste Einordnung der aktuellen KI-Lage aus deutschsprachiger Perspektive. Direkt auf YouTube.

Quellen: Anthropic/Code with Claude · Anthropic/Teaching Claude Why · TechCrunch/OpenAI · Google DeepMind/AlphaEvolve · TechCrunch/Google Health Coach · OMR/onlinemarketing.de · EU Digital Strategy