top of page

28. Oktober 2024

Die KI Claude kann jetzt einen Computer steuern – OpenAI arbeitet an einer ähnlichen Funktion


Das KI-Start-up Anthropic hat eine neue Version seiner künstlichen Intelligenz Claude veröffentlicht. Diese ist nun in der Lage, grundlegende Funktionen eines Computers zu steuern. Das soll helfen, langweilige Klickorgien zu automatisieren.

 

Von Michael Förtsch

 

Es war eine ziemlich überraschende Ankündigung von Anthropic. Der OpenAI-Herausforderer hat überraschend ein Update für sein KI-Modell Claude 3.5 Sonnet und das neue Claude 3.5 Haiku veröffentlicht. Diese sollen deutliche Verbesserungen bei der Geschwindigkeit und vor allem bei der Codegenerierung bringen. Die bemerkenswerteste und zentrale Neuerung: Die beiden Modelle können nun die Benutzeroberfläche eines Computers bedienen – Computer Use nennt Anthropic diese Funktionalität daher folgerichtig. Die KIs können den Mauszeiger bewegen, Tastenfelder anklicken, Texte eingeben und so einfache und begrenzt komplexe Aufgaben erledigen. Es muss lediglich ein Prompt eingegeben werden, der beschreibt, was Claude tun soll. Um diese Funktion nutzen zu können, muss Claude jedoch über eine API-Schnittstelle direkte mit dem Computer verbunden sein.

 

Die grundlegende Mechanik ist laut den Entwicklern relativ einfach. Claude verwendet nämlich einen Screenshot der Benutzeroberfläche, der analysiert wird, um die Steuerelemente, die Mausposition, den Textinhalt und anderes zu identifizieren. Um die Maus zu steuern und die Position der Schaltflächen zu bestimmen, zählt Claude die horizontalen und vertikalen Pixel wie bei einem Schiffeversenken-Spiel. Auf diese Weise kann die Maus präzise über Schaltflächen und Textzeilen navigieren. Auf diese Weise ist es den Modellen auch möglich, auf Websites zu navigieren und zum Beispiel auf Social-Media-Seiten zu posten.




 

Wie Anthropic in seiner Ankündigung mitteilt, funktioniert die Computer-Use-Funktion noch nicht zuverlässig. „In diesem Stadium ist es noch experimentell – und in einigen Fällen schwerfällig und fehlerhaft“, so die Firma. Beispielsweise hätten die Modelle noch Schwierigkeiten mit dem Scrollen in Dokumenten und Websites –  unter anderem, weil dies eine Funktion sei, die viele Nutzer personalisieren. Ebenso haben einige Nutzer auf Plattformen wie X – ehemals Twitter – und Reddit angemerkt, dass die Claude-Modelle auch durch Hintergrundbilder und bestimmte Schriftarten irritiert werden könnten.

 

Keine mühsame Klickerei mehr?

 

Laut Anthropic könnte Computer Use vor allem zur Automatisierung repetitiver Prozesse eingesetzt werden, um bei der Entwicklung von Programmen zu helfen oder um zeitaufwändige Prozesse abzuwickeln, bei denen beispielsweise zahlreiche Dokumente bearbeitet und durchsucht werden müssen. Nach Angaben von KI-Entwicklern experimentieren Unternehmen wie Asana, Canva, Cognition, DoorDash, Replit und The Browser Company bereits mit dieser Funktion, um Prozesse zu bewältigen, die von einem Menschen Dutzende oder sogar Hunderte von Einzelschritten erfordern.

 

 

In einem Beispielvideo zeigt Anthropic exemplarisch, dass es mit dem Computer-Use-Feature etwa möglich ist, ein Formular auszufüllen. Die dafür notwendigen Daten sind jedoch auf mehrere Stellen auf einem Computer verteilt – und Claude sucht diese zusammen.

 

Bereits Anfang des Jahres berichtete The Information, dass OpenAI mit einem Projekt namens Agent Software an einer ähnlichen Funktion arbeitet, die in die ChatGPT-App integriert werden könnte. Diese soll es ermöglichen, den Mauszeiger zu steuern, Programme zu öffnen oder auch Texte zu diktieren und mit Hilfe von Prompts oder auch Sprachbefehlen weiter zu bearbeiten. Gerüchten zufolge, könnte diese Funktion noch in diesem Jahr als Update bereitgestellt werden.

Michael Förtsch

Michael Förtsch

Senior Editor / Lead Writer

1

Cooler Artikel!

NewBot3.png
Job, der Bot

Das dürfen leider nur 1E9-Mitglieder.

Werde 1E9-Mitglied, um diesen Artikel weiterzulesen!

NewBot3.png

1E9 bietet dir gut recherchierten Journalismus, Newsletter und Podcasts über Zukunftstechnologien, dazu inspirierende Events und eine Community von Menschen, die Zukunft gestalten wollen.

Job, der Bot
NewBot3.png
Job, der Bot

Wir freuen uns immer über Feedback, als Mitglied kannst du auch kommentieren.

Hi, ich bin Job, der Bot! Konntest du mit diesem Artikel etwas anfangen?

NewBot3.png
Job, der Bot

Das freut mich zu hören!

Darf ich fragen warum?

Leider gab es einen Fehler. Bitte probiere es später noch einmal!

Kommentare

Share Your ThoughtsBe the first to write a comment.

Weiter bei 1E9...

Überschrift 3

Cooler Artikel!

Überschrift 3

Artikel

Überschrift 3

Cooler Artikel!

Überschrift 3

Cooler Artikel!

bottom of page