Claudes Computer Use-verktøy: Den Komplette Utviklerguiden til AI Desktop-automatisering
Hva om du kunne si til en AI «åpne Firefox, naviger til et nettsted, fyll ut skjemaet, og lagre resultatet» — og det faktisk gjorde det? Ikke gjennom et skjørt Selenium-skript. Ikke gjennom en tilpasset API-integrasjon. Bare… ved å se på skjermen og bruke en mus og et tastatur som et menneske ville gjort.
Det er nøyaktig hva Claudes computer use-verktøy gjør.
Hva Er Computer Use?
Computer use er en beta-API-funksjon som lar Claude samhandle med skrivebordsmiljøer gjennom:
- Skjermbildeopptak — Claude ser hva som er på skjermen
- Musekontroll — klikking, dra, rulling
- Tastaturinndata — skrive tekst, trykke snarveier
- Skrivebordsautomatisering — samhandle med enhver applikasjon
Nøkkelordet er enhver. I motsetning til tradisjonell automatisering (Selenium for nettlesere, AppleScript for macOS) trenger ikke Claude spesielle API-er eller elementvelgere. Den ser på piksler på en skjerm og bestemmer hva den skal klikke på. Akkurat som du gjør.
Slik Fungerer Det (Agentløkken)
Computer use følger en enkel syklus:
- Du sender Claude en oppgave — “Lagre et bilde av en katt på skrivebordet mitt”
- Claude ber om en verktøyhandling — “Ta et skjermbilde”
- Appen din utfører det — fanger skjermen, returnerer bildet
- Claude analyserer og ber om neste handling — “Klikk på koordinater (500, 300)”
- Gjenta til oppgaven er ferdig
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
tools=[
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
{"type": "bash_20250124", "name": "bash"},
],
messages=[{
"role": "user",
"content": "Lagre et bilde av en katt på skrivebordet mitt."
}],
betas=["computer-use-2025-11-24"],
)
Koordinatskalering: Den Vanlige Fallgruven
API-et begrenser bilder til maksimalt 1568px på den lengste kanten. Hvis skjermen er større, skaleres skjermbilder ned — men Claude returnerer koordinater basert på det mindre bildet. Du må skalere koordinater opp igjen — dette er den vanligste implementasjonsbuggen.
Sikkerhet
Computer use har unike sikkerhetsrisikoer: prompt-injeksjon gjennom skjerminnhold, utilsiktede autonome handlinger, eksponering av legitimasjon. Kjør i isolerte Docker-containere, begrens nettverkstilgang, krev menneskelig bekreftelse for irreversible handlinger.
Hva Du Kan Bygge
- Automatisert testing — test enhver skrivebordsapplikasjon
- Datainnsamling — naviger nettsteder og trekk ut informasjon
- Legacy-systemintegrasjon — automatiser arbeidsflyter i apper uten API
- Skjemautfylling — fyll ut nettskjemaer på tvers av flere nettsteder
For forsknings- og datainnsamlingsarbeidsflyter fungerer verktøy som Save godt som komplement til computer use.
Kom i Gang
- Klon anthropic-quickstarts, kjør Docker-containeren og eksperimenter.
- Start med enkle oppgaver før du prøver komplekse arbeidsflyter.
- Legg til sikkerhetstiltak: sett iterasjonsgrenser, valider koordinater, logg alle handlinger.
Fremtiden for automatisering er ikke flere API-er. Det er AI som kan bruke grensesnittene vi allerede har.