← Tilbake til bloggen

Claudes Computer Use-verktøy: Den Komplette Utviklerguiden til AI Desktop-automatisering

· Save Team
claudeaicomputer-useautomationapideveloperanthropic

Hva om du kunne si til en AI «åpne Firefox, naviger til et nettsted, fyll ut skjemaet, og lagre resultatet» — og det faktisk gjorde det? Ikke gjennom et skjørt Selenium-skript. Ikke gjennom en tilpasset API-integrasjon. Bare… ved å se på skjermen og bruke en mus og et tastatur som et menneske ville gjort.

Det er nøyaktig hva Claudes computer use-verktøy gjør.

Hva Er Computer Use?

Computer use er en beta-API-funksjon som lar Claude samhandle med skrivebordsmiljøer gjennom:

  • Skjermbildeopptak — Claude ser hva som er på skjermen
  • Musekontroll — klikking, dra, rulling
  • Tastaturinndata — skrive tekst, trykke snarveier
  • Skrivebordsautomatisering — samhandle med enhver applikasjon

Nøkkelordet er enhver. I motsetning til tradisjonell automatisering (Selenium for nettlesere, AppleScript for macOS) trenger ikke Claude spesielle API-er eller elementvelgere. Den ser på piksler på en skjerm og bestemmer hva den skal klikke på. Akkurat som du gjør.

Slik Fungerer Det (Agentløkken)

Computer use følger en enkel syklus:

  1. Du sender Claude en oppgave — “Lagre et bilde av en katt på skrivebordet mitt”
  2. Claude ber om en verktøyhandling — “Ta et skjermbilde”
  3. Appen din utfører det — fanger skjermen, returnerer bildet
  4. Claude analyserer og ber om neste handling — “Klikk på koordinater (500, 300)”
  5. Gjenta til oppgaven er ferdig
import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    tools=[
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1,
        },
        {"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
        {"type": "bash_20250124", "name": "bash"},
    ],
    messages=[{
        "role": "user",
        "content": "Lagre et bilde av en katt på skrivebordet mitt."
    }],
    betas=["computer-use-2025-11-24"],
)

Koordinatskalering: Den Vanlige Fallgruven

API-et begrenser bilder til maksimalt 1568px på den lengste kanten. Hvis skjermen er større, skaleres skjermbilder ned — men Claude returnerer koordinater basert på det mindre bildet. Du må skalere koordinater opp igjen — dette er den vanligste implementasjonsbuggen.

Sikkerhet

Computer use har unike sikkerhetsrisikoer: prompt-injeksjon gjennom skjerminnhold, utilsiktede autonome handlinger, eksponering av legitimasjon. Kjør i isolerte Docker-containere, begrens nettverkstilgang, krev menneskelig bekreftelse for irreversible handlinger.

Hva Du Kan Bygge

  • Automatisert testing — test enhver skrivebordsapplikasjon
  • Datainnsamling — naviger nettsteder og trekk ut informasjon
  • Legacy-systemintegrasjon — automatiser arbeidsflyter i apper uten API
  • Skjemautfylling — fyll ut nettskjemaer på tvers av flere nettsteder

For forsknings- og datainnsamlingsarbeidsflyter fungerer verktøy som Save godt som komplement til computer use.

Kom i Gang

  1. Klon anthropic-quickstarts, kjør Docker-containeren og eksperimenter.
  2. Start med enkle oppgaver før du prøver komplekse arbeidsflyter.
  3. Legg til sikkerhetstiltak: sett iterasjonsgrenser, valider koordinater, logg alle handlinger.

Fremtiden for automatisering er ikke flere API-er. Det er AI som kan bruke grensesnittene vi allerede har.