Alat Computer Use Claude: Panduan Lengkap Pengembang untuk Otomatisasi Desktop AI
Bagaimana jika Anda bisa memberi tahu AI untuk “buka Firefox, navigasi ke situs web, isi formulirnya, dan simpan hasilnya” — dan itu benar-benar melakukannya? Bukan melalui skrip Selenium yang rapuh. Bukan melalui integrasi API khusus. Hanya… dengan melihat layar dan menggunakan mouse serta keyboard seperti manusia.
Itulah tepatnya yang dilakukan alat computer use Claude.
Apa Itu Computer Use?
Computer use adalah fitur API beta yang memungkinkan Claude berinteraksi dengan lingkungan desktop melalui:
- Pengambilan tangkapan layar — Claude melihat apa yang ada di layar
- Kontrol mouse — mengklik, menyeret, menggulir
- Input keyboard — mengetik teks, menekan pintasan
- Otomatisasi desktop — berinteraksi dengan aplikasi apa pun
Kata kuncinya adalah apa pun. Tidak seperti otomatisasi tradisional (Selenium untuk browser, AppleScript untuk macOS), Claude tidak membutuhkan API khusus atau pemilih elemen. Ia melihat piksel di layar dan memutuskan apa yang harus diklik. Sama seperti yang Anda lakukan.
Cara Kerjanya (Loop Agen)
Computer use mengikuti siklus sederhana:
- Anda mengirim Claude tugas — “Simpan gambar kucing ke desktop saya”
- Claude meminta tindakan alat — “Ambil tangkapan layar”
- Aplikasi Anda menjalankannya — menangkap layar, mengembalikan gambar
- Claude menganalisis dan meminta tindakan berikutnya — “Klik di koordinat (500, 300)”
- Ulangi hingga tugas selesai
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
tools=[
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
{"type": "bash_20250124", "name": "bash"},
],
messages=[{
"role": "user",
"content": "Simpan gambar kucing ke desktop saya."
}],
betas=["computer-use-2025-11-24"],
)
Penskalaan Koordinat: Jebakan Umum
API membatasi gambar hingga maksimum 1568px di sisi terpanjang. Jika tampilan lebih besar, tangkapan layar dikurangi ukurannya — tetapi Claude mengembalikan koordinat berdasarkan gambar yang lebih kecil. Anda harus menskalakan koordinat kembali — ini adalah bug implementasi paling umum.
Keamanan
Computer use memiliki risiko keamanan unik: injeksi prompt melalui konten layar, tindakan otonom yang tidak diinginkan, eksposur kredensial. Jalankan dalam container Docker yang terisolasi, batasi akses internet, wajibkan konfirmasi manusia untuk tindakan yang tidak dapat dibalik.
Kasus Penggunaan
- Pengujian otomatis — uji aplikasi desktop apa pun
- Pengumpulan data — navigasi situs web dan ekstrak informasi
- Integrasi sistem lama — otomatisasi alur kerja di aplikasi tanpa API
- Pengisian formulir — isi formulir web di berbagai situs
Untuk alur kerja penelitian dan pengumpulan data, alat seperti Save melengkapi computer use dengan baik — setelah Claude menavigasi ke halaman, mengonversinya ke Markdown bersih memberikan konten terstruktur yang siap untuk AI.
Mulai
- Klon anthropic-quickstarts, jalankan container Docker, dan bereksperimen.
- Mulai dengan tugas sederhana sebelum mencoba alur kerja kompleks.
- Tambahkan perlindungan: tetapkan batas iterasi, validasi koordinat, catat setiap tindakan.
Masa depan otomatisasi bukan lebih banyak API. Ini adalah AI yang dapat menggunakan antarmuka yang sudah kita miliki.