Công Cụ Computer Use của Claude: Hướng Dẫn Đầy Đủ Cho Nhà Phát Triển Về Tự Động Hóa Desktop AI
Điều gì sẽ xảy ra nếu bạn có thể nói với AI “mở Firefox, điều hướng đến một trang web, điền vào biểu mẫu, và lưu kết quả” — và nó thực sự làm được? Không qua script Selenium phức tạp. Không qua tích hợp API tùy chỉnh. Chỉ… bằng cách nhìn vào màn hình và sử dụng chuột và bàn phím như người thật.
Đó chính xác là điều công cụ computer use của Claude làm.
Computer Use Là Gì?
Computer use là tính năng API beta cho phép Claude tương tác với môi trường desktop qua:
- Chụp ảnh màn hình — Claude nhìn thấy những gì trên màn hình
- Điều khiển chuột — nhấp chuột, kéo, cuộn
- Nhập bàn phím — gõ văn bản, nhấn phím tắt
- Tự động hóa desktop — tương tác với bất kỳ ứng dụng nào
Từ khóa quan trọng là bất kỳ. Không giống như tự động hóa truyền thống (Selenium cho trình duyệt, AppleScript cho macOS), Claude không cần API đặc biệt hay bộ chọn phần tử. Nó nhìn vào pixel trên màn hình và quyết định nhấp vào đâu. Giống như bạn làm.
Cách Hoạt Động (Vòng Lặp Agent)
Computer use tuân theo chu trình đơn giản:
- Bạn gửi cho Claude một nhiệm vụ — “Lưu ảnh mèo vào desktop của tôi”
- Claude yêu cầu hành động công cụ — “Chụp ảnh màn hình”
- Ứng dụng của bạn thực thi — chụp màn hình, trả về hình ảnh
- Claude phân tích và yêu cầu hành động tiếp theo — “Nhấp tại tọa độ (500, 300)”
- Lặp lại cho đến khi hoàn thành nhiệm vụ
Chu trình này gọi là vòng lặp agent. Claude tiếp tục yêu cầu các hành động (chụp ảnh màn hình, nhấp chuột, gõ, cuộn) và ứng dụng của bạn tiếp tục thực thi chúng, cho đến khi Claude xác định nhiệm vụ hoàn thành.
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=1024,
tools=[
{
"type": "computer_20251124",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 1,
},
{"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
{"type": "bash_20250124", "name": "bash"},
],
messages=[{
"role": "user",
"content": "Lưu ảnh mèo vào desktop của tôi."
}],
betas=["computer-use-2025-11-24"],
)
Các Hành Động Có Sẵn
screenshot— chụp màn hình hiện tạileft_click— nhấp tại tọa độ[x, y]type— gõ chuỗi văn bảnkey— nhấn phím hoặc tổ hợp (ví dụ:ctrl+s)scroll— cuộn theo bất kỳ hướng nàozoom— kiểm tra vùng màn hình cụ thể ở độ phân giải đầy đủ (Claude Opus 4.6+)
Xây Dựng Vòng Lặp Agent
async def agent_loop(task: str, max_iterations: int = 10):
client = anthropic.Anthropic()
messages = [{"role": "user", "content": task}]
for _ in range(max_iterations):
response = client.beta.messages.create(
model="claude-opus-4-6",
max_tokens=4096,
messages=messages,
tools=tools,
betas=["computer-use-2025-11-24"],
)
messages.append({"role": "assistant", "content": response.content})
tool_results = []
for block in response.content:
if block.type == "tool_use":
result = execute_tool(block.name, block.input)
tool_results.append({
"type": "tool_result",
"tool_use_id": block.id,
"content": result,
})
if not tool_results:
return messages
messages.append({"role": "user", "content": tool_results})
Tỷ Lệ Tọa Độ: Cạm Bẫy Phổ Biến
API giới hạn hình ảnh ở tối đa 1568px cạnh dài nhất. Nếu màn hình lớn hơn, ảnh chụp màn hình bị thu nhỏ — nhưng Claude trả về tọa độ dựa trên hình ảnh nhỏ hơn. Bạn phải nhân tỷ lệ tọa độ trở lên — đây là lỗi triển khai phổ biến nhất.
Bảo Mật
Computer use có rủi ro bảo mật đặc biệt: tiêm prompt qua nội dung màn hình, hành động tự động không mong muốn, lộ thông tin đăng nhập. Chạy trong container Docker cô lập, giới hạn quyền truy cập mạng, yêu cầu xác nhận của con người cho các hành động không thể đảo ngược.
Trường Hợp Sử Dụng
- Kiểm thử tự động — kiểm thử bất kỳ ứng dụng desktop nào
- Thu thập dữ liệu — điều hướng trang web và trích xuất thông tin
- Tích hợp hệ thống cũ — tự động hóa quy trình trong ứng dụng không có API
- Điền biểu mẫu — điền biểu mẫu web trên nhiều trang web
Đối với nghiên cứu và thu thập dữ liệu, các công cụ như Save bổ sung tốt cho computer use — khi Claude điều hướng đến trang, chuyển đổi nó sang Markdown sạch cho nội dung có cấu trúc, sẵn sàng cho AI.
Bắt Đầu
- Clone anthropic-quickstarts, chạy container Docker và thử nghiệm.
- Bắt đầu với các nhiệm vụ đơn giản trước khi thử nghiệm quy trình phức tạp.
- Thêm biện pháp bảo vệ: giới hạn số vòng lặp, xác thực tọa độ, ghi log mỗi hành động.
Tương lai của tự động hóa không phải là nhiều API hơn. Đó là AI có thể sử dụng giao diện chúng ta đã có.