Công Cụ Computer Use của Claude: Hướng Dẫn Đầy Đủ Cho Nhà Phát Triển Về Tự Động Hóa Desktop AI

Điều gì sẽ xảy ra nếu bạn có thể nói với AI “mở Firefox, điều hướng đến một trang web, điền vào biểu mẫu, và lưu kết quả” — và nó thực sự làm được? Không qua script Selenium phức tạp. Không qua tích hợp API tùy chỉnh. Chỉ… bằng cách nhìn vào màn hình và sử dụng chuột và bàn phím như người thật.

Đó chính xác là điều công cụ computer use của Claude làm.

Computer Use Là Gì?

Computer use là tính năng API beta cho phép Claude tương tác với môi trường desktop qua:

Chụp ảnh màn hình — Claude nhìn thấy những gì trên màn hình
Điều khiển chuột — nhấp chuột, kéo, cuộn
Nhập bàn phím — gõ văn bản, nhấn phím tắt
Tự động hóa desktop — tương tác với bất kỳ ứng dụng nào

Từ khóa quan trọng là bất kỳ. Không giống như tự động hóa truyền thống (Selenium cho trình duyệt, AppleScript cho macOS), Claude không cần API đặc biệt hay bộ chọn phần tử. Nó nhìn vào pixel trên màn hình và quyết định nhấp vào đâu. Giống như bạn làm.

Cách Hoạt Động (Vòng Lặp Agent)

Computer use tuân theo chu trình đơn giản:

Bạn gửi cho Claude một nhiệm vụ — “Lưu ảnh mèo vào desktop của tôi”
Claude yêu cầu hành động công cụ — “Chụp ảnh màn hình”
Ứng dụng của bạn thực thi — chụp màn hình, trả về hình ảnh
Claude phân tích và yêu cầu hành động tiếp theo — “Nhấp tại tọa độ (500, 300)”
Lặp lại cho đến khi hoàn thành nhiệm vụ

Chu trình này gọi là vòng lặp agent. Claude tiếp tục yêu cầu các hành động (chụp ảnh màn hình, nhấp chuột, gõ, cuộn) và ứng dụng của bạn tiếp tục thực thi chúng, cho đến khi Claude xác định nhiệm vụ hoàn thành.

import anthropic

client = anthropic.Anthropic()

response = client.beta.messages.create(
    model="claude-opus-4-6",
    max_tokens=1024,
    tools=[
        {
            "type": "computer_20251124",
            "name": "computer",
            "display_width_px": 1024,
            "display_height_px": 768,
            "display_number": 1,
        },
        {"type": "text_editor_20250728", "name": "str_replace_based_edit_tool"},
        {"type": "bash_20250124", "name": "bash"},
    ],
    messages=[{
        "role": "user",
        "content": "Lưu ảnh mèo vào desktop của tôi."
    }],
    betas=["computer-use-2025-11-24"],
)

Các Hành Động Có Sẵn

screenshot — chụp màn hình hiện tại
left_click — nhấp tại tọa độ [x, y]
type — gõ chuỗi văn bản
key — nhấn phím hoặc tổ hợp (ví dụ: ctrl+s)
scroll — cuộn theo bất kỳ hướng nào
zoom — kiểm tra vùng màn hình cụ thể ở độ phân giải đầy đủ (Claude Opus 4.6+)

Xây Dựng Vòng Lặp Agent

async def agent_loop(task: str, max_iterations: int = 10):
    client = anthropic.Anthropic()
    messages = [{"role": "user", "content": task}]

    for _ in range(max_iterations):
        response = client.beta.messages.create(
            model="claude-opus-4-6",
            max_tokens=4096,
            messages=messages,
            tools=tools,
            betas=["computer-use-2025-11-24"],
        )

        messages.append({"role": "assistant", "content": response.content})

        tool_results = []
        for block in response.content:
            if block.type == "tool_use":
                result = execute_tool(block.name, block.input)
                tool_results.append({
                    "type": "tool_result",
                    "tool_use_id": block.id,
                    "content": result,
                })

        if not tool_results:
            return messages

        messages.append({"role": "user", "content": tool_results})

Tỷ Lệ Tọa Độ: Cạm Bẫy Phổ Biến

API giới hạn hình ảnh ở tối đa 1568px cạnh dài nhất. Nếu màn hình lớn hơn, ảnh chụp màn hình bị thu nhỏ — nhưng Claude trả về tọa độ dựa trên hình ảnh nhỏ hơn. Bạn phải nhân tỷ lệ tọa độ trở lên — đây là lỗi triển khai phổ biến nhất.

Bảo Mật

Computer use có rủi ro bảo mật đặc biệt: tiêm prompt qua nội dung màn hình, hành động tự động không mong muốn, lộ thông tin đăng nhập. Chạy trong container Docker cô lập, giới hạn quyền truy cập mạng, yêu cầu xác nhận của con người cho các hành động không thể đảo ngược.

Trường Hợp Sử Dụng

Kiểm thử tự động — kiểm thử bất kỳ ứng dụng desktop nào
Thu thập dữ liệu — điều hướng trang web và trích xuất thông tin
Tích hợp hệ thống cũ — tự động hóa quy trình trong ứng dụng không có API
Điền biểu mẫu — điền biểu mẫu web trên nhiều trang web

Đối với nghiên cứu và thu thập dữ liệu, các công cụ như Save bổ sung tốt cho computer use — khi Claude điều hướng đến trang, chuyển đổi nó sang Markdown sạch cho nội dung có cấu trúc, sẵn sàng cho AI.

Bắt Đầu

Clone anthropic-quickstarts, chạy container Docker và thử nghiệm.
Bắt đầu với các nhiệm vụ đơn giản trước khi thử nghiệm quy trình phức tạp.
Thêm biện pháp bảo vệ: giới hạn số vòng lặp, xác thực tọa độ, ghi log mỗi hành động.

Tương lai của tự động hóa không phải là nhiều API hơn. Đó là AI có thể sử dụng giao diện chúng ta đã có.

Công Cụ Computer Use của Claude: Hướng Dẫn Đầy Đủ Cho Nhà Phát Triển Về Tự Động Hóa Desktop AI

Computer Use Là Gì?

Cách Hoạt Động (Vòng Lặp Agent)

Các Hành Động Có Sẵn

Xây Dựng Vòng Lặp Agent

Tỷ Lệ Tọa Độ: Cạm Bẫy Phổ Biến

Bảo Mật

Trường Hợp Sử Dụng

Bắt Đầu

## Continue reading

Cách lưu cuộc trò chuyện Claude dưới dạng Markdown (Artifacts, trích dẫn, Projects)

Cách Xây Dựng Cơ Sở Kiến Thức LLM Với Save

Ghi Chú Nhà Phát Triển: Lưu Nội Dung Kỹ Thuật Dưới Dạng Markdown Ưu Tiên Mã

MCP và Web-to-Markdown: Tại Sao AI Agents Cần Markdown Năm 2025

Jean-Sébastien Wallez