画面を見て、判断し、クリックする。AIの身体性が覚醒した
想像してみてください。あなたが「来月の経費精算をしておいて」とチャットで指示するだけで、AIが勝手にブラウザを立ち上げ、会計ソフトにログインし、領収書PDFの内容を読み取って入力完了まで行う未来を。
これはSFの話でも、遠い未来の構想でもありません。Anthropic社がClaude 3.5 Sonnetと共に公開した新機能、「Computer Use(コンピューター・ユース)」によって、今まさに現実のものとなりました。
これまでAI(LLM)は「テキスト」や「コード」を生成することはできても、それを実行するにはAPI連携や複雑なプラグインが必要でした。しかし、Computer Useは違います。AIが私たち人間と同じように「画面(スクリーンショット)」を見て、マウスカーソルを動かし、キーボードを叩くのです。
この記事では、現役AIデベロッパーの視点から、この革命的な技術の仕組み、競合との違い、そしてあなたのPC環境(Docker)で実際に動かすためのステップバイステップガイドを解説します。
Computer Useとは何か?:仕組みと革新性
Computer Useは、Claude 3.5 Sonnetに搭載されたAPI機能の一つで、AIモデルに「コンピューター操作スキル」を与えます。技術的な仕組みは以下の「Action-Observation(行動-観察)」ループに基づいています。
- 観察 (Observe): 現在の画面のスクリーンショットを撮り、AIに送る。
- 推論 (Reason): AIが画像を解析し、「目標(例:天気を調べる)を達成するために、次はどこをクリックすべきか」を判断する。
- 行動 (Act): AIが具体的な操作コマンド(例:
MouseMove(x=500, y=200),LeftClick())を返す。 - 実行 (Execute): ローカルの制御スクリプトがコマンドを実行し、画面が変化する。
- 繰り返し: 変化した画面を再度撮影し、タスク完了まで1に戻る。
なぜこれが「革命」なのか?
従来のRPA(Robotic Process Automation)やSeleniumなどの自動化ツールと、Computer Useの決定的な違いは「汎用性」と「視覚理解」です。
| 機能 | 従来のRPA / 自動化スクリプト | Anthropic Computer Use |
|---|---|---|
| 操作対象 | 事前に指定した特定のアプリ・DOM要素 | 画面に映るすべてのもの(Web, デスクトップアプリ, 設定画面) |
| 柔軟性 | ボタンの位置やIDが変わるとエラーになる | 「検索ボタン」という見た目や文脈で判断するため、多少のレイアウト変更に強い |
| 導入コスト | 詳細なルール定義が必要 | 自然言語の指示(プロンプト)だけで動作可能 |
競合技術との比較:OpenAI Operator vs Computer Use
現在、OpenAIも「Operator」と呼ばれるエージェント機能を開発中と噂されていますが、現時点で開発者がAPIとして自由に試せる点(Beta版)でAnthropicが一歩リードしています。
- WebVoyagerベンチマーク: ブラウザ操作の精度を測るテストでは、各社がしのぎを削っていますが、Computer UseはOSレベル(デスクトップ全体)での操作を前提としている点がユニークです。
⚠️ 知っておくべき制限事項(Beta版)
今のところ、ドラッグ&ドロップやズーム操作は苦手です。また、スクリーンショットを都度送信するため、動作スピードは人間より遅く、APIコスト(画像トークン)がかかります。
実践ガイド:やってみよう(Dockerで安全に実行)
ここからは、実際にあなたの環境でComputer Useを動かす手順を解説します。
重要: AIにPCの操作権限を与えるため、誤ってファイルを削除したり、意図しないメッセージを送信したりするリスクがあります。必ずDockerコンテナ(隔離環境)内で実行してください。
前提条件
- Anthropic API Key: Consoleで取得し、クレジットをチャージしておくこと。
- Docker Desktop: インストール済みであること。
ステップ1: 公式デモ環境の構築
Anthropicはすぐに試せる公式リポジトリ anthropic-quickstarts を提供しています。以下のコマンドをターミナル(WindowsならPowerShell)で実行するだけで、必要な環境(Ubuntuデスクトップ + VNC + 制御サーバー)が一発で立ち上がります。
export ANTHROPIC_API_KEY=your_api_key_here
# Mac/Linuxの場合
docker run \
-e ANTHROPIC_API_KEY=$ANTHROPIC_API_KEY \
-v $HOME/.anthropic:/home/computeruse/.anthropic \
-p 5900:5900 \
-p 8501:8501 \
-p 6080:6080 \
-p 8080:8080 \
-it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest
※Windowsの場合は export の代わりに $Env:ANTHROPIC_API_KEY="your_key" を使用するか、直接コマンド内の変数部分を書き換えてください。
ステップ2: ブラウザから操作する
コンテナが起動したら、ブラウザで以下のURLにアクセスします。
- 操作画面:
http://localhost:8080
画面左側にチャット欄、右側に「仮想デスクトップ画面」が表示されます。チャット欄に以下のように入力してみましょう。
プロンプト例:
「Firefoxを開いて、Anthropicの公式サイトに行き、Computer Useに関する最新のブログ記事を探して要約してください。」
すると、AIがマウスカーソルを動かし、ブラウザアイコンをクリックし、検索窓に文字を入力する様子がリアルタイムで見えるはずです。まさに「透明人間がPCを操作している」ような感覚に陥ります。
コードの裏側:Pythonでの実装イメージ
もし自分でゼロからPythonスクリプトを組む場合、messages APIに以下のようなツール定義を含める必要があります。
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
tools=[
{
"type": "computer_20241022",
"name": "computer",
"display_width_px": 1024,
"display_height_px": 768,
"display_number": 0,
},
# 他に bash_20241022 (コマンド実行) や str_replace_editor_20241022 (テキスト編集) も定義可能
],
messages=[...]
)
このように、computer_20241022 という特別なツールタイプを指定することで、Claudeは「画面操作が必要だ」と認識した際に、座標やキー入力のデータを返してきます。
まとめ:AIエージェント時代の幕開け
Computer Useはまだ発展途上ですが、そのポテンシャルは計り知れません。APIを組み合わせることで、定型業務の自動化だけでなく、自分専用の全自動メディア運用や、複雑なデータ収集タスクを自律的に行うエージェントを作成することが可能です。
今回のポイント:
- Computer Useは、AIに「目」と「手」を与える技術である。
- 従来のRPAと異なり、見た目で判断するため柔軟性が高い。
- リスク回避のため、必ずDockerなどの隔離環境で実行する。
まずは公式のDockerデモを立ち上げ、AIがあなたの代わりにウェブサーフィンをする不思議な光景を体験してみてください。


コメント