ブラウザの使用
ブラウザ自動化タスクを実行する
BrowserUseは、プログラムでブラウザタスクを作成して実行できる強力なブラウザ自動化プラットフォームです。自然言語の指示を通じてウェブ操作を自動化する方法を提供し、コードを書かずにウェブサイトのナビゲーション、フォームの入力、データの抽出、複雑な一連のアクションの実行が可能になります。
BrowserUseでは、以下のことができます:
- ウェブ操作の自動化: ウェブサイトへの移動、ボタンのクリック、フォームの入力、その他のブラウザアクションの実行
- データの抽出: テキスト、画像、構造化データなど、ウェブサイトからコンテンツをスクレイピング
- 複雑なワークフローの実行: 複数のアクションを連鎖させて高度なウェブタスクを完了
- タスク実行のモニタリング: リアルタイムでビジュアルフィードバックを伴うブラウザタスクの実行を監視
- プログラムによる結果処理: ウェブ自動化タスクから構造化された出力を受け取る
Simでは、BrowserUse統合により、エージェントが人間のユーザーのようにウェブとやり取りすることができます。これにより、リサーチ、データ収集、フォーム送信、ウェブテストなどのシナリオが、単純な自然言語指示を通じて可能になります。エージェントはウェブサイトから情報を収集し、ウェブアプリケーションとやり取りし、通常は手動でのブラウジングが必要な操作を実行できるため、ウェブ全体をリソースとして含めるようにその能力を拡張します。
使用方法
Browser Useをワークフローに統合します。実際のユーザーがブラウザを操作しているかのようにウェブをナビゲートしアクションを実行できます。APIキーが必要です。
ツール
browser_use_run_task
BrowserUseを使用してブラウザ自動化タスクを実行します
入力
パラメータ | 型 | 必須 | 説明 |
---|---|---|---|
task | string | はい | ブラウザエージェントが何をすべきか |
variables | json | いいえ | シークレットとして使用するオプション変数(形式:{key: value}) |
format | string | いいえ | 説明なし |
save_browser_data | boolean | いいえ | ブラウザデータを保存するかどうか |
model | string | いいえ | 使用するLLMモデル(デフォルト:gpt-4o) |
apiKey | string | はい | BrowserUse APIのAPIキー |
出力
パラメータ | 型 | 説明 |
---|---|---|
id | string | タスク実行識別子 |
success | boolean | タスク完了ステータス |
output | json | タスク出力データ |
steps | json | 実行された手順 |
注意事項
- カテゴリー:
tools
- タイプ:
browser_use