Firecrawl
ウェブデータのスクレイピング、検索、クロール、マッピング、抽出
Firecrawlは、強力なウェブスクレイピングおよびコンテンツ抽出APIで、Simにシームレスに統合され、開発者があらゆるウェブサイトからクリーンで構造化されたコンテンツを抽出できるようにします。この統合により、ウェブページを必要なコンテンツを保持したまま、MarkdownやHTMLなどの使いやすいデータ形式に変換する簡単な方法を提供します。
SimでFirecrawlを使用すると、以下のことが可能です:
- クリーンなコンテンツの抽出: 広告、ナビゲーション要素、その他の気を散らすものを削除し、メインコンテンツのみを取得
- 構造化フォーマットへの変換: ウェブページをMarkdown、HTML、またはJSONに変換
- メタデータの取得: SEOメタデータ、Open Graphタグ、その他のページ情報を抽出
- JavaScriptを多用したサイトの処理: JavaScriptに依存する最新のウェブアプリケーションからコンテンツを処理
- コンテンツのフィルタリング: CSSセレクタを使用してページの特定の部分に焦点を当てる
- 大規模な処理: 信頼性の高いAPIで大量のスクレイピングニーズに対応
- ウェブ検索: インテリジェントなウェブ検索を実行し、構造化された結果を取得
- サイト全体のクロール: ウェブサイトから複数のページをクロールし、そのコンテンツを集約
Simでは、Firecrawl統合によりエージェントがワークフローの一部としてプログラムでウェブコンテンツにアクセスして処理することができます。サポートされている操作には以下が含まれます:
- スクレイプ: 単一のウェブページから構造化されたコンテンツ(Markdown、HTML、メタデータ)を抽出。
- 検索: Firecrawlのインテリジェントな検索機能を使用してウェブ情報を検索。
- クロール: ウェブサイトから複数のページをクロールし、各ページの構造化されたコンテンツとメタデータを返す。
これにより、エージェントはウェブサイトから情報を収集し、構造化データを抽出し、その情報を使用して決定を下したり洞察を生成したりすることができます—すべて生のHTML解析やブラウザ自動化の複雑さに対処する必要なく。FirecrawlブロックをAPIキーで構成し、操作(スクレイプ、検索、またはクロール)を選択し、関連するパラメータを提供するだけです。エージェントはすぐにクリーンで構造化された形式でウェブコンテンツの操作を開始できます。
Firecrawlをワークフローに統合します。ページのスクレイピング、ウェブ検索、サイト全体のクローリング、URL構造のマッピング、AIによる構造化データの抽出が可能です。
ウェブページから構造化されたコンテンツを包括的なメタデータサポートで抽出します。コンテンツをマークダウンやHTMLに変換しながら、SEOメタデータ、Open Graphタグ、ページ情報をキャプチャします。
| パラメータ | 型 | 必須 | 説明 |
|---|
url | string | はい | コンテンツをスクレイピングするURL |
scrapeOptions | json | いいえ | コンテンツスクレイピングのオプション |
apiKey | string | はい | Firecrawl APIキー |
| パラメータ | 型 | 説明 |
|---|
markdown | string | マークダウン形式のページコンテンツ |
html | string | ページの生HTMLコンテンツ |
metadata | object | SEOやOpen Graph情報を含むページメタデータ |
Firecrawlを使用してウェブ上の情報を検索します
| パラメータ | 型 | 必須 | 説明 |
|---|
query | string | はい | 使用する検索クエリ |
apiKey | string | はい | Firecrawl APIキー |
ウェブサイト全体をクロールし、アクセス可能なすべてのページから構造化されたコンテンツを抽出します
| パラメータ | 型 | 必須 | 説明 |
|---|
url | string | はい | クロールするウェブサイトURL |
limit | number | いいえ | クロールするページの最大数(デフォルト:100) |
onlyMainContent | boolean | いいえ | ページからメインコンテンツのみを抽出する |
apiKey | string | はい | Firecrawl APIキー |
| パラメータ | 型 | 説明 |
|---|
pages | array | クロールされたページとそのコンテンツおよびメタデータの配列 |
任意のウェブサイトからURLの完全なリストを迅速かつ確実に取得します。サイト上のすべてのページをクロールせずに発見するのに役立ちます。
| パラメータ | 型 | 必須 | 説明 |
|---|
url | string | はい | リンクを発見・マッピングするベースURL |
search | string | いいえ | 検索語に関連する結果でフィルタリング(例:「blog」) |
sitemap | string | いいえ | サイトマップの使用方法:「skip」、「include」(デフォルト)、または「only」 |
includeSubdomains | boolean | いいえ | サブドメインからのURLを含めるかどうか(デフォルト:true) |
ignoreQueryParameters | boolean | いいえ | クエリ文字列を含むURLを除外する(デフォルト:true) |
limit | number | いいえ | 返すリンクの最大数(最大:100,000、デフォルト:5,000) |
timeout | number | いいえ | リクエストタイムアウト(ミリ秒) |
location | json | いいえ | プロキシの地理的コンテキスト(国、言語) |
apiKey | string | はい | Firecrawl APIキー |
| パラメータ | 型 | 説明 |
|---|
success | boolean | マッピング操作が成功したかどうか |
links | array | ウェブサイトから発見されたURLの配列 |
自然言語プロンプトとJSONスキーマを使用して、ウェブページ全体から構造化データを抽出します。インテリジェントなデータ抽出のための強力なエージェント機能です。
| パラメータ | 型 | 必須 | 説明 |
|---|
urls | json | はい | データを抽出するURLの配列(glob形式をサポート) |
prompt | string | いいえ | 抽出プロセスのための自然言語ガイダンス |
schema | json | いいえ | 抽出するデータの構造を定義するJSONスキーマ |
enableWebSearch | boolean | いいえ | 補足情報を見つけるためのウェブ検索を有効にする(デフォルト:false) |
ignoreSitemap | boolean | いいえ | スキャン中にsitemap.xmlファイルを無視する(デフォルト:false) |
includeSubdomains | boolean | いいえ | サブドメインにスキャンを拡張する(デフォルト:true) |
showSources | boolean | いいえ | レスポンスにデータソースを含める(デフォルト:false) |
ignoreInvalidURLs | boolean | いいえ | 配列内の無効なURLをスキップする(デフォルト:true) |
scrapeOptions | json | いいえ | 高度なスクレイピング設定オプション |
apiKey | string | はい | Firecrawl APIキー |
| パラメータ | 型 | 説明 |
|---|
success | boolean | 抽出操作が成功したかどうか |
data | object | スキーマまたはプロンプトに従って抽出された構造化データ |
自律型ウェブデータ抽出エージェント。特定のURLを必要とせず、自然言語プロンプトに基づいて情報を検索・収集します。
| パラメータ | 型 | 必須 | 説明 |
|---|
prompt | string | はい | 抽出するデータの自然言語による説明(最大10,000文字) |
urls | json | いいえ | エージェントが焦点を当てるURLの配列(オプション) |
schema | json | いいえ | 抽出するデータの構造を定義するJSONスキーマ |
maxCredits | number | いいえ | このエージェントタスクに使用する最大クレジット数 |
strictConstrainToURLs | boolean | いいえ | trueの場合、エージェントはurls配列で提供されたURLのみを訪問します |
apiKey | string | はい | Firecrawl APIキー |
| パラメータ | 型 | 説明 |
|---|
success | boolean | エージェント操作が成功したかどうか |
status | string | エージェントジョブの現在のステータス(processing、completed、failed) |
data | object | エージェントから抽出されたデータ |
creditsUsed | number | このエージェントタスクで消費されたクレジット数 |
expiresAt | string | 結果の有効期限のタイムスタンプ(24時間) |
sources | object | エージェントが使用したソースURLの配列 |