Firecrawl

Firecrawlは、強力なウェブスクレイピングおよびコンテンツ抽出APIで、Simにシームレスに統合され、開発者があらゆるウェブサイトからクリーンで構造化されたコンテンツを抽出できるようにします。この統合により、ウェブページを必要なコンテンツを保持したまま、MarkdownやHTMLなどの使いやすいデータ形式に変換する簡単な方法を提供します。

SimでFirecrawlを使用すると、以下のことが可能です：

クリーンなコンテンツの抽出: 広告、ナビゲーション要素、その他の気を散らすものを削除し、メインコンテンツのみを取得
構造化フォーマットへの変換: ウェブページをMarkdown、HTML、またはJSONに変換
メタデータの取得: SEOメタデータ、Open Graphタグ、その他のページ情報を抽出
JavaScriptを多用したサイトの処理: JavaScriptに依存する最新のウェブアプリケーションからコンテンツを処理
コンテンツのフィルタリング: CSSセレクタを使用してページの特定の部分に焦点を当てる
大規模な処理: 信頼性の高いAPIで大量のスクレイピングニーズに対応
ウェブ検索: インテリジェントなウェブ検索を実行し、構造化された結果を取得
サイト全体のクロール: ウェブサイトから複数のページをクロールし、そのコンテンツを集約

Simでは、Firecrawl統合によりエージェントがワークフローの一部としてプログラムでウェブコンテンツにアクセスして処理することができます。サポートされている操作には以下が含まれます：

スクレイプ: 単一のウェブページから構造化されたコンテンツ（Markdown、HTML、メタデータ）を抽出。
検索: Firecrawlのインテリジェントな検索機能を使用してウェブ情報を検索。
クロール: ウェブサイトから複数のページをクロールし、各ページの構造化されたコンテンツとメタデータを返す。

これにより、エージェントはウェブサイトから情報を収集し、構造化データを抽出し、その情報を使用して決定を下したり洞察を生成したりすることができます—すべて生のHTML解析やブラウザ自動化の複雑さに対処する必要なく。FirecrawlブロックをAPIキーで構成し、操作（スクレイプ、検索、またはクロール）を選択し、関連するパラメータを提供するだけです。エージェントはすぐにクリーンで構造化された形式でウェブコンテンツの操作を開始できます。

パラメータ	型	必須	説明
`url`	string	はい	コンテンツをスクレイピングするURL
`scrapeOptions`	json	いいえ	コンテンツスクレイピングのオプション
`apiKey`	string	はい	Firecrawl APIキー

出力

パラメータ	型	説明
`markdown`	string	マークダウン形式のページコンテンツ
`html`	string	ページの生HTMLコンテンツ
`metadata`	object	SEOやOpen Graph情報を含むページメタデータ

`firecrawl_search`

Firecrawlを使用してウェブ上の情報を検索します

入力

パラメータ	型	必須	説明
`query`	string	はい	使用する検索クエリ
`apiKey`	string	はい	Firecrawl APIキー

出力

パラメータ	型	説明
`data`	array	検索結果データ

`firecrawl_crawl`

ウェブサイト全体をクロールし、アクセス可能なすべてのページから構造化されたコンテンツを抽出します

入力

パラメータ	型	必須	説明
`url`	string	はい	クロールするウェブサイトURL
`limit`	number	いいえ	クロールするページの最大数（デフォルト：100）
`onlyMainContent`	boolean	いいえ	ページからメインコンテンツのみを抽出する
`apiKey`	string	はい	Firecrawl APIキー

出力

パラメータ	型	説明
`pages`	array	クロールされたページとそのコンテンツおよびメタデータの配列

`firecrawl_map`

任意のウェブサイトからURLの完全なリストを迅速かつ確実に取得します。サイト上のすべてのページをクロールせずに発見するのに役立ちます。

入力

パラメータ	型	必須	説明
`url`	string	はい	リンクを発見・マッピングするベースURL
`search`	string	いいえ	検索語に関連する結果でフィルタリング（例：「blog」）
`sitemap`	string	いいえ	サイトマップの使用方法：「skip」、「include」（デフォルト）、または「only」
`includeSubdomains`	boolean	いいえ	サブドメインからのURLを含めるかどうか（デフォルト：true）
`ignoreQueryParameters`	boolean	いいえ	クエリ文字列を含むURLを除外する（デフォルト：true）
`limit`	number	いいえ	返すリンクの最大数（最大：100,000、デフォルト：5,000）
`timeout`	number	いいえ	リクエストタイムアウト（ミリ秒）
`location`	json	いいえ	プロキシの地理的コンテキスト（国、言語）
`apiKey`	string	はい	Firecrawl APIキー

出力

パラメータ	型	説明
`success`	boolean	マッピング操作が成功したかどうか
`links`	array	ウェブサイトから発見されたURLの配列

`firecrawl_extract`

自然言語プロンプトとJSONスキーマを使用して、ウェブページ全体から構造化データを抽出します。インテリジェントなデータ抽出のための強力なエージェント機能です。

入力

パラメータ	型	必須	説明
`urls`	json	はい	データを抽出するURLの配列（glob形式をサポート）
`prompt`	string	いいえ	抽出プロセスのための自然言語ガイダンス
`schema`	json	いいえ	抽出するデータの構造を定義するJSONスキーマ
`enableWebSearch`	boolean	いいえ	補足情報を見つけるためのウェブ検索を有効にする（デフォルト：false）
`ignoreSitemap`	boolean	いいえ	スキャン中にsitemap.xmlファイルを無視する（デフォルト：false）
`includeSubdomains`	boolean	いいえ	サブドメインにスキャンを拡張する（デフォルト：true）
`showSources`	boolean	いいえ	レスポンスにデータソースを含める（デフォルト：false）
`ignoreInvalidURLs`	boolean	いいえ	配列内の無効なURLをスキップする（デフォルト：true）
`scrapeOptions`	json	いいえ	高度なスクレイピング設定オプション
`apiKey`	string	はい	Firecrawl APIキー

出力

パラメータ	型	説明
`success`	boolean	抽出操作が成功したかどうか
`data`	object	スキーマまたはプロンプトに従って抽出された構造化データ

`firecrawl_agent`

自律型ウェブデータ抽出エージェント。特定のURLを必要とせず、自然言語プロンプトに基づいて情報を検索・収集します。

入力

パラメータ	型	必須	説明
`prompt`	string	はい	抽出するデータの自然言語による説明（最大10,000文字）
`urls`	json	いいえ	エージェントが焦点を当てるURLの配列（オプション）
`schema`	json	いいえ	抽出するデータの構造を定義するJSONスキーマ
`maxCredits`	number	いいえ	このエージェントタスクに使用する最大クレジット数
`strictConstrainToURLs`	boolean	いいえ	trueの場合、エージェントはurls配列で提供されたURLのみを訪問します
`apiKey`	string	はい	Firecrawl APIキー

出力

パラメータ	型	説明
`success`	boolean	エージェント操作が成功したかどうか
`status`	string	エージェントジョブの現在のステータス（processing、completed、failed）
`data`	object	エージェントから抽出されたデータ
`creditsUsed`	number	このエージェントタスクで消費されたクレジット数
`expiresAt`	string	結果の有効期限のタイムスタンプ（24時間）
`sources`	object	エージェントが使用したソースURLの配列

Firecrawl

使用方法

ツール

`firecrawl_scrape`

入力

出力

`firecrawl_search`

入力

出力

`firecrawl_crawl`

入力

出力

`firecrawl_map`

入力

出力

`firecrawl_extract`

入力

出力

`firecrawl_agent`

入力

出力

On this page