Sim

Firecrawl

ウェブデータのスクレイピング、検索、クロール、マッピング、抽出

Firecrawlは、強力なウェブスクレイピングおよびコンテンツ抽出APIで、Simにシームレスに統合され、開発者があらゆるウェブサイトからクリーンで構造化されたコンテンツを抽出できるようにします。この統合により、ウェブページを必要なコンテンツを保持したまま、MarkdownやHTMLなどの使いやすいデータ形式に変換する簡単な方法を提供します。

SimでFirecrawlを使用すると、以下のことが可能です:

  • クリーンなコンテンツの抽出: 広告、ナビゲーション要素、その他の気を散らすものを削除し、メインコンテンツのみを取得
  • 構造化フォーマットへの変換: ウェブページをMarkdown、HTML、またはJSONに変換
  • メタデータの取得: SEOメタデータ、Open Graphタグ、その他のページ情報を抽出
  • JavaScriptを多用したサイトの処理: JavaScriptに依存する最新のウェブアプリケーションからコンテンツを処理
  • コンテンツのフィルタリング: CSSセレクタを使用してページの特定の部分に焦点を当てる
  • 大規模な処理: 信頼性の高いAPIで大量のスクレイピングニーズに対応
  • ウェブ検索: インテリジェントなウェブ検索を実行し、構造化された結果を取得
  • サイト全体のクロール: ウェブサイトから複数のページをクロールし、そのコンテンツを集約

Simでは、Firecrawl統合によりエージェントがワークフローの一部としてプログラムでウェブコンテンツにアクセスして処理することができます。サポートされている操作には以下が含まれます:

  • スクレイプ: 単一のウェブページから構造化されたコンテンツ(Markdown、HTML、メタデータ)を抽出。
  • 検索: Firecrawlのインテリジェントな検索機能を使用してウェブ情報を検索。
  • クロール: ウェブサイトから複数のページをクロールし、各ページの構造化されたコンテンツとメタデータを返す。

これにより、エージェントはウェブサイトから情報を収集し、構造化データを抽出し、その情報を使用して決定を下したり洞察を生成したりすることができます—すべて生のHTML解析やブラウザ自動化の複雑さに対処する必要なく。FirecrawlブロックをAPIキーで構成し、操作(スクレイプ、検索、またはクロール)を選択し、関連するパラメータを提供するだけです。エージェントはすぐにクリーンで構造化された形式でウェブコンテンツの操作を開始できます。

使用方法

Firecrawlをワークフローに統合します。ページのスクレイピング、ウェブ検索、サイト全体のクローリング、URL構造のマッピング、AIによる構造化データの抽出が可能です。

ツール

firecrawl_scrape

ウェブページから構造化されたコンテンツを包括的なメタデータサポートで抽出します。コンテンツをマークダウンやHTMLに変換しながら、SEOメタデータ、Open Graphタグ、ページ情報をキャプチャします。

入力

パラメータ必須説明
urlstringはいコンテンツをスクレイピングするURL
scrapeOptionsjsonいいえコンテンツスクレイピングのオプション
apiKeystringはいFirecrawl APIキー

出力

パラメータ説明
markdownstringマークダウン形式のページコンテンツ
htmlstringページの生HTMLコンテンツ
metadataobjectSEOやOpen Graph情報を含むページメタデータ

Firecrawlを使用してウェブ上の情報を検索します

入力

パラメータ必須説明
querystringはい使用する検索クエリ
apiKeystringはいFirecrawl APIキー

出力

パラメータ説明
dataarray検索結果データ

firecrawl_crawl

ウェブサイト全体をクロールし、アクセス可能なすべてのページから構造化されたコンテンツを抽出します

入力

パラメータ必須説明
urlstringはいクロールするウェブサイトURL
limitnumberいいえクロールするページの最大数(デフォルト:100)
onlyMainContentbooleanいいえページからメインコンテンツのみを抽出する
apiKeystringはいFirecrawl APIキー

出力

パラメータ説明
pagesarrayクロールされたページとそのコンテンツおよびメタデータの配列

firecrawl_map

任意のウェブサイトからURLの完全なリストを迅速かつ確実に取得します。サイト上のすべてのページをクロールせずに発見するのに役立ちます。

入力

パラメータ必須説明
urlstringはいリンクを発見・マッピングするベースURL
searchstringいいえ検索語に関連する結果でフィルタリング(例:「blog」)
sitemapstringいいえサイトマップの使用方法:「skip」、「include」(デフォルト)、または「only」
includeSubdomainsbooleanいいえサブドメインからのURLを含めるかどうか(デフォルト:true)
ignoreQueryParametersbooleanいいえクエリ文字列を含むURLを除外する(デフォルト:true)
limitnumberいいえ返すリンクの最大数(最大:100,000、デフォルト:5,000)
timeoutnumberいいえリクエストタイムアウト(ミリ秒)
locationjsonいいえプロキシの地理的コンテキスト(国、言語)
apiKeystringはいFirecrawl APIキー

出力

パラメータ説明
successbooleanマッピング操作が成功したかどうか
linksarrayウェブサイトから発見されたURLの配列

firecrawl_extract

自然言語プロンプトとJSONスキーマを使用して、ウェブページ全体から構造化データを抽出します。インテリジェントなデータ抽出のための強力なエージェント機能です。

入力

パラメータ必須説明
urlsjsonはいデータを抽出するURLの配列(glob形式をサポート)
promptstringいいえ抽出プロセスのための自然言語ガイダンス
schemajsonいいえ抽出するデータの構造を定義するJSONスキーマ
enableWebSearchbooleanいいえ補足情報を見つけるためのウェブ検索を有効にする(デフォルト:false)
ignoreSitemapbooleanいいえスキャン中にsitemap.xmlファイルを無視する(デフォルト:false)
includeSubdomainsbooleanいいえサブドメインにスキャンを拡張する(デフォルト:true)
showSourcesbooleanいいえレスポンスにデータソースを含める(デフォルト:false)
ignoreInvalidURLsbooleanいいえ配列内の無効なURLをスキップする(デフォルト:true)
scrapeOptionsjsonいいえ高度なスクレイピング設定オプション
apiKeystringはいFirecrawl APIキー

出力

パラメータ説明
successboolean抽出操作が成功したかどうか
dataobjectスキーマまたはプロンプトに従って抽出された構造化データ

firecrawl_agent

自律型ウェブデータ抽出エージェント。特定のURLを必要とせず、自然言語プロンプトに基づいて情報を検索・収集します。

入力

パラメータ必須説明
promptstringはい抽出するデータの自然言語による説明(最大10,000文字)
urlsjsonいいえエージェントが焦点を当てるURLの配列(オプション)
schemajsonいいえ抽出するデータの構造を定義するJSONスキーマ
maxCreditsnumberいいえこのエージェントタスクに使用する最大クレジット数
strictConstrainToURLsbooleanいいえtrueの場合、エージェントはurls配列で提供されたURLのみを訪問します
apiKeystringはいFirecrawl APIキー

出力

パラメータ説明
successbooleanエージェント操作が成功したかどうか
statusstringエージェントジョブの現在のステータス(processing、completed、failed)
dataobjectエージェントから抽出されたデータ
creditsUsednumberこのエージェントタスクで消費されたクレジット数
expiresAtstring結果の有効期限のタイムスタンプ(24時間)
sourcesobjectエージェントが使用したソースURLの配列

注記

  • カテゴリ:tools
  • タイプ:firecrawl
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started