Sim

Firecrawl

ウェブをスクレイピングまたは検索

Firecrawlは、強力なウェブスクレイピングおよびコンテンツ抽出APIで、Simにシームレスに統合され、開発者があらゆるウェブサイトからクリーンで構造化されたコンテンツを抽出できるようにします。この統合により、ウェブページを必要なコンテンツを保持したまま、MarkdownやHTMLなどの使いやすいデータ形式に変換する簡単な方法を提供します。

SimでFirecrawlを使用すると、以下のことが可能です:

  • クリーンなコンテンツの抽出: 広告、ナビゲーション要素、その他の気を散らすものを削除し、メインコンテンツのみを取得
  • 構造化フォーマットへの変換: ウェブページをMarkdown、HTML、またはJSONに変換
  • メタデータの取得: SEOメタデータ、Open Graphタグ、その他のページ情報を抽出
  • JavaScriptを多用したサイトの処理: JavaScriptに依存する最新のウェブアプリケーションからコンテンツを処理
  • コンテンツのフィルタリング: CSSセレクタを使用してページの特定の部分に焦点を当てる
  • 大規模な処理: 信頼性の高いAPIで大量のスクレイピングニーズに対応
  • ウェブ検索: インテリジェントなウェブ検索を実行し、構造化された結果を取得
  • サイト全体のクロール: ウェブサイトから複数のページをクロールし、そのコンテンツを集約

Simでは、Firecrawl統合によりエージェントがワークフローの一部としてプログラムでウェブコンテンツにアクセスして処理することができます。サポートされている操作には以下が含まれます:

  • スクレイプ: 単一のウェブページから構造化されたコンテンツ(Markdown、HTML、メタデータ)を抽出。
  • 検索: Firecrawlのインテリジェントな検索機能を使用してウェブ情報を検索。
  • クロール: ウェブサイトから複数のページをクロールし、各ページの構造化されたコンテンツとメタデータを返す。

これにより、エージェントはウェブサイトから情報を収集し、構造化データを抽出し、その情報を使用して決定を下したり洞察を生成したりすることができます—すべて生のHTML解析やブラウザ自動化の複雑さに対処する必要なく。FirecrawlブロックをAPIキーで構成し、操作(スクレイプ、検索、またはクロール)を選択し、関連するパラメータを提供するだけです。エージェントはすぐにクリーンで構造化された形式でウェブコンテンツの操作を開始できます。

使用方法

Firecrawlをワークフローに統合します。ウェブサイトの検索、スクレイピング、クローリングが可能です。APIキーが必要です。

ツール

firecrawl_scrape

ウェブページから構造化されたコンテンツを包括的なメタデータサポートで抽出します。コンテンツをマークダウンやHTMLに変換しながら、SEOメタデータ、Open Graphタグ、ページ情報をキャプチャします。

入力

パラメータ必須説明
urlstringはいコンテンツをスクレイピングするURL
scrapeOptionsjsonいいえコンテンツスクレイピングのオプション
apiKeystringはいFirecrawl APIキー

出力

パラメータ説明
markdownstringマークダウン形式のページコンテンツ
htmlstringページの生HTMLコンテンツ
metadataobjectSEOやOpen Graph情報を含むページメタデータ

Firecrawlを使用してウェブ上の情報を検索します

入力

パラメータ必須説明
querystringはい使用する検索クエリ
apiKeystringはいFirecrawl APIキー

出力

パラメータ説明
dataarray検索結果データ

firecrawl_crawl

ウェブサイト全体をクロールし、アクセス可能なすべてのページから構造化されたコンテンツを抽出します

入力

パラメータ必須説明
urlstringはいクロールするウェブサイトURL
limitnumberいいえクロールする最大ページ数(デフォルト:100)
onlyMainContentbooleanいいえページからメインコンテンツのみを抽出する
apiKeystringはいFirecrawl APIキー

出力

パラメータ説明
pagesarrayクロールされたページとそのコンテンツおよびメタデータの配列

注意事項

  • カテゴリー: tools
  • タイプ: firecrawl
Firecrawl