Firecrawl
ウェブをスクレイピングまたは検索
Firecrawlは、強力なウェブスクレイピングおよびコンテンツ抽出APIで、Simにシームレスに統合され、開発者があらゆるウェブサイトからクリーンで構造化されたコンテンツを抽出できるようにします。この統合により、ウェブページを必要なコンテンツを保持したまま、MarkdownやHTMLなどの使いやすいデータ形式に変換する簡単な方法を提供します。
SimでFirecrawlを使用すると、以下のことが可能です:
- クリーンなコンテンツの抽出: 広告、ナビゲーション要素、その他の気を散らすものを削除し、メインコンテンツのみを取得
- 構造化フォーマットへの変換: ウェブページをMarkdown、HTML、またはJSONに変換
- メタデータの取得: SEOメタデータ、Open Graphタグ、その他のページ情報を抽出
- JavaScriptを多用したサイトの処理: JavaScriptに依存する最新のウェブアプリケーションからコンテンツを処理
- コンテンツのフィルタリング: CSSセレクタを使用してページの特定の部分に焦点を当てる
- 大規模な処理: 信頼性の高いAPIで大量のスクレイピングニーズに対応
- ウェブ検索: インテリジェントなウェブ検索を実行し、構造化された結果を取得
- サイト全体のクロール: ウェブサイトから複数のページをクロールし、そのコンテンツを集約
Simでは、Firecrawl統合によりエージェントがワークフローの一部としてプログラムでウェブコンテンツにアクセスして処理することができます。サポートされている操作には以下が含まれます:
- スクレイプ: 単一のウェブページから構造化されたコンテンツ(Markdown、HTML、メタデータ)を抽出。
- 検索: Firecrawlのインテリジェントな検索機能を使用してウェブ情報を検索。
- クロール: ウェブサイトから複数のページをクロールし、各ページの構造化されたコンテンツとメタデータを返す。
これにより、エージェントはウェブサイトから情報を収集し、構造化データを抽出し、その情報を使用して決定を下したり洞察を生成したりすることができます—すべて生のHTML解析やブラウザ自動化の複雑さに対処する必要なく。FirecrawlブロックをAPIキーで構成し、操作(スクレイプ、検索、またはクロール)を選択し、関連するパラメータを提供するだけです。エージェントはすぐにクリーンで構造化された形式でウェブコンテンツの操作を開始できます。
使用方法
Firecrawlをワークフローに統合します。ウェブサイトの検索、スクレイピング、クローリングが可能です。APIキーが必要です。
ツール
firecrawl_scrape
ウェブページから構造化されたコンテンツを包括的なメタデータサポートで抽出します。コンテンツをマークダウンやHTMLに変換しながら、SEOメタデータ、Open Graphタグ、ページ情報をキャプチャします。
入力
パラメータ | 型 | 必須 | 説明 |
---|---|---|---|
url | string | はい | コンテンツをスクレイピングするURL |
scrapeOptions | json | いいえ | コンテンツスクレイピングのオプション |
apiKey | string | はい | Firecrawl APIキー |
出力
パラメータ | 型 | 説明 |
---|---|---|
markdown | string | マークダウン形式のページコンテンツ |
html | string | ページの生HTMLコンテンツ |
metadata | object | SEOやOpen Graph情報を含むページメタデータ |
firecrawl_search
Firecrawlを使用してウェブ上の情報を検索します
入力
パラメータ | 型 | 必須 | 説明 |
---|---|---|---|
query | string | はい | 使用する検索クエリ |
apiKey | string | はい | Firecrawl APIキー |
出力
パラメータ | 型 | 説明 |
---|---|---|
data | array | 検索結果データ |
firecrawl_crawl
ウェブサイト全体をクロールし、アクセス可能なすべてのページから構造化されたコンテンツを抽出します
入力
パラメータ | 型 | 必須 | 説明 |
---|---|---|---|
url | string | はい | クロールするウェブサイトURL |
limit | number | いいえ | クロールする最大ページ数(デフォルト:100) |
onlyMainContent | boolean | いいえ | ページからメインコンテンツのみを抽出する |
apiKey | string | はい | Firecrawl APIキー |
出力
パラメータ | 型 | 説明 |
---|---|---|
pages | array | クロールされたページとそのコンテンツおよびメタデータの配列 |
注意事項
- カテゴリー:
tools
- タイプ:
firecrawl