Sim

Jina

ウェブを検索またはURLからコンテンツを抽出

Jina AIは、Simとシームレスに統合して、ウェブコンテンツをクリーンで読みやすいテキストに変換する強力なコンテンツ抽出ツールです。この統合により、開発者はウェブコンテンツ処理機能をエージェントワークフローに簡単に組み込むことができます。

Jina AI Readerは、ウェブページから最も関連性の高いコンテンツを抽出し、雑然としたもの、広告、フォーマットの問題を取り除いて、言語モデルやその他のテキスト処理タスクに最適化されたクリーンで構造化されたテキストを生成することを専門としています。

SimのJina AI統合により、以下のことが可能になります:

  • URLを提供するだけで、任意のウェブページからクリーンなコンテンツを抽出
  • 複雑なウェブレイアウトを構造化された読みやすいテキストに処理
  • 不要な要素を削除しながら重要なコンテキストを維持
  • エージェントワークフローでのさらなる処理のためにウェブコンテンツを準備
  • ウェブ情報を使用可能なデータに素早く変換することで研究タスクを効率化

この統合は、ウェブから情報を収集して処理したり、研究を行ったり、ワークフローの一部としてオンラインコンテンツを分析したりする必要があるエージェントを構築する際に特に価値があります。

使用方法

Jina AIをワークフローに統合します。ウェブを検索してLLMに適した結果を取得するか、高度な解析オプションを使用して特定のURLからクリーンなコンテンツを抽出します。

ツール

jina_read_url

Jina AI Readerを使用してウェブコンテンツを抽出し、LLMフレンドリーなクリーンテキストに処理します。高度なコンテンツ解析、リンク収集、および設定可能な処理オプションによる複数の出力形式をサポートします。

入力

パラメータ必須説明
urlstringはい読み込んでマークダウンに変換するURL
useReaderLMv2booleanいいえより高品質のためにReaderLM-v2を使用するかどうか(トークンコストが3倍)
gatherLinksbooleanいいえすべてのリンクを最後にまとめるかどうか
jsonResponsebooleanいいえレスポンスをJSON形式で返すかどうか
apiKeystringはいあなたのJina AI APIキー
withImagesummarybooleanいいえページからメタデータ付きですべての画像を収集する
retainImagesstringいいえ画像の含め方の制御:「none」はすべて削除、「all」はすべて保持
returnFormatstringいいえ出力形式:markdown、html、text、screenshot、またはpageshot
withIframebooleanいいえ抽出にiframeコンテンツを含めるかどうか
withShadowDombooleanいいえShadow DOMコンテンツを抽出する
noCachebooleanいいえリアルタイム取得のためにキャッシュされたコンテンツをバイパスする
withGeneratedAltbooleanいいえVLMを使用して画像の代替テキストを生成する
robotsTxtstringいいえrobots.txtチェック用のボットユーザーエージェント
dntbooleanいいえDo Not Track - キャッシュ/トラッキングを防止する
noGfmbooleanいいえGitHub Flavored Markdownを無効にする

出力

パラメータ説明
contentstringURLから抽出されたコンテンツで、クリーンでLLMフレンドリーなテキストに処理されたもの
linksarrayページで見つかったリンクのリスト(gatherLinksまたはwithLinksummaryが有効な場合)
imagesarrayページで見つかった画像のリスト(withImagesummaryが有効な場合)

ウェブを検索し、LLMフレンドリーなコンテンツを含むトップ5の結果を返します。各結果は自動的にJina Reader APIを通じて処理されます。地理的フィルタリング、サイト制限、ページネーションをサポートしています。

入力

パラメータ必須説明
qstringはい検索クエリ文字列
apiKeystringはいあなたのJina AI APIキー
numnumberいいえページあたりの最大結果数(デフォルト:5)
sitestringいいえ特定のドメインに結果を制限する。複数のサイトの場合はカンマ区切りで指定可能(例:"jina.ai,github.com")
withFaviconbooleanいいえ結果にウェブサイトのファビコンを含める
withImagesummarybooleanいいえ結果ページからメタデータ付きですべての画像を収集する
withLinksummarybooleanいいえ結果ページからすべてのリンクを収集する
retainImagesstringいいえ画像の含め方の制御:「none」はすべて削除、「all」はすべて保持
noCachebooleanいいえリアルタイム取得のためにキャッシュされたコンテンツをバイパスする
withGeneratedAltbooleanいいえVLMを使用して画像の代替テキストを生成する
respondWithstringいいえページコンテンツなしでメタデータのみを取得するには「no-content」に設定
returnFormatstringいいえ出力形式:markdown、html、text、screenshot、またはpageshot

出力

パラメータ説明
resultsarray検索結果の配列。各結果にはタイトル、説明、URL、LLMフレンドリーなコンテンツが含まれます

注意事項

  • カテゴリー: tools
  • タイプ: jina
On this page

On this page

Start building today
Trusted by over 60,000 builders.
Build Agentic workflows visually on a drag-and-drop canvas or with natural language.
Get started