Jina

Jina AIは、Simとシームレスに統合して、ウェブコンテンツをクリーンで読みやすいテキストに変換する強力なコンテンツ抽出ツールです。この統合により、開発者はウェブコンテンツ処理機能をエージェントワークフローに簡単に組み込むことができます。

Jina AI Readerは、ウェブページから最も関連性の高いコンテンツを抽出し、雑然としたもの、広告、フォーマットの問題を取り除いて、言語モデルやその他のテキスト処理タスクに最適化されたクリーンで構造化されたテキストを生成することを専門としています。

SimのJina AI統合により、以下のことが可能になります：

この統合は、ウェブから情報を収集して処理したり、研究を行ったり、ワークフローの一部としてオンラインコンテンツを分析したりする必要があるエージェントを構築する際に特に価値があります。

使用方法

Jina AIをワークフローに統合します。ウェブを検索してLLMに適した結果を取得するか、高度な解析オプションを使用して特定のURLからクリーンなコンテンツを抽出します。

Jina AI Readerを使用してウェブコンテンツを抽出し、LLMフレンドリーなクリーンテキストに処理します。高度なコンテンツ解析、リンク収集、および設定可能な処理オプションによる複数の出力形式をサポートします。

パラメータ	型	必須	説明
`url`	string	はい	読み込んでマークダウンに変換するURL
`useReaderLMv2`	boolean	いいえ	より高品質のためにReaderLM-v2を使用するかどうか（トークンコストが3倍）
`gatherLinks`	boolean	いいえ	すべてのリンクを最後にまとめるかどうか
`jsonResponse`	boolean	いいえ	レスポンスをJSON形式で返すかどうか
`apiKey`	string	はい	あなたのJina AI APIキー
`withImagesummary`	boolean	いいえ	ページからメタデータ付きですべての画像を収集する
`retainImages`	string	いいえ	画像の含め方の制御：「none」はすべて削除、「all」はすべて保持
`returnFormat`	string	いいえ	出力形式：markdown、html、text、screenshot、またはpageshot
`withIframe`	boolean	いいえ	抽出にiframeコンテンツを含めるかどうか
`withShadowDom`	boolean	いいえ	Shadow DOMコンテンツを抽出する
`noCache`	boolean	いいえ	リアルタイム取得のためにキャッシュされたコンテンツをバイパスする
`withGeneratedAlt`	boolean	いいえ	VLMを使用して画像の代替テキストを生成する
`robotsTxt`	string	いいえ	robots.txtチェック用のボットユーザーエージェント
`dnt`	boolean	いいえ	Do Not Track - キャッシュ/トラッキングを防止する
`noGfm`	boolean	いいえ	GitHub Flavored Markdownを無効にする

パラメータ	型	説明
`content`	string	URLから抽出されたコンテンツ。クリーンでLLMフレンドリーなテキストに処理されています

ウェブを検索し、LLMフレンドリーなコンテンツを含むトップ5の結果を返します。各結果は自動的にJina Reader APIを通じて処理されます。地理的フィルタリング、サイト制限、ページネーションをサポートしています。

パラメータ	型	必須	説明
`q`	string	はい	検索クエリ文字列
`apiKey`	string	はい	あなたのJina AI APIキー
`num`	number	いいえ	ページあたりの最大結果数（デフォルト：5）
`site`	string	いいえ	特定のドメインに結果を制限する。複数のサイトの場合はカンマ区切りで指定可能（例："jina.ai,github.com"）
`withFavicon`	boolean	いいえ	結果にウェブサイトのファビコンを含める
`withImagesummary`	boolean	いいえ	結果ページからメタデータ付きですべての画像を収集する
`withLinksummary`	boolean	いいえ	結果ページからすべてのリンクを収集する
`retainImages`	string	いいえ	画像の含め方の制御：「none」はすべて削除、「all」はすべて保持
`noCache`	boolean	いいえ	リアルタイム取得のためにキャッシュされたコンテンツをバイパスする
`withGeneratedAlt`	boolean	いいえ	VLMを使用して画像の代替テキストを生成する
`respondWith`	string	いいえ	ページコンテンツなしでメタデータのみを取得するには「no-content」に設定
`returnFormat`	string	いいえ	出力形式：markdown、html、text、screenshot、またはpageshot

パラメータ	型	説明
`results`	array	検索結果の配列。各結果にはタイトル、説明、URL、LLMフレンドリーなコンテンツが含まれます