マニュアル
RAG対象となるデータです。
検索エンジンの内容となるデータを作成、参照、検索することができます。
メニューから データセット を選択するとデータセットの一覧を確認できます。
※ データセットの上限数は、プランによって異なります。

+データセットを作成 をクリックします。
データ追加するには、ドキュメントを含む zip ファイルを用意します。
サポートしているファイル形式は、PDF / PPT / Excel / Wordとなります。
※ zip ファイルの中身にフォルダが含まれている場合には、1階層目のファイルのみ構造化対象となります(2026年2月時点)
zipファイルの中身の例

ご契約プランによって処理できる総ページ数やデータセット数が異なりますのでご注意ください。
詳しくは担当までお問い合わせください。

データセットを作成ボタンをクリックしてデータをアップロードし、データセットを作成します。
データは順次処理されますので、処理が完了するまでお待ちください。
<aside> 💡
エラーが頻発する場合や、ステータスが progress や処理中から長時間 変化しない場合は、お手数ですが担当までご連絡ください。
</aside>
検索するには、画面上部の入力エリアを使います。
ファイル名やコンテンツ(ページや要素)で絞り込むことができます。

データ追加するには、ドキュメントを含む zip ファイルを用意します。
サポートしているファイル形式は、PDF / PPT / Excel / Wordとなります。
※ zip ファイルの中身にフォルダが含まれている場合には、1階層目のファイルのみ構造化対象となります(2026年2月時点)


アップロードされたファイルは自動的にデータセットに取り込まれます。
データセットの中身をプレビューできます。
各行の[プレビュー]からチャンクの該当箇所をプレビューできます。


左側に該当ページ/要素のプレビューと、対応するチャンクのbounding box が表示されます。
右側にはチャンクのレコードの内容がjsonで確認できます。
| content | 抽出したテキストの結果 |
|---|---|
| caption | 図表に紐づく、キャプション情報(SAT parserのみ) |
| description | 図表に書かれている内容をLLMで読み解き、生成した結果(SAT parserのみ) |
| type | チャンクの種類です。(SAT parserのみ) |
text … テキスト figure … 図 table … 表 section_header … セクション見出し | | pageNum | ページ番号 | | bbox | ページ内の、チャンクの座標を示します。 [左上X, 左上Y, 右下X, 右下Y] | | fileName | チャンク抽出もとのファイル名 |
ヘッダーの [ファイル一覧] から、データセットに入っているファイルの一覧と、ファイルごとの取り込み状態を確認できます。

ファイル名と、ファイルの状態 [ 処理完了 / 処理中 ] が表示されます。
処理完了 … チャンクがデータセットに含まれており、取り込みが完了しています
処理中 … 取り込み開始前の状態で、アップロード〜取り込み処理が実行中であることを示します

ヘッダーの [jsonデータダウンロード] ボタンから、ダウンロードすることができます。
JSON形式のデータが取得できます。

ダウンロードしたデータセットを貴社のRAGシステムにインポートする方法やマニュアルは別途ご提供可能ですので、サポートまでお知らせください。
画面右上の[•••]をクリックし、[編集する]からデータセット名とデータセットの概要を編集できます。