AI Data Curation Service

貴社エンジニアの工数を、データの前処理で溶かさない。

整理・構造化からタグ付けまで、AIデータを 「LLM-Ready」 へ。
現場の泥臭い判断を引き受ける、AIベンダーのための専門外注部隊。

まずはプロジェクトの分担を相談する →

※ 初回相談・スコープ確認は無償で対応します

まずはプロジェクトの分担を相談する →

※ 初回相談・スコープ確認は無償で対応します

Pain Points

私たちが解決したい、プロジェクトのボトルネック

新旧入り乱れたデータ、どれが正解かわからない

クライアントから渡されたデータには旧版・重複・矛盾が混在。「正しいデータ」の判断だけで膨大な時間が溶ける。

複雑な表・スキャンPDFで自動抽出が汚染される

レイアウトが複雑な資料や手書きスキャンは、自動OCRだけではゴミデータが大量混入。RAGのノイズ源になる。

精度向上に不可欠なタグ付けリソースがない

チャンキングや属性タグの付与は地味で時間がかかる。エンジニアを張りつかせる工数はない、でも品質は落とせない。

その課題、私たちが解消します。

整理・変換・タグ付けまで、LLM-Ready化に必要な泥臭い作業を一括して対応いたします。

まずは相談する →

Services

LLM-Ready化への実務フロー

Core Services — LLM-Ready化の基盤

データ整理

重複ドキュメントの排除と最新版の特定
表記ゆれ・名称統合（旧社名・略称対応）
人間による目視確認と、泥臭いキュレーションで品質を担保
「どれが正解か」の判断を責任を持って実施

対応データ例

複数バージョンのExcel・新旧混在のWord文書・重複した社内規程類

フォーマット変換

PDF・Word・ExcelをMarkdown / JSONへ変換
複雑な表組みの構造保持変換
図解・画像へのAlt属性付与でLLMが認識可能な状態に

対応データ例

複雑な表組みPDF・不鮮明なスキャン資料・段組みレイアウトの技術仕様書

分割・タグ付け

検索精度を最大化するチャンキング設計
カテゴリ・部署・鮮度などのメタデータ属性付与
RAGパイプラインに直接投入できる形式で納品

対応データ例

社内マニュアル・FAQ集・製品仕様書・議事録アーカイブ

Advanced Options — AI活用の最大化

業務プロセスのプロトコル化

属人化した業務フローをドキュメント化
LLMが参照しやすい手順書・ルール集へ整形
将来的なRAG化を見越した設計で作成

評価用データ作成（Q&Aペア構築）

ドメイン知識に基づくQ&Aペアの手動生成
RAGの評価・ファインチューニング用データセット
実業務に即した質問設計で精度評価の精度も向上

Data Quality Demo

クレンジング前後の品質差

同じ「就業規則」データを例に、LLM-Ready化の効果を確認

❌ Before — 生データ（判断不可・ゴミ混入）

regulation_raw.txt

【規程第3条】（2019年改定）社員の勤務時間は…
【規程第3条】社員の勤務時間は9時〜18時とする（旧）
↑ どちらが最新？ 判断不可

表1.xlsx のセルA3に記載の数値を参照のこと
↑ 参照先不明。Excelファイルは別添

[スキャン画像] ←OCR:「勤務蒔間」「18暗まで」
↑ OCRゴミ。正しくは「勤務時間」「18時まで」

（株）田中商事 / 田中商事株式会社 / タナカ商事
↑ 同一企業。表記ゆれが3種類混在

✅ After — クレンジング済み（LLM-Ready）

regulation-article-3.md

---
id: regulation-article-3
category: 就業規則
version: 2023-04-01  # 最新版に統一
status: active
---

# 第3条　勤務時間

## 基本勤務時間
- **開始**: 9:00
- **終了**: 18:00
- **休憩**: 12:00〜13:00（60分）

## 補足
旧規程（2019年版）は廃止済み。
本文書が唯一の正本。

<!-- 関連: regulation-article-4 -->

左：旧版・OCRゴミ・表記ゆれが混在した状態　／　右：人間の目視確認を経た、投入可能なMarkdown

Why Us

選ばれる3つの理由

エンジニア目線のディレクション

「このデータ、LLMはどう読むか？」を常に起点に判断。チャンク境界の設計やメタデータ設計まで、AIパイプラインの文脈で実務対応します。

ミニマムロットなしの柔軟性

「1部署分だけ」「数千件規模」「仕様がまだ固まっていない」——大手が断るような案件から伴走します。スモールスタートで品質を確認してから拡大できます。

コンテキストの汲み取り力

曖昧な資料の中から「唯一の正解」を見つけ出す粘り強いキュレーション。組織構造・業務文脈を理解した上で、人間が責任を持って判断します。

Contact

まずは御社プロジェクトの
「データ前処理」を分担させてください。

スコープが未確定でも構いません。
現状のデータ課題をヒアリングし、分担できる範囲をご提案します。

プロジェクトの分担を相談する →

まずは、対象データの現状をお聞かせください。

初回ヒアリングは無償で承ります。必要に応じて、機密保持契約（NDA）の締結も可能です。

貴社エンジニアの工数を、 データの前処理で溶かさない。

新旧入り乱れたデータ、どれが正解かわからない

複雑な表・スキャンPDFで自動抽出が汚染される

精度向上に不可欠なタグ付けリソースがない

データ整理

フォーマット変換

分割・タグ付け

業務プロセスのプロトコル化

評価用データ作成（Q&Aペア構築）

エンジニア目線のディレクション

ミニマムロットなしの柔軟性

コンテキストの汲み取り力

まずは御社プロジェクトの「データ前処理」を分担させてください。

貴社エンジニアの工数を、データの前処理で溶かさない。

まずは御社プロジェクトの
「データ前処理」を分担させてください。