AIに「ゴミ」を食わせるな　ーAIエージェントが賢くなるデータ、バカになるデータ

小泉耕二

2か月前

AIに「ゴミ」を食わせるな　ーAIエージェントが賢くなるデータ、バカになるデータ

「自社専用のAIエージェントを作れば、業務は自動化できる」前回の記事で、そうお話ししました。

これを聞いて、感度の高い経営者やDX担当者の中には、早速行動に移した方もいるでしょう。

社内マニュアル、日報、議事録・・・ありとあらゆるドキュメントをRAG（検索拡張生成）システムに放り込んでみた方もいるはずです。

しかし、期待に胸を膨らませてAIに質問した瞬間、絶望したのではないでしょうか。

「マニュアルに記載がありません」
「一般的な回答としては以下の通りです・・・」

なぜ、御社のデータを学習させたはずなのに、AIは気の利いた回答の一つもできないのか。

それは、IT業界に古くからある、残酷な真実を無視しているからです。

「Garbage In, Garbage Out（ゴミを入れれば、ゴミが出てくる）」

どんなに優秀なLLM（大規模言語モデル）を使っても、食べさせるデータが良質なものでないと、出てくるアウトプットも嬉しいものではなくなります。

少し専門的な話をすると、今のRAGシステムは、ドキュメントを数百文字ごとの「チャンク（断片）」とよばれる細切れデータにして保存します。

例えば、「2023年のA社の議事録」をPDFで読み込ませた場合、AIのデータベースの中では「A社の…」「決定事項は…」「次回は…」といった具合にバラバラにされ、ファイル名や作成日といった「表紙の情報」が欠落してしまうことが多いのです。

この状態で、ユーザーが「A社の最新の状況を教えて」と聞いても、AIはバラバラになった断片の中から「A社」という言葉が入っている紙切れをランダムに拾ってくるだけとなります。

これでは、「先月の決定事項」なのか「3年前の決定事項」なのか区別がつきません。（その結果、平然と間違った回答をしてしまうことも少なくありません。）

だからこそ、断片化される前のデータそのものに、「これは2024年作成」「最新版」「決定稿」といった、「メタデータ」を確実に貼り付けておく必要があるのです。

そこで、今回は、AIエージェントを賢くするための「データの食べさせ方」と、「文脈（コンテキスト）の設計」について解説します。

AIは「文字」は読めるが、「意味」は読めない

まず、誤解を解いておきましょう。

「AIは人間のように文脈を理解できる」と言われますが、ビジネスの現場において、これは半分正解で半分間違いです。

AIは、文章のつながりは理解できます。しかし、そのデータが生まれた「背景」までは、教えられない限り理解できません。

「点」のデータ vs 「線」のデータ

例えば、ある工場から「温度：28度」というデータが得られたとします。

これをそのままAIに学習させたとしましょう。AIにとって、これは単なる数字の記録です。

それが「暑い」のか「適温」なのか？

オフィスの温度なのか、冷凍倉庫の温度なのか？

その時、機械は動いていたのか、止まっていたのか？

これらが分からなければ、AIは何の判断もできません。これが「点」のデータです。

多くの企業にあるデータベースは、この「点」のデータがたくさんある状態です。

では、AIが判断できるデータとはどういう状態なのでしょうか？

「8月1日（真夏）、第2倉庫（空調故障中）、温度：28度、保管物：チョコレート」

ここまでセットになって初めて、AIは「危険！チョコレートが溶ける可能性が高いです」と推論し、アラートを出すことができます。

これが、データに文脈を持たせた「線」のデータなのです。

私は、「IoTの第二の進化」という考え方を提唱しています。

簡単にいうと、単に現場のデータを集めて可視化する、というのが第一の進化だとすると、第二の進化は、単にセンサーでデータを集めることではなく、バラバラのデータを結びつけ、「意味（文脈）」を保存することで実現されます。

【事例】パン工場に見る「文脈」の作り方

では、具体的にどうやって「データの文脈」を作ればいいのでしょうか。

分かりやすい例として、あるパン工場の事例をご紹介しましょう。

ある工場では、ベテランの職人が「今日の生地はなんとなく膨らみが悪いな」と感じると、長年の勘でオーブンの設定を微調整していました。しかし、若手にはそれができません。

そこで、AIにその判断をさせようとしました。

失敗するデータ収集

最初にやったのは、「発酵室の温度と湿度」をIoTで記録し続けることでした。

しかし、AIの分析結果は「相関なし」。温度は一定に保たれているのに、なぜか品質がバラつくのです。

これではAIは何の役にも立ちません。

賢いデータ設計（文脈の結合）

そこで、データの取り方を設計し直しました。

単一のデータではなく、以下の3つをセットで（紐づけて）AIに学習させたのです。

IoTデータ: 発酵室の温度・湿度（環境）
工程データ: 生地がライン上で止まっていた「滞留時間」（状況）
原材料データ: その日使った小麦粉の「ロット番号」（条件）

すると、AIはある法則を発見しました。

「特定のロット（C群）の小麦粉を使い、かつラインの滞留時間が30分を超えた時だけ、膨らみが悪くなる」

これは、「温度」だけを見ていては一生気づけなかった真実です。

複数のデータを横串に見て、「この条件の時に、こういう結果になった」という因果関係（文脈）をセットで教え込む。

これができて初めて、AIエージェントは「今日の粉はC群のもので、ラインが少し遅れているので、発酵時間を5分短くしましょう」と、ベテラン顔負けの指示が出せるようになるのです。

ここで重要なのは、いきなりデータを集め始めたわけではない点です。

DX担当者が最初に行ったのは、ベテラン職人への徹底的な「問いかけ」でした。

DX担当者：「なぜ、今オーブンの温度を下げたんですか？」

ベテラン職人：「んー、なんとなく生地がダレてたからな」

DX担当者「ダレているというのは、具体的にどういう見た目の時ですか？」

ベテラン職人：「表面に水滴が浮いて、色が白っぽい時だよ」

この対話こそが、文脈設計の核心です。

「なんとなく」という職人の勘を、「表面の水滴」「色の白さ」という計測可能な「事実」に翻訳する。

そして、「それは湿度が高い時に起きるのでは？」という仮説を立てて初めて、「湿度データ」と「品質データ」を紐付けるという発想が生まれます。

AIは魔法使いではありません。

人間が「見るべきポイント（特徴量）」を定義してあげて初めて、その相関関係を計算できるのです。

実践：AIに食べさせるデータの「調理法」

「うちは工場じゃないから関係ない」と思われた方もいるのではないでしょうか？

実は、他の業務でも全く同じなのです。どこの会社でもある事務作業を例に上げてみましょう。

営業日報、議事録、チャットログ・・・こういったデータは、どこの会社にもあるはずです。

AIエージェントを作ろうと考えた時、初めに思いつくのは、これらのデータをAIに参照させようとする行為です。

しかし、これらを「そのまま」AIに読ませても、賢いエージェントは育ちません。

AIに食べさせる前に、データを「調理（前処理）」する必要があります。

ここで、明日からできる3つの調理法をお教えします。

調理法①：タグ付け

営業日報をPDF化して読ませる前に、ファイル名やメタデータに**「タグ」**を付けてください。

「【成約】A社商談ログ.pdf」
「【失注】B社商談ログ（価格要因）.pdf」
「【クレーム】C社対応ログ.pdf」

たったこれだけです。

タグというのは、【成功】【失注】【クレーム】とファイル名の先頭に書かれている文字列です。

この商談が成功した商談なのか、失注した商談なのか、はたまたクレーム処理を行なったものなのかを、ファイル名をみただけでわかるようにしておくのです。

皆さんが営業マンで、成約した事例を探したいなと思った時、ファイル名が単に「A社商談ログ」などと書かれているだけでは、ファイルを開けて中身を全部読まないと参考になるかどうかわからないですよね。

AIでも同じことなのです。

こうやって、ファイル名に内容を識別する「タグ」があることで、AIは「成約するパターン」と「失注するパターン」を明確に区別して学習することができます。

タグがないデータは、AIにとって「ただの雑多な営業日報」ですが、タグがついた瞬間、それは「価値のあるノウハウ集」に変わります。

調理法②：スクリーニング

次に、学習させるデータをスクリーニングします。

間違っても「全社員の日報」を全て学習させてはいけません。

新人の間違った対応や、質の低い報告まで学習させると、AIの判断基準は「平均値（凡庸）」になってしまうでしょう。

AIエージェントを「エース社員のノウハウ」にしたいなら、「トップセールス5名の日報」だけを選別して参照させてください。

「ノイズ」を混ぜないこと。これが、AIの性能を尖らせるための鉄則なのです。

調理法③：リンク

最後に、文脈をつくります。

営業マンが成果をあげるための「コンディション（前提条件）」と呼ぶべきかもしれません。

「こんなトークをしたから売り上げが上がった」

という単純な関係だけで、成約が取れるとは思いません。

例えば、

先方がちょうど当社の製品をほしいと思っているタイミングだった
キャンペーンの値下げ率が競合よりよい条件だった
天気予報でこれからお客様の商品が売れ行きがよくなりそうな予想をされていた

など、ビジネスにはタイミングも重要です。

つまり、「売上の数字」や「商談内容」だけを学習させても、AIは未来予測ができないのです。

その売上が上がった日の「天気」、行われていた「キャンペーン」、競合の「値下げ情報」を横に紐づけてください。

例えば、「雨の日の金曜日（文脈）」に「売上が落ちた（結果）」というセットデータがあれば、AIは「明日は雨予報なので、客足減に備えてスタッフ配置を減らしましょう」といった提案できるようになります。

劇的ビフォーアフター：AIの回答はどう変わる？

では、タグ付けを行うことで、AIの回答は劇的に変わるのでしょうか？

実際に見てみましょう。

Before（調理前のデータを読ませた場合）

社員：「A社への提案、どうすれば通るかな？」

AI：「一般的な営業のコツは、顧客のニーズを聞き出すことです。誠意を持って対応しましょう。」

「そんなことは分かっている！」と言いたくなる回答が出てきて「AIは使えないな」と感じてしまいそうです。

After（「タグ」と「文脈」を付与したデータを読ませた場合）

社員：「A社への提案、どうすれば通るかな？」

AI：「過去の【成約】タグが付いたA社との商談ログを分析しました。

A社の担当役員は、決算月である『3月』の直前に、『コスト削減』の提案を持っていくと成約率が80%まで上がっています。

また、現在は競合他社が値上げを発表したタイミング（文脈）ですので、あえて『価格維持』を強調するプランを提示するのが有効だと思われます。」

いかがでしょうか。これが「文脈」を理解したAIの威力です。

ここまで具体的であれば、新人営業マンでも明日からトップセールス並みの動きができるようになります。

必要なのは、プログラム技術でなく、「文脈設計」技術

こうして見ていくと、「AIエージェントを作る」という作業は、プログラミングなどの技術的な作業では「ない」ことが分かります。

うちの会社の「勝ちパターン」は何か？
ベテランは「何」を見て判断しているのか？
どのデータとどのデータを組み合わせれば、その「文脈」が再現できるか？

これを考え、定義すること。すなわち「勝ちパターンの設計図」を描くことが重要なのです。

この「文脈設計」ができる人こそが、AI時代の業務改革リーダーであり、未来の経営幹部候補となるのです。

AIエージェントを作る「文脈設計」の作業は、実は「自社の強みの再定義」そのものです。

ベテラン社員がいなくなれば、その技術やノウハウは消えてしまいます。

しかし、彼らの「判断の文脈」をデータとして構造化し、AIに移植できれば、その知恵は永遠に会社の資産として残ります。

つまり、自社専用のAIエージェントを育てることは、単なる業務自動化ツールを作ることではありません。

「会社の文化やDNAをデジタル空間に継承させるプロジェクト」となるのです。

そう考えると、面倒なタグ付け作業も、意義深い仕事に思えてきませんか？

とりあえずあるデータを全部突っ込むのは、もうやめましょう。

それは、高級レストランのシェフ（AI）に、生ゴミを渡して「美味しい料理を作れ」と言っているようなものです。

まずは、あなたの手元にあるデータに「タグ」を付けるところから始めてみませんか？

そのひと手間で、あなたのエージェントは見違えるほど賢くなるはずです。