人工知能(AI)は、永遠の昔から存在しているかのように思える流行語の一つです。しかしつい最近になり、ある変化がありました。かつては「注目すべきテクノロジー」であったAIがその約束を実際に果たしつつあるのです。

「現実世界」におけるAIの使用事例の増加は、あらゆるタイプの業界にAIテクノロジーが採用される転換点となる可能性があります。ただし、情報管理関連の大半の使用事例はいまだに、コンテンツの取り込みまたは取得プロセスの一部としての単純な分類、あるいは、より高度な学習ベースの光学文字認識(OCR)としての単純な分類に重点を置いています。

これらの使用事例が大きな価値をもたらすことは確かですが、私の意見では、組織内にすでに存在している(「デジタルゴミ処理場」の)大量のコンテンツやデータに対してAIを利用する絶好の機会を逃していると言わざるをえません。

ビッグデータとビッグコンテンツについては多くの人が耳にしているでしょう。また、様々なシステムやリポジトリ内に置かれている重要な情報を見つけること(干し草の山の中から針1本を探すような作業)の難しさを知らない人はいないでしょう。では、AIを使って「デジタルゴミ処理場」から有益なデータを探すことができたらどうでしょうか?有益な情報を検索して再利用し、さらには、保存しておく必要のないコンテンツを取り除くことができたらどうでしょうか?

嬉しいことに、これらすべては実際に行うことが可能であり、情報管理分野のAIにまつわる2019年の三大最新トレンドになるものと見込まれています。

メタデータのエンリッチ化

情報とはすべてのものを指し、私たちを取り巻くすべてのものが情報です。情報管理の視点から言えば、おそらく最も重要なタイプの情報は、情報に関する情報、すなわちメタデータでしょう。

コンテンツ(より具体的には文書)が最重要であった文書管理の時代、さらに今は昔のエンタープライズコンテンツ管理(ECM)の時代を思い返してください。保存される各文書は、請求書処理やクレーム管理などのプロセスの中心的役割を果たし、一連のメタデータ属性(モダンな名称はタグ)が関連付けられていました。通常、メタデータ属性に含められるのは、ファイル名、作成日、作成者、コンテンツタイプなどに限られており、メタデータスキーマ(保存される一連のメタデータ)はひとたび定義されると固定されたも同然でした。メタデータスキーマを変更するには、大量の開発作業に加え、そのメタデータに関連した全コンテンツの一括更新が必要となり、決して楽しいとは言えない状況でした。

しかし今日、事態は確実に変わっています。モダンなコンテンツサービスプラットフォームのメタデータスキーマは柔軟で拡張性に優れており、必要に応じて新しいメタデータフィールドを追加することも可能です。また、今までをはるかに上回る量のメタデータ(画像の解像度、文書の言語、地球物理データなど)が保存され、使用されるようになっています。

人工知能と情報

このようにメタデータを使って行えることが増え、メタデータを効果的に利用できるようになったことは、Nuxeoのようなモダンなコンテンツサービスプラットフォーム(CSP)が従来の文書管理ソリューションやECMソリューションに勝る紛れもない利点です。では、これらのレガシーソリューションに保存されているコンテンツはどうなるのでしょうか?

CSPに固有のもう一つの側面は、レガシーシステムからコンテンツに接続でき、コンテンツそのものは既存の場所(レガシーリポジトリ)に残したまま、そのコンテンツにCSPからアクセスできるようにすることです。また、レガシーコンテンツがCSPからのモダンなメタデータスキーマを利用することも可能にします。これによりユーザは、レガシーシステムにまったく変更を加えずに、メタデータプロパティとデータをレガシーコンテンツに追加できるようになります。この機能は極めて強力であり、AIと組み合わせることで、このプロセスが自動化されるときに特に強力となります。

次のようなシナリオを考えてみてください。顧客文書を含んだレガシーのECMリポジトリがあるとします。社員の意図とは裏腹に、これらの契約書は最適に管理されておらず、文書に関連付けられたメタデータ属性のうち目的に適っているものは、顧客参照番号だけです。CSPを使用してこのコンテンツをAIエンリッチメントエンジンにかけると、現在保存されているすべてのファイルに追加のメタデータ属性を付記することによって、追加のコンテキスト、インテリジェンス、インサイトを情報管理エコシステムに即座に導入することができます。

AIエンジンは次のものを識別できます。

  • 各文書のタイプ(契約書、通信文書、請求書など)
  • 個人情報を含んだ文書(識別された場合は、プライバシーポリシーまたは規制に従って追加のセキュリティコントロールおよび規定が自動的に発動されます)
  • 保存ポリシーに従って削除する必要のある文書
  • その他

重要なコンテンツの識別

メタデータのエンリッチ化に欠かせない要素は、コンテンツを「見分ける」能力です。

この能力は、文書がプレゼンテーション、パンフレット、契約書、請求書のいずれであるかを単に識別することなど、様々な用途に応用されます。この機能、つまり、他の状況と関連性のある情報やコンテンツを特定して共有する機能は、知識管理の重要な側面の一つです。たとえば、ヘルプデスクに寄せられたテクニカルサポートの質問に既存のソリューションを提供すること、特定の顧客と関連性のあるすべての契約書を提供することなども、この機能に当てはまります。コンテンツに関する質の高いメタデータがなければ、これを行うことは不可能です。

それよりも重要なこととして、様々な種類の文書や記録を特定の期間保存することを義務付けるコンプライアンス規制は、どの業界にもあります(「保存ポリシーまたは保存ルール」と呼ばれます)。コンテンツのタイプを判断できなければ、いったいどのようにしてコンテンツに保存ポリシーを適用できるのでしょうか?以前はこれを2通りの方法で行っていました。一つは「手動で行う」、もう一つは「何も行わない」です。手動アプローチは退屈で、そのうえ間違いが起こりやすく、大量の時間を要するため、多くの組織が「念のためすべて保存しておく」アプローチをとる原因となりました。

一方、AI駆動エンジンを使用して、レガシーシステムに保存されているコンテンツを分類すると、これをかなり簡単に行えるようになります。

AIと情報管理

シンプルなAIツールでさえも、契約書と履歴書を区別することができ、高度なエンジンにいたっては、組織に特有のコンテンツに基づいてAIモデルを構築することが可能です。たとえば、個人向け生命保険文書と終身年金文書を区別する必要がある場合は、このことを教え込んだ専用のAIモデルを使用して、一般的な分類機能では到底実行できない極めて厳密な分類を行うことができます。

CSPを使用して、レガシーシステムに保存されている大量のコンテンツにこの機能を適用すると、多大なメリットが組織にもたらされ、主要な情報資産と負債の両方の可視性を高めることが可能となります。

不要なコンテンツを捨てる

前述の「念のためすべて保存しておく」アプローチは、「デジタルゴミ処理場」の問題をさらに悪化させただけでなく、本来ならば破棄できていた(破棄すべきであった)大量の情報がそのまま残される原因にもなりました。これらのコンテンツを永久に保存するためにかかるコストに加え、必要以上に長く情報を保存することによる法律上の重大な問題もあります。

記録の管理に特化した業界もありますが(その詳細についてはここでは触れません)、AIを利用することでこの問題を大幅に緩和することができます。

記録を管理すること、あるいは単に保存ポリシーを適用することに伴う課題の一つは、管理する必要のあるコンテンツの量が膨大であることです。この問題に対処する唯一の方法は、かつて文書ごとに処理することでした。

ROTコンテンツ

ここで重要なのは、記録を間違って宣言する(または宣言しない)と法律上の問題になるため、人手による対話操作(またはチェックポイント)をこのプロセスの一部に含めたいと考えている組織が依然として多いことです。

ここで役に立つのがAIです。AIのコンテンツ分類機能をCSPとともに使用すると、記録でないものをすばやく容易に、かつ大規模に特定することが可能となります。多くの調査結果が示すとおり、保存されているコンテンツの大半がROT(重複し旧版で重要でない)です。これら大量のROTコンテンツを取り除くことにより、保存ポリシーを適用すべきコンテンツを特定する作業がはるかに簡単になります。また、残りのコンテンツに対してAIを利用して、コンテンツのタイプをより詳細に識別し、それを保存ルールと照合して、関係する社員に対する提案を行うこともできます。これにより、記録(保存ルールに照らして保存する必要のあるあらゆるもの)を特定、宣言、管理するプロセス全体がシンプルになり、拡張性が大幅に高まります。また、古いコンテンツを保存する必要がなくなるため、コストパフォーマンスも飛躍的に高まります。

ゴミを分別する作業がいかにやりがいのある作業であるかを皆さんも実感すること間違いなしです。