データ品質

データ品質: Data quality)は、データ品質である。データが高品質であるとは「オペレーション意思決定、計画などの目的に適っていること」を指す(J.M. Juran)。これとは別に、実世界の対応実体を正しく表しているデータを高品質とする見方もある。これら2つの見方は、同じ目的の同じデータに対しても必ずしも一致しない。

定義

[編集]
  1. データ品質とは、データが実際の現象をどれだけうまく表しているかの尺度である[1]
  2. データを特定の用途に適したものとする完全性、妥当性、一貫性、適時性、正確性[2]
  3. 特定用途を満たす能力に影響するデータの機能と特徴の総体。データと関連した要因の優秀さの尺度の総計[3]

歴史

[編集]

低価格のサーバが普及する以前、データの管理はメインフレームで行われていた。例えば、顧客の名前と住所のデータは、誤字脱字の修正、引越し・死亡・服役・結婚・離婚といった人生の大きな出来事に関わる修正について、規則が設定され実施されていた。しかし、当然ながらこれは顧客の申告がないと修正不可能であり、顧客は必ずしも申告する必要性を感じないことが多い。アメリカでは、USPSの National Change of Address registry (NCOA) と一部サービス企業の顧客データベースの相互参照が行われた。これにより、大企業ではダイレクトメールによるマーケティングは意図した顧客に正確に届くようになり、コストである送料を節約できるようになった。このようにデータ品質は当初はサービスとして販売されたが、低価格で強力なサーバ技術が利用可能になるに連れて、企業内部の問題となっていった。

マーケティングが重要視される企業では名前と住所といった個人情報の品質強化に努力するが、データ品質は一般にあらゆる種類のデータについて重要な属性であると認識されている。データ品質の原則は、サプライチェーンデータ、トランザクションデータなど企業内のほとんどあらゆる種類のデータに適用できる。例えば、サプライチェーンデータを特定の標準に準拠させることは、企業にとって次のような価値がある。

  1. 類似製品だが微妙に異なる製品の過剰在庫を避ける。
  2. ベンダー毎の大量購入時の割引率を適正化する。
  3. 大きな組織の各部門からの注文をまとめて発送することで輸送コストを下げる。

名前と住所は郵便という面からは書式が国によって標準化されているが、データの種類によってはそのような一般的標準が存在しないことが多い。そのようなデータについても標準化を行おうとする動きがある。非営利組織 GS1 はそのような動きを先導している。

調査を重視する企業では、データ品質という用語には、調査手法の手順開発、測定誤差の低減、データの限界値チェック、クロス集計、モデリングと外れ値の検出、データ完全性の検証などといった概念も含まれる。

概要

[編集]

データ品質に関する理論的フレームワークはいくつか存在する。あるフレームワークは、製品の観点(仕様遵守性)とサービスの観点(顧客満足)を統合しようとする[4]。別のフレームワークは、記号学的にデータの形式・意味・利用法の品質を評価することを基本とする[5]。高度に理論的な手法として、情報システム存在論的性質を分析することでデータ品質を厳密に定義しようとするものもある[6]

データ品質に関する研究の多くは、データの属性(や次元)に適した分類を調査し設定することに関わっている。それは例えば、正確度、正当性、現在性、完全性、妥当性などである。約200ものそのような用語があるが、それらの性質(および、それらの概念は目標なのか基準なのか)、定義、尺度については合意が形成されているとは言い難い[7]。ソフトウェア技術者にとってはソフトウェア品質にまつわる様々な「○○性」という言葉の問題に似ていると言えば、理解しやすいかもしれない。

マサチューセッツ工科大学では Richard Wang を代表とする Total Data Quality Management プログラムがあり、多数の論文を発表し、この分野の国際会議を多数主催している。

実際、データ品質は各種情報システムに関わる専門家が考慮すべき事項であり、それにはデータウェアハウス顧客関係管理ビジネスインテリジェンスサプライチェーン・マネジメントなどが含まれる。ある研究によると、アメリカでのデータ品質問題に関わるコストは毎年6000億ドル以上であるという評価をした[8]。実際、近年では企業内のデータ品質問題を専門に扱うデータガバナンスチームを立ち上げる企業が出始めている。企業によってはコンプライアンスを扱う部門がデータガバナンスの機能も持つことがあり、データ/情報品質の重要性が浸透しつつある。

データ品質の問題は、単にデータが間違っている場合だけではない。相互に矛盾したデータも同様に問題を生じる。部門個別のシステムを排し、データを集中管理することで、企業内のデータの一貫性を保つ第一歩となる。

市場ではデータ品質保証を提供する製品やサービスが登場しつつある。様々なベンダーからデータ品質を分析して高めるよう修正を施すツールが販売され、サービスプロバイダが契約に基づくデータクレンジングサービスを行い、コンサルタントがデータ品質悪化の原因を取り除くための助言を行っている。データ品質ツールは、以下のような一連のツールから成る。

データプロファイリング
品質上の問題を認識するため、最初にデータを分析するツール
データ標準化
データが品質規則にしたがっていることを保証するビジネスルールエンジン
ジオコーディング
名前と住所のデータについてのツール。それらのデータを郵便の宛名の標準に従った形式に修正する。住所から地図上の位置情報に変換するツールを指すこともある。
マッチングツールとリンクツール
微妙に異なるデータをマッチングさせ、修正して同じにする。ファジー論理を使って、データ内の表記の揺れを正し、重複データを探し出す。例えば、英語では "Bob" と "Robert" は同じと判断される。例えば、2人の顧客が夫婦であることが判明したとき、その住所が微妙に異なるならリンクを生成する。また、複数のデータリソースからのデータのうち、最も詳しいものを最良のデータとして記録できる。
監視ツール
データ品質を監視し続け、現在のデータ品質を報告するツール。既定のビジネスルールに従って、表記の揺れを自動訂正することもできる。
バッチ方式とリアルタイム方式
データは最初に全体がクレンジングされる(バッチ方式)。企業はデータ品質が高いことを前提としてシステムを構築したがる傾向があり、その場合は上述の監視ツールなどを使ってデータ品質が高いままとなるようにする。

2004年、International Association for Information and Data Quality (IAIDQ) が創設された。

関連項目

[編集]

脚注

[編集]
  1. ^ GIS Glossary
  2. ^ Government of British Columbia
  3. ^ Glossary of Quality Assurance Terms
  4. ^ Kahn, B., Strong, D., Wang, R. (2002) "Information Quality Benchmarks: Product and Service Performance," Communications of the ACM, April 2002. pp. 184-192. Article
  5. ^ Price, R. and Shanks, G. (2004) "A Semiotic Information Quality Framework", Proc. IFIP International Conference on Decision Support Systems (DSS2004): Decision Support in an Uncertain and Complex World, Prato. Article
  6. ^ Wand, Y. and Wang, R. (1996) “Anchoring Data Quality Dimensions in Ontological Foundations,” Communications of the ACM, November 1996. pp. 86-95. Article
  7. ^ Wang, R., Kon, H. & Madnick, S. (1993), "Data Quality Requirements Analysis and Modelling", Ninth International Conference of Data Engineering, Vienna, Austria.
  8. ^ Eckerson, W. (2002) "Data Warehousing Special Report: Data quality and the bottom line", Article

参考文献

[編集]
  • Redman, T. C. (2004) Data: An Unfolding Quality Disaster Article
  • Fournel Michel, "Accroitre la qualité et la valeur des données de vos clients", éditions Publibook, 2007. ISBN 978-2748338478.

外部リンク

[編集]