データ品質(英: Data quality)は、データの品質である。データが高品質であるとは「オペレーション、意思決定、計画などの目的に適っていること」を指す(J.M. Juran)。これとは別に、実世界の対応実体を正しく表しているデータを高品質とする見方もある。これら2つの見方は、同じ目的の同じデータに対しても必ずしも一致しない。
低価格のサーバが普及する以前、データの管理はメインフレームで行われていた。例えば、顧客の名前と住所のデータは、誤字脱字の修正、引越し・死亡・服役・結婚・離婚といった人生の大きな出来事に関わる修正について、規則が設定され実施されていた。しかし、当然ながらこれは顧客の申告がないと修正不可能であり、顧客は必ずしも申告する必要性を感じないことが多い。アメリカでは、USPSの National Change of Address registry (NCOA) と一部サービス企業の顧客データベースの相互参照が行われた。これにより、大企業ではダイレクトメールによるマーケティングは意図した顧客に正確に届くようになり、コストである送料を節約できるようになった。このようにデータ品質は当初はサービスとして販売されたが、低価格で強力なサーバ技術が利用可能になるに連れて、企業内部の問題となっていった。
マーケティングが重要視される企業では名前と住所といった個人情報の品質強化に努力するが、データ品質は一般にあらゆる種類のデータについて重要な属性であると認識されている。データ品質の原則は、サプライチェーンデータ、トランザクションデータなど企業内のほとんどあらゆる種類のデータに適用できる。例えば、サプライチェーンデータを特定の標準に準拠させることは、企業にとって次のような価値がある。
名前と住所は郵便という面からは書式が国によって標準化されているが、データの種類によってはそのような一般的標準が存在しないことが多い。そのようなデータについても標準化を行おうとする動きがある。非営利組織 GS1 はそのような動きを先導している。
調査を重視する企業では、データ品質という用語には、調査手法の手順開発、測定誤差の低減、データの限界値チェック、クロス集計、モデリングと外れ値の検出、データ完全性の検証などといった概念も含まれる。
データ品質に関する理論的フレームワークはいくつか存在する。あるフレームワークは、製品の観点(仕様遵守性)とサービスの観点(顧客満足)を統合しようとする[4]。別のフレームワークは、記号学的にデータの形式・意味・利用法の品質を評価することを基本とする[5]。高度に理論的な手法として、情報システムの存在論的性質を分析することでデータ品質を厳密に定義しようとするものもある[6]。
データ品質に関する研究の多くは、データの属性(や次元)に適した分類を調査し設定することに関わっている。それは例えば、正確度、正当性、現在性、完全性、妥当性などである。約200ものそのような用語があるが、それらの性質(および、それらの概念は目標なのか基準なのか)、定義、尺度については合意が形成されているとは言い難い[7]。ソフトウェア技術者にとってはソフトウェア品質にまつわる様々な「○○性」という言葉の問題に似ていると言えば、理解しやすいかもしれない。
マサチューセッツ工科大学では Richard Wang を代表とする Total Data Quality Management プログラムがあり、多数の論文を発表し、この分野の国際会議を多数主催している。
実際、データ品質は各種情報システムに関わる専門家が考慮すべき事項であり、それにはデータウェアハウス、顧客関係管理のビジネスインテリジェンス、サプライチェーン・マネジメントなどが含まれる。ある研究によると、アメリカでのデータ品質問題に関わるコストは毎年6000億ドル以上であるという評価をした[8]。実際、近年では企業内のデータ品質問題を専門に扱うデータガバナンスチームを立ち上げる企業が出始めている。企業によってはコンプライアンスを扱う部門がデータガバナンスの機能も持つことがあり、データ/情報品質の重要性が浸透しつつある。
データ品質の問題は、単にデータが間違っている場合だけではない。相互に矛盾したデータも同様に問題を生じる。部門個別のシステムを排し、データを集中管理することで、企業内のデータの一貫性を保つ第一歩となる。
市場ではデータ品質保証を提供する製品やサービスが登場しつつある。様々なベンダーからデータ品質を分析して高めるよう修正を施すツールが販売され、サービスプロバイダが契約に基づくデータクレンジングサービスを行い、コンサルタントがデータ品質悪化の原因を取り除くための助言を行っている。データ品質ツールは、以下のような一連のツールから成る。
2004年、International Association for Information and Data Quality (IAIDQ) が創設された。