La qualité des données, en informatique se réfère à la conformité des données aux usages prévus, dans les modes opératoires, les processus, les prises de décision, et la planification (J.M. Juran).
De même, les données sont jugées de grande qualité si elles représentent correctement la réalité à laquelle elles se réfèrent.
Ces deux points de vue peuvent souvent entrer en contradiction, y compris lorsqu'un même ensemble de données est utilisé avec un objectif commun.
La plupart des technologies sur les données informatiques sont nées du désir d'envoyer des informations par courrier. Avant l'émergence de serveurs bon marché, les ordinateurs centraux étaient utilisés pour mettre à jour les données (noms, adresses, et autres attributs) afin que les courriers électroniques arrivent correctement à leur destination. Les mainframes utilisaient des règles métiers pour corriger les défauts dans les données (fautes sur les champs nom et date, défauts de structuration), ainsi que pour suivre les clients qui avaient changé d'adresse, disparu, fusionné, ou expérimenté d'autres événements.
Aux États-Unis, les agences de gouvernement commencèrent à mettre à disposition des données postales à quelques sociétés de service pour gérer les entreprises selon le registre de changement d'adresse national (NCOA). Cette technique a fait économiser à de grandes entreprises de grandes sommes d'argent (millions de dollars) en comparaison de la gestion manuelle des données client. Les grandes entreprises ont réduit leurs frais postaux, les factures et courriers atteignant leurs destinataires plus précisément. Vendue à l'origine comme un service, la qualité des données s'est intégrée au sein des organisations grâce à la disponibilité de technologies serveurs abordables.
Bien que la plupart des entreprises pensent au nom et à l'adresse quand elles se préoccupent de qualité des données, on reconnaît aujourd'hui que la qualité des données est la façon d'améliorer tous les types de données, comme les données sur la chaîne logistique, les données des progiciels de gestion intégrée, les données transactionnelles, etc. Par exemple, mettre en conformité les données de la chaîne d'approvisionnement à un certain standard a une valeur pour une organisation en :
Alors que les données sur les noms et adresses ont un standard clair avec les définitions des autorités postales, les autres types de données ont peu de standards reconnus. Il y a une tendance de fond aujourd'hui dans l'industrie pour standardiser certaines données qui ne sont pas des adresses. Le groupe GS1 fait partie des groupes qui sont fers de lance dans ce mouvement.
La qualité des données est très importante pour réaliser l'interopérabilité de systèmes complexes. En particulier, elle intervient dans les exigences de traçabilité, qui se manifestent dans plusieurs secteurs économiques :
Dans le même ordre d'idées, la qualité des données intervient aussi dans l'analyse du cycle de vie des produits.
La qualité des données revêt une grande importance également dans le Direct Marketing ou plus globalement la gestion de la relation client (en anglais Customer Relationship Management, CRM) où les données client représentent une source de valeur importante pour les entreprises.
Sous un angle plus directement lié à la sécurité des données, elle intervient dans la gestion des documents d'archive, pour l'imputabilité.
La qualité des informations est l'un des 11 facteurs du modèle d'intelligence économique (AFDIE).
D'après le rapport du CIGREF sur le capital immatériel, la fiabilité et l'audibilités des données conditionnent l'évaluation du capital immatériel des entreprises, et le calcul du retour sur investissement des projets d'ingénierie des connaissances. Il est donc nécessaire de disposer de référentiels de données normalisés pour évaluer la qualité des données.
On peut dire aussi que l'objectif poursuivi par la gestion de contenu de parvenir à une convergence des systèmes de gestion de contenu participe d'une démarche qualité dans le domaine des données.
Le modèle d'intelligence économique de l'AFDIE identifie six critères de qualité de l'information :
1. Coût et valeur de l'information :
2. Connaissances capitalisées et validées,
3. Mémoire vivante et accessible,
4. Informations et connaissances mieux partagées et protégées,
5. Informations écrites et orales indispensables avant la prise de décision,
6. Information prospective et historique.
Le système décisionnel a pour objet d’aider les décideurs à effectuer des choix pertinents à partir de données historiques. Ceci implique généralement de prendre en charge de grandes quantités de données disparates afin de les calibrer en information suffisamment précise et sûre pour qu’en confiance des actions puissent être définies et lancées. Ce défi classique pour les architectes de systèmes décisionnels est amplifié ces derniers temps par l’augmentation des exigences en matière de variété, de profondeur et de fraîcheur des données historiques à gérer. Dans ce contexte, la vitesse avec laquelle des données peuvent être « nettoyées », « transformées » et intégrées dans un entrepôt de données devient essentielle pour la compétitivité des entreprises.
La qualité d’une donnée dépend d’abord du contexte dans lequel elle a été initialement saisie, mais d’un point de vue décisionnel son intérêt dépend de l’usage qu’un utilisateur peut en faire. La qualité d’une donnée ne doit donc pas être appréciée dans l’absolu mais de façon relative à son intérêt métier. Les besoins métiers évoluant, l’appréciation de la qualité d’une donnée ne peut donc jamais être fixée de façon définitive. Les programmes d’amélioration de la qualité des données doivent être ciblés en fonction des intérêts métier, sinon il y a un fort risque de se créer une charge de travail digne de Sisyphe.
Le danger des données inexactes :
Alors que la qualité des données est le processus de maintenir la fiabilités et la cohérence des valeurs dans le système informatique. Dans nos jours la avec la propagation intense de numérique dans le monde, plus la quantité de données augmente. C'est une opportunité de choix pour qui sait s'en saisir, mais également c'est un risque majeur en cas de négligence. Donc la qualité de données est aujourd'hui une problématique majeure pour la société.
Il existe très peu de normes relatives spécifiquement à la qualité des données. On peut noter toutefois :
Des besoins existent aussi sur les informations contenues dans les ressources informatiques que les informaticiens appellent "non structurées". Des travaux sont en cours pour parvenir à des normalisations des données de référence qui sont utilisées dans ce type de ressources, notamment les ressources Web qui se généralisent et ont besoin de s'interfacer avec d'autres types de ressources informatiques.