Datamatching

In de informatica is datamatching een procedure om twee sets data met elkaar te vergelijken. De procedure voert dan een sequentiële analyse uit van elk individueel deel van de data, en koppelt dit aan een individueel deel van de andere dataset. Datamatching kan plaatsvinden om dubbele inhoud te verwijderen of voor verschillende soorten datamining. Een speciale zaak van datamatching is duplicaatdetectie. Vele pogingen van datamatching worden gedaan met het oog op het identificeren van een belangrijke schakel tussen de twee datasets voor onder andere marketing en veiligheid.

  1. Data pre-processing: De eerste stap is het proces van data pre-processing, waarin de gegevens van beide bronnen dezelfde indeling hebben. Het doel van deze stap is dat de eigenschappen die gebruikt worden voor de matching dezelfde inhoud en structuur hebben.
  2. Indexing: De tweede stap is zorgen voor een index. Dit wil de kwadratische complexiteit van de gegevens verminderen, door het gebruik van data te structuren.
  3. Record pair comparison: De derde stap is waar de werkelijke paarvergelijking gebeurt.
  4. Classification: Classificatie is dan de vierde stap, hier worden de paren geclassificeerd in een van de drie mogelijke groepen: matches, non-matches of potential matches. Alle paren worden geclassificeerd binnen potential matches, dan is er een handmatige administratieve beoordeling nodig.
  5. Evaluation: In de laatste stap wordt de kwaliteit en de volledigheid van de aangepaste data geëvalueerd.

In het algemeen houdt dit in dat data matching grote hoeveelheden gegevens aan mensen aanbiedt om nauwkeurige zoekopdrachten te verrichten die meer efficiënte resultaten opleveren. Sommigen beweren dat de gegevens kunnen worden gebruikt op een manier die een bedreiging zou kunnen vormen voor de persoonlijke levenssfeer omdat het gebruik van de datasets niet expliciet of waterdicht is. Want met gebruik van data matching wordt vaak beroep gedaan op persoonlijke informatie, zoals namen, adressen en geboortedatums van mensen. Er moet dus zorgvuldig worden gewerkt met privacy en vertrouwen. Data matching is een van de problemen die wordt toegevoegd aan het debat over de persoonlijke privacy, omdat er dus gemakkelijk inbreuk kan worden gepleegd.