Datareductie

Datareductie of gegevensverwerking is de aanpassing van cijfers of teksten en andere digitale data en informatie naar een gecorrigeerde, geordende en vereenvoudigde vorm. Het basisconcept is het reduceren van grote hoeveelheden data tot de betekenisvolle delen door het onderdrukken van ruis (toevallige, willekeurige variaties) en uitbijters (duidelijk afwijkende en niet verklaarbare waarnemingen) en het samenvatten van redundantie (trends en grote lijnen).

Als informatie wordt afgeleid van instrumentaflezingen, kan er ook een transformatie van analoge naar digitale vorm zijn. Zijn de gegevens al in digitale vorm, dan heeft de 'reductie' van de gegevens meestal betrekking op het bewerken, schalen, coderen, sorteren, vergelijken en produceren van samenvattingen in tabelvorm. Als de waarnemingen discreet zijn, maar het onderliggende fenomeen continu is, zijn afvlakking en interpolatie vaak nodig. Veelal wordt de datareductie uitgevoerd in de aanwezigheid van lees- of meetfouten. Er is een idee van de aard van deze fouten nodig voordat de meest waarschijnlijke waarde kan worden bepaald.

Een voorbeeld in de astronomie is de datareductie in de Kepler-satelliet. Deze satelliet maakt eens in de zes seconden een 95-megapixel foto en genereert tientallen megabytes aan gegevens per seconde, wat een orde van grootte is die hoger is dan de downlink-bandbreedte van 4400 kbit/s. De ingebouwde datareductie omvat de toevoeging van de onbewerkte frames gedurende dertig minuten, waardoor de bandbreedte met een factor 300 wordt verminderd. Bovendien worden interessante doelen vooraf geselecteerd en worden alleen de relevante pixels verwerkt, wat 6% van het totaal is. Deze gereduceerde gegevens worden vervolgens naar de aarde verzonden, waar ze verder worden verwerkt.

Er is ook onderzoek gedaan naar de toepassing van datareductie in draagbare (draadloze) apparaten voor gezondheidsmonitoring en diagnosetoepassingen. In de context van de diagnose van epilepsie bijvoorbeeld, is gegevensreductie gebruikt om de levensduur van de batterij van een draagbaar EEG-apparaat te verhogen door EEG-gegevens te selecteren die alleen relevant zijn voor de diagnose en de achtergrondactiviteit (ruis) te negeren.[1]

Veelgebruikte technieken om gegevens te reduceren, zijn:

  • Een korte verbale samenvatting.[2]
  • Sorteren of rangschikken volgens een bepaald aspect.
  • Tabeldiagonalisatie, waarbij rijen en kolommen met tabellen opnieuw worden gerangschikt om patronen gemakkelijker zichtbaar te maken.
  • Drastisch afronden op een of maximaal twee effectieve cijfers.
  • Gebruik van gemiddelde waarden om een visuele focus te geven, evenals een samenvatting.
  • Gebruik van lay-out en etikettering om het oog te begeleiden.
  • Verwijderen van kaartvervuiling, zoals afbeeldingen en lijnen.
  • Ordinatie, (multivariate) 'gradiëntanalyse' of 'multidimensional scaling', rangschikken volgens in de data aanwezige onderliggende variabelen en volgens externe verklarende variabelen, waarbij redundantie wordt samengevat, ruis wordt onderdrukt en uitbijters worden opgespoord. Eventueel wordt de belangrijkste informatie visueel weergegeven in ordinogrammen.
  • Clusteranalyse, het classificeren of het groeperen in clusters of klassen van objecten op grond van hun kenmerken, eventueel visuele weergave daarvan in dendrogrammen.