Objavovanie znalostí v databázach

Objavovanie znalostí v databázach (iné názvy: objavovanie poznatkov/vedomostí v databázach, získavanie znalostí/poznatkov/vedomostí z databáz/v databázach; angl. Knowledge Discovery in Databases, z toho skr. KDD) je data mining a súvisiace prípravné a vyhodnocovacie procesy.

Výška údajov zozbieraných v databázach dnes ďaleko presahuje naše schopnosti znižovať a analyzovať dáta bez používania automatických techník analýzy. Získavanie vedomostí je definované ako netriviálna extrakcia implicitných, neznámych a potenciálne užitočných informácií.

KDD je rýchlo sa rozvíjajúca oblasť. Predpokladá sa, že komerčné databázové systémy budú v budúcnosti obsahovať KDD schopnosti v podobe inteligentných databázových rozhraní.

Techniky KDD

[upraviť | upraviť zdroj]

Existuje veľa rôznych prístupov. Existujú kvantitatívne prístupy - napríklad pravdepodobnostné a štatistické prístupy. Existujú prístupy, ktoré využívajú zobrazovacie metódy. Taktiež poznáme aj klasifikačné prístupy, ako sú Bayesovské klasifikácie. Ostatné prístupy zahŕňajú odchýlky, genetické algoritmy, neurónové siete a hybridné prístupy, ktoré kombinujú dve alebo viac techník.

Je sporné, ako by konkrétne techniky mali byť klasifikované. Napríklad: bayesovský prístup môže byť logicky zoskupený s pravdepodobnostnými prístupmi.

Štatistický prístup

[upraviť | upraviť zdroj]

Štatistický prístup používa pravidlo objavovania a vychádza z údajov a rôznych vzťahov. Online Analytical Processing (OLAP) je príkladom na štatisticky-orientovaného prístupu. Automatizované štatistické nástroje sú k dispozícii aj vo verejnej sfére.

Príkladom štatistického prístupu je určenie, že všetky transakcie predaja v databáze, ktoré začínajú s uvedením kódu, sú peňažné transakcie predaja.

Klasifikácia

[upraviť | upraviť zdroj]

Klasifikácia je pravdepodobne najstaršia a najbežnejšie používaná metóda pre všetky prístupy KDD. Existuje veľa typov klasifikačných techník a veľa automatizovaných nástrojov, ktoré sú k dispozícii.