DBSCAN (ingliskeelsest Density Based Spatial Clustering of Applications with Noise) on tiheduspõhine klasterdusalgoritm, mille lõid Martin Ester, Hans-Peter Kriegel, Jörg Sander ja Xiaowei Xu aastal 1996.[1]
Algoritm jaotab andmepunktid tiheduse põhjal klastritesse, paigutades piisavalt tihedalt paiknevad andmepunktid samasse klastrisse, samas kui hõredalt paiknevaid punkte loetakse müraks. DBSCAN on üks teadusartiklites enim viidatud klasterdusalgoritme.[2]
2014. aastal sai algoritm KDD andmekaevekonverentsil SIGKDD auhinna "Test of Time".[3]
DBSCAN jagab andmepunktid kolme klassi: tuumpunktid (core points), kättesaadavad punktid (reachable points) ja müra (noise).
Punkt on tuumpunkt, kui vähemalt punkti (sealhulgas punkt ise) on sellest kaugusel või lähemal, kus on punkti naabruspiirkonna raadius. Neid punkte loetakse otseselt kättesaadavaks punkti kaudu.
Punkt on otseselt kättesaadav punkti kaudu, kui punkt asub punkti naabruspiirkonnas ja punkt on tuumpunkt.
Punkt on kättesaadav punkti kaudu, kui leidub ahel , kus ja ning punkt on otseselt kättesaadav punkti kaudu. Seega kõik punktid ahelas (erandiks võib olla ) on tuumpunktid.
Punktid, mis ei ole kättesaadavad ühegi teise punkti kaudu, loetakse müraks.
Kui on tuumpunkt, moodustab see klastri koos kõigi teiste punktidega, mis on kaudu kättesaadavad (olenemata sellest, kas need on tuumpunktid või mitte).[1]
Järgnev pseudokood kirjeldab originaalset DBSCAN-i implementatsiooni.[4]
DBSCAN(DB, dist, eps, minPts) {
C = 0 /* Klastriloendur */for each point P in database DB {
if label(P) ≠ undefined thencontinue/* Varem töödeldud sisemises tsüklis */
Neighbors N = RangeQuery(DB, dist, P, eps) /* Leia naaberpunktid */if |N| < minPts then { /* Tiheduskontroll */
label(P) = Noise /* Märgenda müraks */continue
}
C = C + 1 /* Järgmine klastri märgend */
label(P) = C /* Märgenda esialgne punkt */
Seed set S = N \ {P} /* Naabrite hulk, mida töödelda */for each point Q in S { /* Töötle igat naabrit*/if label(Q) = Noise then label(Q) = C /* Märgenda mürapunkt klastri äärepunktiks (mitte tuumpunktiks) */if label(Q) ≠ undefined thencontinue/* Varem töödeldud */
label(Q) = C /* Märgenda naaber */
Neighbors N = RangeQuery(DB, dist, Q, eps) /* Leia naaberpunktid */if |N| ≥ minPts then { /* Tiheduskontroll */
S = S ∪ N /* Lisa uued naaberpunktid naabrite hulka, mida töödelda */
}
}
}
}
DBSCAN külastab igat andmepunkti vähemalt korra, sõltuvalt sellest, mitmesse klastrisse seda punkti üritatakse sobitada. Samas on naaberpunktide pärimine teatud raadiuse piires, mida tehakse ainult ühe korra iga punkti jaoks, veelgi aeganõudvam operatsioon. Naaberpunktide pärimise kiirus sõltub sellest, kas punktid on indekseeritud. Juhul kui on, võib naaberpunktide päringu keerukus olla ning kogu algoritmi keerukus . Ilma mõne kiirendava indeksi struktuurita või muu optimeeritud päringuta oleks DBSCAN-i halvima juhu ajaline keerukus . Selle kiirendamiseks võib luua punktidevaheliste kauguste maatriksi suurusega (ruumilise keerukusega ), et vähendada kauguste arvutusi, kuid maatriksita lahenduse ruumiline keerukus oleks .
DBSCAN ei ole täiesti deterministlik klastri äärepunktide suhtes, mille märgend võib sõltuda punktide töötlusjärjekorrast. Tuumpuntkid ja mürapunktid on seevastu alati deterministlikult märgendatud.
DBSCAN klasterdab andmeid tiheduse ( ja kombinatsiooni) põhjal. Kui andmepunktide tihedused on märgatavalt erinevas suurusjärgus, langeb klasterdamise kvaliteet. Klasterduse kvaliteet langeb oluliselt andmetel, kus andmepunktide tihedused on märgatavalt erinevad.
↑ 1,01,1Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei (1996). Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M. (toim-d). A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. Lk 226–231. CiteSeerX10.1.1.121.9220. ISBN1-57735-004-9.
↑"Archived copy". Originaali arhiivikoopia seisuga 21.04.2010. Vaadatud 7.03.2018.{{cite web}}: CS1 hooldus: arhiivikoopia kasutusel pealkirjana (link) Most cited data mining articles according to Microsoft academic search; DBSCAN is on rank 24.