DBSCAN (Density-Based Spatial Clustering of Applications with Noise, etwa: Dichtebasierte räumliche Clusteranalyse mit Rauschen) ist ein von Martin Ester, Hans-Peter Kriegel, Jörg Sander und Xiaowei Xu entwickelter Data-Mining-Algorithmus zur Clusteranalyse. Er ist einer der meistzitierten[1] Algorithmen in diesem Bereich. Der Algorithmus arbeitet dichtebasiert und ist in der Lage, mehrere Cluster zu erkennen. Rauschpunkte werden dabei ignoriert und separat zurückgeliefert.
Die Grundidee des Algorithmus ist der Begriff der Dichteverbundenheit. Zwei Objekte gelten als dichte-verbunden, wenn es eine Kette von dichten Objekten (Kernobjekte, mit mehr als Nachbarn) gibt, die diese Punkte miteinander verbinden. Die durch dieselben Kernobjekte miteinander verbundenen Objekte bilden einen Cluster. Objekte, die nicht Teil eines dichte-verbundenen Clusters sind, werden als Rauschen (engl. Noise) bezeichnet.
In DBSCAN gibt es drei Arten von Punkten:
Der Algorithmus hat zwei Parameter und .
Dichte-erreichbare Punkte können von mehr als einem Cluster dichte-erreichbar sein. Diese Punkte werden von dem Algorithmus nicht-deterministisch einem der möglichen Cluster zugeordnet. Dies impliziert auch, dass Dichteverbundenheit nicht transitiv ist; Dichte-Erreichbarkeit ist nicht symmetrisch.
DBSCAN ist exakt in Bezug auf die Definition von dichte-verbunden und Noise. Das bedeutet, zwei dichte-verbundene Objekte sind garantiert im selben Cluster, während Rauschobjekte sicher in Noise sind. Nicht exakt ist der Algorithmus bei nur dichte-erreichbaren Objekten, diese werden nur einem Cluster zugeordnet, nicht allen möglichen.
Im Gegensatz beispielsweise zum K-Means-Algorithmus, muss nicht im vornherein bekannt sein, wie viele Cluster existieren.
Der Algorithmus kann Cluster beliebiger Form (z. B. nicht nur kugelförmige) erkennen.
DBSCAN ist weitgehend deterministisch und reihenfolgeunabhängig: Unabhängig davon, in welcher Reihenfolge Objekte in der Datenbank abgelegt oder verarbeitet werden, entstehen dieselben Cluster (mit der Ausnahme der nur dichte-erreichbaren Nicht-Kern-Objekte und der Cluster-Nummerierung).
Der Algorithmus kann mit beliebigen Distanzfunktionen und Ähnlichkeitsmaßen verwendet werden. Im Gegensatz zum K-Means-Algorithmus ist kein geometrischer Raum notwendig, da kein Mittelpunkt berechnet werden muss.
DBSCAN selbst ist von linearer Komplexität. Jedes Objekt wird im Wesentlichen nur einmal besucht. Jedoch ist die Berechnung der -Nachbarschaft im Regelfall nicht in konstanter Zeit möglich (ohne entsprechende Vorberechnungen). Ohne die Verwendung von vorberechneten Daten oder einer geeigneten Indexstruktur ist der Algorithmus also von quadratischer Komplexität.
Die Originalfassung von DBSCAN[2] kann durch folgenden Pseudocode beschrieben werden:
DBSCAN(D, eps, MinPts) C = 0 for each unvisited point P in dataset D mark P as visited N = D.regionQuery(P, eps) if sizeof(N) < MinPts mark P as NOISE else C = next cluster expandCluster(P, N, C, eps, MinPts)
expandCluster(P, N, C, eps, MinPts) add P to cluster C for each point P' in N if P' is not visited mark P' as visited N' = D.regionQuery(P', eps) if sizeof(N') >= MinPts N = N joined with N' if P' is not yet member of any cluster add P' to cluster C unmark P' as NOISE if necessary
regionQuery(P, eps) return all points within P's eps-neighborhood (including P)
Alternativ könnte DBSCAN auch rekursiv implementiert werden (statt des join von erfolgt ein rekursiver Aufruf), dies bietet aber keine nennenswerten Vorteile.
Die rekursive Implementierung zeigt anschaulicher, wie DBSCAN arbeitet. Da die Rekursionstiefe aber sehr hoch werden kann, ist die mengenbasierte normale Formulierung als Implementierung vorzuziehen.
DBSCAN(D, eps, MinPts) C = 0 for each unvisited point P in dataset D mark P as visited N = getNeighbors(P, eps) if sizeof(N) < MinPts mark P as NOISE else C = next cluster add P to cluster C for P' in N if P' is not yet member of any cluster recursiveExpandCluster(P', C, eps, MinPts)
recursiveExpandCluster(P, C, eps, MinPts) add P to cluster C if P is not visited mark P as visited N = getNeighbors(P, eps) if sizeof(N) >= MinPts for P' in N if P' is not yet member of any cluster recursiveExpandCluster(P', C, eps, MinPts)
Die generalisierte Version von DBSCAN, GDBSCAN[3][4] abstrahiert hier von der -Nachbarschaft und dem -Dichtekriterium. Diese werden ersetzt durch ein Prädikat getNeighbors und einem Prädikat isCorePoint.
GDBSCAN(D, getNeighbors, isCorePoint) C = 0 for each unvisited point P in dataset D mark P as visited N = getNeighbors(P) if isCorePoint(P, N) C = next cluster expandCluster(P, N, C) else mark P as NOISE
expandCluster(P, N, C) add P to cluster C for each point P' in N if P' is not visited mark P' as visited N' = getNeighbors(P') if isCorePoint(P', N') N = N joined with N' if P' is not yet member of any cluster add P' to cluster C
Verwendet man eine -Bereichsanfrage als getNeighbors und den -Test als isCorePoint-Prädikat, so erhält man offensichtlich den ursprünglichen DBSCAN-Algorithmus.
Auf diesem Algorithmus basieren unter anderem
Der Algorithmus DBSCAN ist enthalten in