Die Formale Begriffsanalyse (kurz FBA) (englisch Formal Concept Analysis, kurz FCA) ist eine mathematische Theorie. Sie liefert eine Methodik, um Zusammenhänge in gegebenen Datenmengen zu erkennen. Typisch dafür sind hierarchische Beziehungen zwischen Begriffen. Die Formale Begriffsanalyse kann als angewandte Ordnungs- und Verbandstheorie verstanden werden.[1]
Die formale Begriffsanalyse findet praktische Anwendung z. B. in Data- und Text Mining, Wissensmanagement, Semantic Web, Software Engineering, Wirtschaft und Bioinformatik.[2]
Die Formale Begriffsanalyse untersucht Zusammenhänge in Datensammlungen und macht Strukturen in den Daten deutlich. Dabei werden Gegenstände (z. B. beschrieben durch Datensätze) aufgrund gemeinsamer Merkmale zu Gruppen zusammengefasst. Innerhalb solcher Gruppen wird dann aufgrund weiterer Merkmale weiter unterteilt. Daraus ergibt sich eine hierarchische Struktur, die in Form eines netzartigen Ordnungsdiagramms veranschaulicht werden kann. Ziel ist eine mathematisch fundierte Methodik, die dem begrifflichen Denken des Menschen entgegenkommt.
Jede durch gemeinsame Merkmale bestimmte Menge von Gegenständen wird als ein Begriffsumfang gedeutet, die zugehörige Menge aller gemeinsamen Merkmale als Begriffsinhalt. Beide Teile zusammen, also jeweils ein Umfang und der zugehörige Inhalt, bilden einen formalen Begriff, wobei der Zusatz „formal“ darauf hinweist, dass es sich um eine mathematische Konstruktion handelt. Ein formaler Begriff ist also immer sowohl durch seinen Umfang als auch durch seinen Inhalt eindeutig bestimmt.
Ein formaler Begriff ist ein Unterbegriff eines zweiten formalen Begriffs, wenn sein Umfang ganz im Umfang des zweiten enthalten ist. Dann ist der Inhalt des Oberbegriffs (also des Begriffs mit dem größeren Umfang) im Inhalt des Unterbegriffs enthalten.[3]
Diese Unterbegriff-Oberbegriff-Ordnung der formalen Begriffe erweist sich als eine Ordnungsstruktur. Sie ist in aller Regel netzartig verzweigt, also gewöhnlich nicht baumartig oder gar linear. Es kann aber bewiesen werden, dass diese Ordnungen besondere und gut untersuchte Eigenschaften haben: Es handelt sich dabei stets um sogenannte vollständige Verbände (engl.: complete lattices).
Ein Begriff kann mehrere Oberbegriffe haben, z. B. vereinigt der Begriff Greifvogel die Merkmale sowohl von seinem Oberbegriff Vogel als auch die seines zweiten Oberbegriffs Beutegreifer.
Die Theorie in ihrer heutigen Form geht zurück auf die Darmstädter Forschungsgruppe um Rudolf Wille, Bernhard Ganter und Peter Burmeister, in der Anfang der 1980er Jahre die Formale Begriffsanalyse entstand. Die mathematischen Grundlagen wurden jedoch bereits von Garrett Birkhoff in den 1930er Jahren im Rahmen der allgemeinen Verbandstheorie geschaffen. Vor den Arbeiten der Darmstädter Gruppe gab es bereits Ansätze in verschiedenen französischen Gruppen. Einfluss auf die Entstehung der Formalen Begriffsanalyse hatten Schriften von Charles S. Peirce und Hartmut von Hentig.
Im Artikel Restructuring Lattice Theory (1982), der die Formale Begriffsanalyse als Disziplin begründete, wird als Motivation das Unbehagen an der Verbandstheorie und der Reinen Mathematik allgemein genannt: Die oft durch „geistigen Hochleistungssport“ erreichte Produktion theoretischer Resultate sei beeindruckend, die Verknüpfungen zwischen benachbarten Gebieten und sogar Teilen einer Theorie würden jedoch schwächer.
„Die Restrukturierung der Verbandstheorie ist ein Versuch, Verbindungen zu unserer allgemeinen Kultur wieder zu verstärken, indem die Theorie so konkret wie möglich interpretiert und dadurch eine bessere Kommunikation zwischen Verbandstheoretikern und potentiellen Anwendern der Verbandstheorie gefördert wird.“
Dieses Ziel bezieht sich auf Hartmut von Hentig, der 1972 eine Restrukturierung der Wissenschaften forderte, „um sie besser lernbar, gegenseitig verfügbar und allgemeiner (d.h. jenseits der Fachkompetenz) kritisierbar zu machen.“[5] Somit zielt auch Formale Begriffsanalyse von ihren Ursprüngen her auf Interdisziplinarität und demokratische Kontrolle von Forschung.[6]
Während ein Begriff in der Formalen Logik als einstelliges Prädikat auf seinen Umfang reduziert wird, macht die Formale Begriffsanalyse durch Berücksichtigung auch des Begriffsinhalts die Begriffslehre wieder weniger abstrakt.[4] Damit orientiert sich die Formale Begriffsanalyse an den Kategorien Extension und Intension der Linguistik und der klassischen Begriffslogik.
Klarheit von Begriffen wird im Sinn von Charles S. Peirce’ Pragmatischer Maxime dadurch angestrebt, dass beobachtbare, elementare Eigenschaften der subsumierten Gegenstände entfaltet werden.[6] In seiner Spätphilosophie ging Peirce davon aus, dass logisches Denken auf das Erfassen von Wirklichkeit zielt, durch den Dreischritt Begriff, Urteil und Schluss. Mathematik abstrahiert logisches Denken, entwickelt Formen möglicher Realität und kann daher rationale Kommunikation unterstützen. Rudolf Wille definiert vor diesem Hintergrund:
„Ziel und Bedeutung Formaler Begriffsanalyse als mathematische Theorie von Begriffen und Begriffshierarchien ist es, die rationale Kommunikation von Menschen zu unterstützen, indem sie mathematisch geeignete Begriffsstrukturen entwickelt, die logisch aktiviert werden können.“
Eine vergleichbare Motivation lag jedoch historisch früher den Projekten zur Entwicklung analytischer Plansprachen zu Grunde, vgl. auch Universalsprache.
Zur Erläuterung der Grundlagen der Formalen Begriffsanalyse dient folgendes bewusst klein gehaltene Beispiel. Es ist Teil einer umfangreicheren Wortfeldstudie, in der Gewässer anhand von Merkmalen in eine Systematik gebracht wurden.[8] Für die hiesigen Zwecke wurde das dort behandelte Beispiel etwas reduziert.
Im Folgenden wird außer der Tabelle auch schon die daraus konstruierbare Grafik, das Liniendiagramm, gezeigt.
Gewässer | Merkmale | ||||||||
---|---|---|---|---|---|---|---|---|---|
temporär | fließend | natürlich | stehend | konstant | maritim | ||||
G e g e n s t ä n d e |
Bach | X | X | X | |||||
Fluss | X | X | X | ||||||
Haff | X | X | X | X | |||||
Kanal | X | X | |||||||
Lache | X | X | X | ||||||
Pfuhl | X | X | X | ||||||
Pfütze | X | X | X | ||||||
Rinnsal | X | X | X | ||||||
Strom | X | X | X | ||||||
Maar | X | X | X | ||||||
Meer | X | X | X | X | |||||
See | X | X | X | ||||||
Teich | X | X | X | ||||||
Tümpel | X | X | X | ||||||
Weiher | X | X |
Für eine Analyse müssen die zu untersuchenden Daten in Tabellenform vorliegen oder in eine solche Form überführt werden.
In der Tabelle Beispiel für einen formalen Kontext: „Gewässer“ sind verschiedene Gewässerarten als formale Gegenstände in Zeilen aufgelistet. Die dazugehörigen formalen Merkmale bestimmen die Spalten dieser Tabelle.
Weist ein Gegenstand ein bestimmtes Merkmal auf, dann steht am Kreuzungspunkt in der jeweiligen Zeile und Spalte eine Markierung, meist ein „X“. Weist er dieses Merkmal nicht auf oder ist unklar, ob er dieses Merkmal aufweist, dann fehlt diese Markierung.
Will man den Unterschied zwischen realen Gegenständen und Merkmalen einerseits und ihren Abstraktionen (den Daten in der Tabelle) andererseits betonen, spricht man bei den Abstraktionen von formalen Gegenständen und formalen Merkmalen. Analog spricht man bei der Gesamtheit der ganzen Tabelle von einem formalen Kontext. Später werden formale Begriffe noch genauer eingeführt.
Häufig entsprechen die formalen Gegenstände realen Gegenständen der Welt und die formalen Merkmale deren realen qualitativen oder quantitativen Eigenschaften. Ein formaler Gegenstand kann aber auch ein Abstraktum darstellen – wie die Gewässerarten in obigem Beispiel. Ebenso kann ein formales Merkmal ein Abstraktum darstellen.
Das obige Liniendiagramm enthält Kreise und verbindende Linien. Kreise stellen formale Begriffe dar. An den Linien lässt sich die Unterbegriff-Oberbegriff-Hierarchie ablesen.
Bei der hier verwendeten reduzierten Beschriftung wird jeder Gegenstands- und jeder Merkmalname genau einmal in das Diagramm eingetragen, wobei Gegenstände unterhalb und Merkmale oberhalb von Begriffskreisen stehen. Dies geschieht so, dass ein Merkmal genau dann von einem Gegenstand aus über einen aufsteigenden Linienzug erreichbar ist, wenn der Gegenstand das Merkmal hat.
In dem gezeigten Diagramm hat z. B. der Gegenstand Weiher die Merkmale stehend und konstant, nicht aber die Merkmale temporär, natürlich, fließend und maritim. Entsprechend haben Lache und Pfütze genau die Merkmale temporär, stehend und natürlich.
Zu jedem Begriff kann man seinen Umfang und seinen Inhalt am Liniendiagramm ablesen. Der Umfang eines Begriffs besteht aus den Gegenständen, von denen ein aufsteigender Linienzug zum Kreis des Begriffes führt. Der Begriff, der im Diagramm unmittelbar links neben Weiher steht, hat den Inhalt stehend und natürlich und den Umfang Lache, Pfütze, Pfuhl, Maar, See, Teich, Tümpel, Haff und Meer.
Zur Formalen Begriffsanalyse gab es weitere Forschungen in unterschiedliche Richtungen. Exemplarisch folgen einige Forschungsansätze und Hinweise auf weiterführende Veröffentlichungen.
Die Triadische Begriffsanalyse ersetzt die binäre Beziehung zwischen Gegenständen und Merkmalen durch eine ternäre Beziehung zwischen Gegenständen, Merkmalen und Bedingungen. Eine Inzidenz drückt dann aus, dass der Gegenstand das Merkmal unter der Bedingung hat. Obwohl triadische Begriffe in Analogie zu den obigen formalen Begriffen definiert werden können, ist die Theorie der von ihnen gebildeten Tri-Verbände viel weniger weit entwickelt als die der Begriffsverbände und scheint schwierig zu sein.[9]
George Voutsadakis hat den n-stelligen Fall (Polyadische FBA) untersucht.[10]
Fuzzy-Begriffe ergeben sich aus einer Kombination von Formaler Begriffsanalyse mit der Fuzzy-Set-Theorie. Dazu hat es zahlreiche Untersuchungen gegeben. Eine der ersten war die Dissertation von Silke Pollandt.[11] Umfangreich entwickelt wurde die Theorie in der Gruppe um den tschechischen Mathematiker Radim Belohlávek, von der auch eine eigene Tagungsreihe Concept Lattices and Their Applications eingerichtet wurde. Deren Ergebnisse sind frei zugänglich.[12] Einen Einstieg ins Thema bieten die Aufsätze What is a fuzzy concept lattice?[13] und Formal Concept Analysis and Fuzzy Logic.[14]
Um auch zeitlich veränderliche Vorgänge begrifflich beschreiben zu können, hat Karl Erich Wolff eine temporale Erweiterung der Begriffsanalyse formuliert.[15]
Die Modellierung der Negation von formalen Begriffen ist etwas problematisch, weil das Komplement eines formalen Begriffs nicht notwendigerweise ein formaler Begriff ist. Da der Begriffsverband jedoch vollständig ist, kann man das Supremum aller Begriffe betrachten, welche erfüllen; oder alternativ das Infimum aller Begriffe, welche erfüllen. Diese beiden Operationen werden als schwache Negation bzw. schwache Opposition bezeichnet. Sie können mit Hilfe der Ableitungsoperatoren ausgedrückt werden.
Die schwache Negation kann geschrieben werden als und die schwache Opposition als . Der mit den beiden zusätzlichen Operationen und ausgestattete Begriffsverband wird als Begriffsalgebra eines Kontexts bezeichnet. Begriffsalgebren verallgemeinern Potenzmengen.
Die schwache Negation auf einem Begriffsverband ist eine schwache Komplementation, d. h. eine ordnungsumkehrende Abbildung , die die Axiome und erfüllt.
Die schwache Opposition ist eine duale schwache Komplementation. Ein (beschränkter) Verband, der mit einer schwachen Komplementierung und einer dualen schwachen Komplementierung ausgestattet ist, wird als schwach dikomplementierter Verband bezeichnet. Begriffsalgebren sind davon Beispiele. Schwach dikomplementierte Verbände verallgemeinern distributive orthokomplementierte Verbände, d. h. Boolesche Algebren.[16][17]
Begriffsverbände sind gut geeignet, Daten so zu ordnen und darzustellen, dass sie auch ohne mathematische Vorbildung gut verstanden werden können. Die mathematischen Grundlagen sollen hier kurz dargelegt werden.
Gegeben seien zwei Mengen und eine Relation . Das Tripel wird dann als formaler Kontext[18] bezeichnet, als seine Gegenstandsmenge und als seine Merkmalsmenge; für einen Gegenstand und ein Merkmal bedeutet „der Gegenstand hat das Merkmal “. Oft wird auch statt geschrieben. Die Menge wird als Inzidenzrelation des formalen Kontextes bezeichnet.
Sind die Mengen und endlich, so lassen sich formale Kontexte gut in Form von „Kreuztabellen“ darstellen. Man beachte dabei, dass die Gegenstände und Merkmale in dieser Darstellung willkürlich geordnet werden können. Diese Ordnung ist dann aber nicht Teil des formalen Kontextes, sondern nur seiner Darstellung.
Ist eine Menge von Gegenständen eines formalen Kontextes , so bezeichnet man mit
die Menge der gemeinsamen Merkmale der Gegenstände in . Entsprechend definiert wird für eine Menge von Merkmalen von die Menge
aller Gegenstände, die alle Merkmale aus besitzen. Die Mengen und werden als die Ableitungen der entsprechenden Mengen und bezeichnet und die Funktionen, welche beide mit benannt sind, Ableitungsoperatoren von genannt.
Die Ableitungsoperatoren erfüllen eine Reihe von sehr grundlegenden Eigenschaften. Sind Mengen von Gegenständen und Mengen von Merkmalen, so gilt
Tatsächlich definieren damit die Ableitungsoperatoren eine antitone Galoisverbindung zwischen den Potenzmengenverbänden der Gegenstandsmenge und der Merkmalmenge. Umgekehrt lässt sich jede solche Galoisverbindung zwischen Potenzmengenverbänden als Paar von Ableitungsoperatoren eines formalen Kontextes darstellen.
Zu einem formalen Kontext heißt nun ein Paar ein formaler Begriff[18] von , falls
Die Menge wird dann Umfang und die Menge Inhalt des Begriffes genannt. Die Menge aller Begriffe wird mit bezeichnet. Stellt man formale Kontexte als Kreuztabellen dar, so lassen sich formale Begriffe – bei geeigneter Ordnung der Gegenstände und Merkmale – als maximale, vollständig gefüllte Rechtecke in dieser Kreuztabelle verstehen.
Sind nun , so lässt sich mit
eine Halbordnung auf definieren. Diese Ordnung macht dann die Struktur zu einem vollständigen Verband. Tatsächlich ist umgekehrt nach dem Hauptsatz der Formalen Begriffsanalyse jeder vollständige Verband ordnungsisomorph zu einem Begriffsverband.
Begriffsverbände können als Ordnungsdiagramme (Liniendiagramme) dargestellt werden und entfalten so die Daten in ihrer Struktur und ihren Zusammenhängen. Die Gegenstände haben dabei alle (durch Kanten verbundene) darüber stehenden Merkmale; in nebenstehendem Beispiel ist 4 gerade, zusammengesetzt und quadratisch.
Mathematisch genauer kann zunächst die vereinfachte Beschriftung von Begriffsverbänden begründet werden. Betrachtet man für einen Gegenstand die Menge aller Begriffe, die in ihrem Umfang haben, so hat diese Menge einen Hauptfilter im Begriffsverband. Daher wird nur unterhalb des kleinsten Begriffs, der im Umfang enthält, der Gegenstand notiert. Dual dazu wird oberhalb des größten Begriffs, der ein gegebenes Merkmal im Inhalt besitzt, das Merkmal notiert. Ein Begriff im Ordnungsdiagramm hat also genau dann einen Gegenstand in seinem Umfang, wenn er oberhalb des Begriffes liegt, der mit dem Gegenstand beschriftet ist. Entsprechend hat ein Begriff im Ordnungsdiagramm ein Merkmal in seinem Inhalt, wenn er unterhalb des Begriffes liegt, der mit dem Merkmal beschriftet ist.
Es sei ein formaler Kontext und sein Begriffsverband. Man kann für Gegenstände und Merkmale dann die Begriffe
betrachten. Es wird der Gegenstandsbegriff von und der Merkmalsbegriff von genannt. Weiterhin gilt
Ist nun ein vollständiger Verband, so ist genau dann isomorph zu , wenn es Abbildungen gibt derart, dass
gilt. Insbesondere ist isomorph zu .
Der Hauptsatz ist auch als Rudolf Willes Hauptsatz über Begriffsverbände bekannt. Er besagt unter anderem, dass jeder vollständige Verband einem Begriffsverband isomorph ist.[19]
Für einen formalen Kontext kann seine Implikationentheorie untersucht werden. Dabei ist eine Implikation von einfach ein Paar mit , was meist mit geschrieben wird. Man sagt, dass in gilt, wenn jeder Gegenstand, der alle Merkmale aus besitzt, auch alle Merkmale aus besitzt, wenn also gilt. Diese Bedingung ist äquivalent dazu, dass gilt.
Ist eine Menge von Implikationen von und ist , so bezeichnet man mit die kleinste Menge, die enthält und abgeschlossen ist unter . Dabei heißt eine Menge abgeschlossen unter , falls für alle Implikationen stets oder gilt, wenn also stets impliziert. Man sieht dann, dass die Abbildung ein Hüllenoperator auf der Potenzmenge von ist.
Ist eine Implikation von , so folgt aus , falls gilt. Dies ist äquivalent dazu, dass in jedem formalen Kontext, in dem alle Implikationen aus gelten, auch stets die Implikation gilt.
Eine Basis für ist dann eine Menge von gültigen Implikationen von , so dass jede (semantisch) gültige Implikation aus bereits aus folgt, durch Anwendung geeigneter syntaktischer Inferenzregeln wie der Armstrong-Regeln[20]. Die in diesem neuen Sinn abgeschlossene Menge aller Implikationen von ist eine Theorie, da sie außerdem laut Konstruktion zum Beispiel bezüglich des zugrunde liegenden Kontexts erfüllbar ist.
Die Basis heißt irredundant, falls sie -minimal mit dieser Eigenschaft ist. Ein Beispiel für eine irredundante Basis ist die kanonische Basis (siehe auch Merkmalexploration), die darüber hinaus die Eigenschaft hat, auch minimal bezüglich der Größe der Basis zu sein.
Es gilt, dass eine Menge von Implikationen genau dann eine Basis eines Kontextes ist, wenn die Menge der unter abgeschlossenen Mengen genau die der Inhalte von ist.
Es ist möglich, die Implikationentheorie eines bestimmten Themengebietes mit Hilfe eines formalen Kontextes darzustellen. Dies bedeutet insbesondere, dass man dies mit Hilfe einer ausreichenden Menge von Beispielen tun kann, die dann die Gegenstände des formalen Kontextes werden. Theoretisch kann solch eine Menge von Beispielen von einem menschlichen Experten oder auch einer Maschine angegeben werden.
Dabei entsteht allerdings das Problem, dass weder von vornherein garantiert ist, dass eine ausreichende Menge von Beispielen angegeben ist, noch, ob nicht einige generierte Beispiele redundant sind, da bereits gegebene Beispiele ausreichen. Unter den Gesichtspunkten, dass die Generierung guter Beispiele schwierig ist, die Befragung von Experten oder gar neue Experimente teuer sind, und Literatursuche oder Algorithmen aufwendig werden können, ist dies ein ernstzunehmendes Problem.
Abhilfe kann hier der Algorithmus der Merkmalexploration schaffen. Ausgehend von einer bereits bekannten Menge von Implikationen und einer bereits bekannten Menge von Beispielen aus dem Themengebiet schlägt der Algorithmus Implikationen vor, die dann von einem Experten (menschlich oder nicht) akzeptiert oder zurückgewiesen werden können. Dabei soll eine Implikation genau dann akzeptiert werden, wenn diese im besagten Themengebiet gültig ist. Wird eine Implikation zurückgewiesen, so muss der Experte ein Gegenbeispiel erzeugen, das dann von einem Experten (menschlich oder nicht) akzeptiert oder zurückgewiesen werden kann. Dabei soll eine Implikation genau dann akzeptiert werden, wenn diese im besagten Themengebiet gültig ist. Durch ein akzeptiertes Gegenbeispiel wird die Implikation widerlegt und somit eine kleinstmögliche Menge von akzeptierten Implikationen generiert, die am Ende das Themengebiet vollständig beschreibt. Darüber hinaus wird auch die Menge von Beispielen vervollständigt.
Die Formale Begriffsanalyse lässt sich als qualitative Methode zur Datenanalyse einsetzen. Seit den frühen Anfängen von Formale Begriffsanalyse Anfang der 1980er hat die Forschungsgruppe Formale Begriffsanalyse an der TU Darmstadt Erfahrungen aus mehr als 200 Projekten gesammelt, in denen die Formale Begriffsanalyse angewandt wurde (Stand 2005).[21] Darunter aus den Bereichen: Medizin und Zellbiologie,[22][23] Genetik,[24][25] Ökologie,[26] Softwaretechnik,[27] Ontologie (Informatik)[28], Informations- und Bibliothekswissenschaften,[29][30][31] Büroorganisation,[32] Recht,[33][34] Sprachwissenschaft,[35] Politikwissenschaften.[36]
Viele weitere Anwendungsbeispiele sind z. B. beschrieben in: Formal Concept Analysis. Foundations and Applications,[21] den Konferenzbänden zu regelmäßig stattfindenden Konferenzen, wie: International Conference on Formal Concept Analysis (ICFCA),[37] Concept Lattices and their Applications (CLA)[38] oder International Conference on Conceptual Structures (ICCS).[39]