Eine Bildpyramide ist eine Form mehrskaliger Signaldarstellung, entwickelt in Bereichen des Maschinellen Sehens (engl. „computer vision“), Bildverarbeitung und Signalverarbeitung, in denen auf ein Signal oder Bild mehrmalig Glättung und Downsampling angewendet wird. Die Pyramiden-Darstellung ist eine Vorstufe zur Scale-Space-Darstellung (Skalenraum-Darstellung) und Multiskalenanalyse.
Es gibt zwei Arten von Bildpyramiden: Tiefpass und Bandpass.
Eine Tiefpass-Pyramide entsteht durch Glätten des Bildes mit einem entsprechenden Glättungs-Filter und dem darauf folgenden Downsampling des geglätteten Bildes, meistens durch einen Faktor zwei entlang jeder Koordinatenachse. Auf das resultierende Bild wird dann dieselbe Prozedur angewendet und dieser Zyklus mehrere Male wiederholt. Jeder Zyklus dieses Prozesses erzeugt ein kleineres Bild mit höherer Glättung, aber geringerer Abtastdichte (daher geringerer Bildauflösung). Bildlich dargestellt, sieht die gesamte, mehrskalige Darstellung wie eine Pyramide aus, mit dem Originalbild als Basis, auf der die aus jeden Zyklus resultierenden, schmaler werdenden Bilder aufeinander gestapelt werden.
Eine Bandpass-Pyramide wird erzeugt, indem zwischen benachbarten Auflösungs-Ebenen der Pyramide die Abweichungen erfasst und eine Art der Bildinterpolation angewendet wird, um pixelweise die Differenzen zu errechnen.[1]
Für die Erstellung von Pyramiden wird eine Vielzahl an Faltungsmatrizen vorgeschlagen.[2][3][4][5][6][7] Unter den Vorschlägen stechen Binomial-Faltungsmatrizen, die aus Binomialkoeffizienten entstehen, als besonders nützliche und theoretisch gut fundierte Klasse hervor.[3][8][9] Dabei wird in einem zweidimensionalen Bild der (normalisierte) Binomialfilter (1/4, 1/2, 1/4) typischerweise zweimal oder entlang jeder räumlichen Dimension angewendet und dann ein Downsampling des Bildes mit dem Faktor zwei vorgenommen. Diese Operation wird so oft wie gewünscht durchgeführt, was zu einer kompakten und effizienten multiskaligen Darstellung führt. Wenn für bestimmte Anforderungen benötigt, können Zwischen-Skalierungsebenen generiert werden, wobei der Downsampling-Schritt manchmal ausgelassen wird, was zu einer Oversampled- oder Hybridpyramide führt.[10] Mit der wachsenden Recheneffizienz von heute verfügbaren Prozessoren ist es in manchen Situationen auch möglich, bei der Erstellung der Pyramidenstufen weiter verbreitete Gauß-Filter als Faltungsmatrix für die Glättung zu verwenden.
In einer Gauß-Pyramide werden aufeinander folgende Bilder durch den Mittelwert der Gauß-Verteilung (Gaußscher Weichzeichner) heruntergewichtet und dann herunterskaliert. Jeder Pixel enthält den lokalen Mittelwert der Pixelnachbarschaft der darunter liegenden Pyramidenebene. Diese Technik wird vor allem in der Textursynthese angewandt.
Eine Laplace-Pyramide ist der Gauß-Pyramide sehr ähnlich, aber speichert das Differenzbild der geglätteten Versionen zwischen jeder Ebene. Nur die kleinste Ebene ist kein Differenzbild, damit das hochaufgelöste Bild aus den Differenzbildern höherer Ebenen gebildet werden kann. Dieses Verfahren kann bei der Bildkompression angewendet werden.[11]
Eine steuerbare Pyramide ist eine Umsetzung einer multiskaligen, in mehrere Richtungen gehenden Bandpass-Filterbank, die für Anwendungen wie Bildkompression, Textursynthese und Objekterkennung eingesetzt wird. Man kann sie sich als Richtungs-selektive Version der Laplace-Pyramide vorstellen, in der, statt eines einzelnen Laplace- oder Gauß-Filters, eine Filterbank von steuerbaren Filtern in jeder Ebene der Pyramide verwendet wird.[12][13][14]
In der Frühzeit des Maschinellen Sehens („computer vision“) waren Bildpyramiden die vorherrschende Art, multiskalige Darstellung aus realen Bildern zu errechnen. Zu den neueren Techniken zählt die Scale-Space-Darstellung. Deren Popularität unter Forschern basiert auf deren theoretischen Grundlage, der Möglichkeit, die Downsampling-Phase von der multiskaligen Darstellung zu entkoppeln, den besseren Werkzeugen zur theoretischen Analyse sowie der Möglichkeit, eine Darstellung auf jeder gewünschten Skalierung zu errechnen und damit die algorithmischen Probleme der Bilddarstellung in verschiedenen Auflösungen zu umgehen. Trotzdem werden Bildpyramiden noch immer häufig benutzt, um effizient Annäherungen an die Scale-Space-Darstellung zu errechnen.[10][15][16]
Laplace-Bildpyramiden, basierend auf bilateraler Filterung, bilden ein gutes Gerüst für Bilddetailverbesserung und -manipulation.[17] Die Differenzbilder zwischen jeder Ebene werden modifiziert, um Details in verschiedenen Skalierungen zu verstärken oder zu reduzieren.
Manche Bildkompressionsverfahren verwenden den Adam7-Algorithmus oder andere Interlacing-Techniken. Diese können als eine Art von Bildpyramide gesehen werden. Da diese Formate „großskalige“ Bildteile zuerst und feinere Details weiter hinten in der Datei speichern, kann ein Betrachter schnell ein kleineres Vorschaubild herunterladen. Eine Datei kann also mehrere Betrachtungsauflösungen unterstützen, anstatt für jede Auflösung ein eigenes Bild zu speichern oder zu erstellen.