El escáner de luz estructurada es un dispositivo capaz de capturar la forma y características de un objeto mediante la proyección de un patrón de luz y su registro en un sistema de adquisición (véase cámara fotográfica).
Existen muchos parámetros que clasifican a un escáner 3D, no obstante, desde el nivel superior se agrupan en escáneres de contacto y escáneres sin contacto.[1] Los primeros necesitan forzosamente el contacto físico con el objeto. Los segundos, en cambio, se basan en capturar la radiación que refleja el objeto, ya sea de la luz visible/ambiente (pasivos) o de la emisión de algún tipo de luz o radiación hacia el objeto para así detectar la reflexión que genera (activos). Los escáneres de luz estructurada se sitúan en el grupo de escáneres activos sin contacto.
El escáner 3D consta de una fuente de luz (que proyectará el haz) y una cámara (que captará los puntos/líneas de las superficies) separados entre sí. Para escanear el objeto se define un sistema de coordenadas esféricas para determinar cada punto del espacio tridimensional que se está capturando.
En su forma básica (single dot o punto único) se proyecta un haz de luz sobre la superficie del objeto que genera un punto de iluminación en el sensor CCD (cámara) del sistema. Esta técnica sin embargo, requiere la exploración de los dos ejes por separado (con el añadido del retardo). El patrón de iluminación capturado variará según el haz de luz que se utilice: single dot, rendija, patrón de rayas o reja. Para la mayoría de las situaciones un solo escaneo no producirá un modelo completo del objeto. Generalmente se necesitarán múltiples escáneres, desde diferentes direcciones, para obtener la información tridimensional completa (barrido).
La técnica más rápida y versátil (por lo que a tiempo de captura respecta) es la proyección de patrones bidimensionales como ahora, el patrón de rayas o de reja. La primera (y la más utilizada) consiste en la proyección de multitud de rayas correlativas entre sí o distribuidas arbitrariamente. La segunda proyecta una reja de m*n puntos que iluminan parte del objeto de una sola tirada. Estos dos métodos permiten la adquisición de una gran número de muestras simultáneamente.
A continuación se describen las diferentes etapas que forman la adquisición, evaluación y visualización del escáner de luz estructurada.
Debido a la velocidad de adquisición y la facilidad de modular diferentes patrones se han establecido dos métodos de generación: por interferencia láser y por proyección.
El método por interferencia láser trabaja con dos fuentes de luz y una cámara. Los haces proyectan dos patrones de rayas sobre la escena o el objeto. La interferencia da lugar a patrones regulares y equidistantes entre sí. Variando el tamaño del patrón podemos obtener una adquisición mucho más cuidadosa (generando un patrón mucho más pequeño, cuando existen muchos detalles a tener en cuenta) modificando la inclinación y el ángulo entre las fuentes de luz. Algunos inconvenientes que se asocian al uso de este método son el alto coste de implementación que tienen y la posibilidad de interferencia del haz con las partes reflejadas de otras zonas del objeto debido a no poder modular las rayas individualmente (de este defecto se habla más adelante con la utilización del código Gray).[2]
El método por proyección utiliza luz incoherente y funciona básicamente como lo hace un proyector de vídeo. Los patrones son generados por el display que incorpora el proyector, normalmente LCD (pantalla de cristal líquido) o, no tan habitual, LcoS (cristal líquido sobre silicio). Una técnica propietaria es la proyección empleando displays DLP (procesado digital de la luz). Por su naturaleza digital,[3] los displays DLP no absorben la luz de manera significativa, por lo tanto; permiten trabajar con intensidades de luz altas. Otra característica es su linealidad en la reproducción de grises, debido a la modulación que emplea (modulación por ancho de pulsos). Como inconveniente mencionar las discontinuidades que aparecen en las rayas proyectadas, debido a las limitaciones de píxel de las tecnologías utilizadas.
Estos métodos generan señales invasivas que pueden ser cuantificadas en algunos casos: pérdida o alteración de información colorimétrica o de textura de las superficies iluminadas, la inconsistencia del flujo óptico o incluso, la agresión que pueden causar las fuentes láser. Es por ello que se ha ido trabajando en métodos de proyección de luz en el espectro no visible,[4] cada uno de ellos basados en diferentes tipos de luz: luz estructurada infrarroja (IRSL), invisible (ISL) y filtrada (FSL). El primero es el más extendido actualmente (no interfiere con la iluminación de la escena y no altera el color de esta) y el que utiliza el sistema Kinect de Microsoft.
Las distorsiones geométricas de la óptica y de la perspectiva deben ser compensadas mediante la calibración del equipo de medida por medio de técnicas de calibración. Con la calibración de la cámara se consigue estimar los parámetros intrínsecos (longitud focal, punto de enfoque, factores de escalado, etc.) y extrínsecos (definidos por la matriz de rotación, el vector de traslación entre el entorno real y el sistema de coordenadas de la cámara, etc.) de esta, los cuales son necesarios para realizar la reconstrucción 3D del entorno y situar la cámara correctamente.[5] Un modelo matemático se emplea para describir las propiedades del proyector y la cámara.[6] Basados en las propiedades geométricas de una cámara estenopeica, el modelo también tiene que tener en cuenta las distorsiones geométricas y la aberración óptica del proyector y sus lentes. Los parámetros de la cámara así como su orientación espacial pueden ser determinados por una serie de medidas de calibración, utilizando ajustes por fotogrametría.
Existen varias estrategias para reconstruir la imagen a partir de la reflexión del objeto. Un buen principio es añadir marcas de profundidad en los patrones de rayas adquiridos. Debemos tener en cuenta que el desplazamiento de cualquier raya puede ser directamente convertida en una coordenada 3D. Para este propósito, la identificación del patrón debe hacerse individualmente, por ejemplo, empleando el seguimiento o conteo de las rayas (método por reconocimiento de patrones). Otro método se basa el proyectar la mitad del patrón en color blanco y la otra mitad en negro, resultando una secuencia binaria en código de Gray (también es común el uso de colores) y asignar un valor a cada muestra codificada. De este modo se consigue depurar la información de profundidad relativa del píxel respecto sus vecinos. Una vez adquirida la profundidad de todos los píxeles se reconstruye el objeto tridimensional.
Además de las técnicas de reconocimiento y codificación de patrones también se usan técnicas para medir las variaciones de la anchura de las rayas que se generan en la superficie del objeto. La frecuencia y fase de estas tienen marcas de profundidad similar que pueden ser analizadas por la transformada de Fourier.
En muchas implementaciones prácticas, el análisis combina técnicas de reconocimiento de patrones, códigos de Gray y transformada de fourier para una completa y precisa reconstrucción del objeto.
La resolución óptica del sistema está limitada, básicamente, por la anchura y la calidad óptica de las rayas. También está limitada por la longitud de onda de la luz. Debido a las limitaciones técnicas de la cámara y la pantalla (profundidad de campo, resolución) intentar reducir el grosor de las rayas resulta ineficaz. Por ende el método por cambio de fase (phase shift method en inglés) se ha establecido como una de las técnicas más precisas y cuidadosas,[7] puesto que trabaja con patrones sinusoidales (normalmente 3 patrones de rayas sinusoidales en escala de grises desfasadas entre sí 120°). Por el método por cambio de fase, un detalle de superficie de 1/10 el tamaño del patrón de rayas se puede resolver. Actualmente, gracias al estudio en perfilometría óptica (técnicas para medir relieves y rugosidades en superficies) se pueden obtener detalles por debajo la longitud de onda con patrones de rayas más grandes. En cuanto al nivel de exactitud, mediante la interpolación de los píxeles vecinos se pueden obtener detalles de hasta 1/50 píxeles.
Dado que las técnicas antes nombradas pueden medir las formas desde una única perspectiva a la vez, para obtener la exploración tridimensional completa se tienen que combinar las diferentes medidas adquiridas para diferentes ángulos. Esto se consigue uniendo los puntos marcados en el objeto (registro) y la combinación de las perspectivas (alineación) haciéndolas coincidir con sus marcadores. Este proceso se puede automatizar colocando el objeto sobre una mesa giratoria motorizada o un dispositivo de control numérico por ordenador (CNC). Los datos obtenidos del objeto en 3D se pueden exportar a programas de diseño asistido por ordenador para trabajar con ellas.
Cómo en todos los métodos ópticos, las superficies reflectantes o transparentes plantean dificultades a la hora de adquirirlas. Las reflexiones hacen que la luz se refleje lejos de la cámara o de su óptica. En ambos casos, el margen dinámico de la cámara se supera. Con superficies transparentes o semi-transparentes pueden causar mayores complicaciones. En estos casos el recubrimiento de la superficie con laca opaca (para propósitos de medición) es una práctica habitual. Otras técnicas ópticas se han propuesto para la manipulación y medida de objetos transparentes y especulares.[8]
Reflexiones dobles o inter-reflexiones pueden causar que sobre el patrón de rayas se superponga luz no deseada, eliminando así la posibilidad de una detección adecuada. Las cavidades reflectantes y los objetos cóncavos acostumbran a ser difíciles de manejar. También son difíciles los materiales translúcidos, como por ejemplo la piel, el mármol, cera, etc. Debido al fenómeno de la dispersión de sub-superficie. Recientemente ha habido un esfuerzo por parte de la comunidad de visión por computador para detectar este tipo de escena (ópticamente complejas) rediseñando los patrones de iluminación.[9]
El uso del proyector produce que zonas de la imagen puedan estar mucho más iluminadas de lo que haría falta, saturando el sensor de la cámara y obteniendo así imágenes sobre-expuestas. Este hecho produciría valores erróneos de intensidad por cada píxel, falseando así el color. Otro problema es el debido a la deformación de la lente: cualquier deformación en la óptica dará como resultado líneas que no estén correctamente alineadas, deformando la nube de puntos 3D.
Aunque algunos patrones tienen que ser capturados uno por uno para obtener un mapa completo de la imagen, poco a poco se va llevando a cabo la implementación de técnicas de alta velocidad por según qué aplicaciones:
También se han propuesto modelos en imágenes en movimiento, para adquirir un mapa de la escena para televisión 3D.