Seguimiento de dedos

Seguimiento de dedos de los dedos de dos pianistas tocando la misma pieza (cámara lenta, sin sonido).^[1]

En el campo de la tecnología y el procesamiento de imagen, el seguimiento de dedos es una técnica de alta resolución utilizada para conocer el posicionamiento consecutivo de los dedos de un usuario y poder representar así objetos en 3D, en la pantalla de trabajo. Consecuentemente, la técnica de seguimiento de dedos es utilizada como herramienta de computadora, actuando de este modo como periférico externo de un computador, del mismo modo que un teclado y un ratón.

Introducción

El sistema de seguimiento de dedos está fundamentado en la interacción datos – usuario; donde este último interactúa con los datos virtuales, manipulando directamente a través de los dedos la volumetría del objeto 3D a representar.

Este sistema nació a partir de la importante problemática de interacción entre el ser humano y la computadora. Con el fin de facilitar la comunicación entre ambos y usar gestos o movimientos de manos mucho más intuitivos, se han creado los sistemas de seguimiento de dedos. Dicho sistema rastrea a tiempo real la posición 3D y 2D de la orientación de los dedos de cada marcador y aprovecha los movimientos intuitivos de gestos y manos para interactuar.

Tipos de seguimiento

Existe un amplio abanico de posibilidades de implementación para la técnica de seguimiento de dedos. Ya que son muchas las tesis realizadas en este ámbito, por este motivo, con el objetivo de hacer una partición global. Podríamos segmentar esta técnica en seguimiento de dedos con interfaz y sin interfaz. En esta última, se hace una estimación secuencial de la imagen detectando así la parte de la mano del resto. Mientras que en la primera, para llevar a cabo dicho seguimiento necesitó de un dispositivo externo mediador, usado como herramienta, para ejecutar las distintas instrucciones.

Seguimiento de dedos con interfaz

En este sistema se utiliza la captura de movimiento sea la interfaz que sea, se realiza un seguimiento de la ubicación de los marcadores o patrones en el espacio 3D, el sistema los identificaba de forma única y etiqueta cada marcador de acuerdo con la posición de los dedos del usuario. Las coordenadas 3D de las etiquetas de los marcadores se producen a tiempo real junto con otras aplicaciones.

Marcadores

Algunos sistemas ópticos, como el Vicon, son capaces de capturar el movimiento de la mano a través de marcadores. En cada mano dispondremos de un marcador por dedo “operativa”. Tres cámaras de alta resolución se encargaran de captar cada marcador y medir sus posiciones, esto se producirá siempre que la cámara los pueda ver. Los marcadores visuales, también conocidos como anillos o brazaletes, se utilizan para reconocer en 3D los gestos del usuario. Además como su clasificación indicia, estos anillos actúan de interfaz de pantalla en 2D.

Oclusión como método de interacción

La oclusión visual, es un método muy intuitivo para proporcionar un visionado muy real de información virtual en tres dimensiones. Las interfaces tangibles proporcionan técnicas muy naturales de interacción 3D sobre la base de 6 DOF.

Funcionamiento de los marcadores

Los marcadores se guían a través de los puntos de interacción, que suelen estar predefinidos y que conocemos sus regiones. Por lo tanto, no es necesario seguir cada marcador todo el tiempo, los multipunteros pueden ser tratados de la misma manera que cuando hay un único puntero en funcionamiento. Para detectar dichos punteros a través de una interacción, se puede llevar a cabo activando sensores de infrarrojos y ultrasonido. El hecho de que varios punteros sean tratados como uno de solo nos solventaría los problemas que se podrían dar en la práctica. Problemas como, estar expuestos a condiciones de mala iluminación, desenfoques del movimiento, deformación del mismo marcador u oclusiones, etc. El sistema nos permite seguir el objeto correctamente, incluso si algunos de los marcadores no son visibles. Además, como las relaciones espaciales de todos los marcadores son conocidas, las posturas de los marcadores que no son visibles pueden calcularse utilizando los marcadores que son reconocidos. Existen varios métodos de detección de marcadores: método del marcador límite o de frontera y el método del marcador estimado.

Técnica de Homer

Consiste en a selección del rayo con la manipulación directa: se selecciona un objeto, y luego su posición y orientación se manipulan como si estuviera conectada directamente a la mano.

Técnica de Conner

Presentan un conjunto de widgets 3D que permiten interacción indirecta con los objetos virtuales a través de un widget virtual que actúa como mediador.

Guante

Es una técnica interesante desde el punto de vista que es más simple y menos costosa que la de marcadores, ya que requiere una sola cámara. Por otro lado, esta sencillez comporta menos precisión que la técnica anterior. Proporciona una nueva base de nuevas interacciones en el modelado, el control de la animación y la realidad aumentada. Se usa un guante compuesto por una variedad de colores., asignados según las posiciones de los dedos. Este juego de colores está limitado por el sistema de visión del ordenador, y en función de la captura y la posición del color del parche, conoce cuál es la posición de la mano.

Seguimineto de dedos sin interfaz

A efectos de percepción visual, las manos y piernas se pueden modelar como los mecanismos articulados, sistema de cuerpos rígidos conectados entre sí por las articulaciones con uno o más grados de libertad. Este modelo puede ser aplicado en una escala reducida para describir el movimiento de la mano, y en una escala más amplia para describir el movimiento del cuerpo entero. El movimiento de un dedo determinado, por ejemplo, puede ser reconocido desde sus ángulos comunes, independientemente de la postura de la palma en relación con la cámara.

Gran parte de los sistemas de seguimiento tratan un modelo basado en el problema de estimación secuencial: dada una secuencia de imágenes y un modelo de cambio, estimamos la configuración de 3D a mano en cada fotograma. Todas las configuraciones de manos posible están representados por vectores en un espacio de estados, que codifica la postura de la palma (seis DOF rotación y traducción) y los ángulos de articulación de los dedos. Cada configuración de la mano genera un conjunto de imágenes mediante la detección de los límites de la oclusión de los vínculos de los dedos. La estimación de cada imagen se calcula hallando el vector de estado que mejor se adapte a las características medidas.

Las articulaciones de los dedos tienen como añadido 21 estados más que el movimiento del cuerpo rígido de la palma de la mano, eso significa que se incrementa el coste computacional de la estimación. La técnica consiste en etiquetar cada articulación del dedo en enlaces y se toma un cilindro como forma. Realizamos los ejes en cada una de las articulaciones y la bisectriz de este eje, es la proyección de la articulación. Por lo tanto, se utiliza 3 DOF, porque solo hay 3 grados de movimiento.

En este caso, sucede lo mismo que en la anterior tipología ya que existe una gran variedad de tesis de implementación respecto a este tema. Así pues, los pasos o el tratamiento de la técnica es diferente según el objetivo y las necesidades de la persona que va a utilizar dicha técnica. De todas maneras, podríamos afirmar que a modo muy general y en la mayoría de sistemas, se deben llevar a cabo los siguientes pasos:

Sustracción de fondo: convolución de todas las imágenes capturadas con un filtro de Gauss de 5x5. Luego se escala para reducir píxeles con ruido.
Segmentación de piel: aplicación de máscara binaria donde se representan con un color blanco, los píxeles que pertenecen a la mano y negro al resto.
Región de extracción: detección de la mano derecha y/o izquierda a partir de la comparación entre ambas manos.
Extracción de características: localización de la punta del dedo y detectar si se trata de picos o valles. Con el fin de clasificar los puntos, ya sea como picos o valles, se convierten los vectores en 3D, llamados pseudo vectores en el plano xy y luego calcular el producto cruzado. Si la señal de la z componente del producto cruzado es positiva, consideramos que el punto es un pico, por el contrario, en el caso de que el resultado del producto cruzado sea negativo, será un valle.
Puntos y reconomiento de gestos: Según los puntos de referencia visibles (punta del dedo) se le asocia a un gesto determinados.
Posición estimada: procedimiento consiste en identificar la posición de las manos mediante algoritmos de cálculo de distancias entre posiciones.

Aplicación

Definitivamente, los sistemas de seguimiento de dedos son utilizados para representar una realidad virtual. No obstante su aplicación ha sido destinada al modelado 3D a nivel profesional, en empresas y proyectos volcados directamente en esta causa. Así pues, en contadas ocasiones dichos sistemas se han usado en aplicaciones de consumo debido a su elevado precio y complejidad.

En cualquier caso, el objetivo principal es facilitar la tarea de ejecutar órdenes con el ordenador mediante el lenguaje natural o interactuaciones gestuales. Así pues la aplicación principal de esta técnica es sacar el máximo provecho en el diseño y animación 3D. Ya que muchos programas que hay actualmente en el mercado relacionados en este ámbito, (por ejemplo Maya, 3D StudioMax) utilizan este tipo de herramientas de trabajo. En pocas palabras, es muy amplio el abanico de posibilidades que ofrece esta tecnología, pero sin duda la de esculpir, construir y modelar en 3D a tiempo real a través del ordenador es una de las más importantes.

Referencias

↑ Goebl, W.; Palmer, C. (2013). «Temporal Control and Hand Movement Efficiency in Skilled Music Performance». En Balasubramaniam, Ramesh, ed. PLoS ONE 8 (1): e50901. PMC 3536780. PMID 23300946. doi:10.1371/journal.pone.0050901.

Anderson, D., Yedidia, J., Frankel, J., Marks, J., Agarwala, A., Beardsley, P., Hodgins, J., Leigh, D., Ryall, K., & Sullivan, E. (2000). Tangible interaction + graphical interpretation: a new approach to 3D modeling. SIGGRAPH. p. 393-402.

Angelidis, A., Cani, M.-P., Wyvill, G., & King, S. (2004). Swirling-Sweepers: Constant-volume modeling. Pacific Graphics. p. 10-15.
Grossman, T., Wigdor, D., & Balakrishnan, R. (2004). Multi finger gestural interaction with 3D volumetric displays. UIST. p. 61-70.

Freeman, W. & Weissman, C. (1995). Television control by hand gestures. International Workshop on Automatic Face and Gesture Recognition. p. 179-183.

Ringel, M., Berg, H., Jin, Y., & Winograd, T. (2001). Barehands: implement-free interaction with a wall-mounted display. CHI Extended Abstracts. p. 367-368.

Cao, X. & Balakrishnan, R. (2003). VisionWand: interaction techniques for large displays using a passive wand tracked in 3D. UIST. p. 173-182.

Enlaces relacionados

http://www.vicon.com/
http://www.dgp.toronto.edu/~ravin/videos/graphite2006_proxy.mov (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
https://web.archive.org/web/20091211043000/http://actuality-medical.com/Home.html
http://www.dgp.toronto.edu/

Datos: Q5450251

[1] Goebl, W.; Palmer, C. (2013). «Temporal Control and Hand Movement Efficiency in Skilled Music Performance». En Balasubramaniam, Ramesh, ed. PLoS ONE 8 (1): e50901. PMC 3536780. PMID 23300946. doi:10.1371/journal.pone.0050901.

[1]