Aprendizaje semisupervisado

Ejemplo de datos en aprendizaje semi-supervisado.Panel superior: límite de decisión basado en solo dos ejemplos etiquetados (círculos blancos vs. negros). Panel inferior: límite de decisión basado en dos ejemplos etiquetados más datos no etiquetados (círculos grises).

En ciencias de la computación, el aprendizaje semisupervisado (SSL)[1]​ es una clase de técnicas de aprendizaje automático que utiliza datos de entrenamiento tanto etiquetados como no etiquetados: normalmente una pequeña cantidad de datos etiquetados junto a una gran cantidad de datos no etiquetados. El aprendizaje semisupervisado se encuentra entre el aprendizaje no supervisado (sin datos de entrenamiento etiquetados) y el aprendizaje supervisado (con todos los datos de entrenamiento etiquetados). Los investigadores del campo del aprendizaje automático han descubierto que los datos no etiquetados, cuando se utilizan junto a una pequeña cantidad de datos etiquetados, pueden mejorar de forma considerable la exactitud del aprendizaje. La adquisición de datos etiquetados para resolver un problema suele requerir un agente humano capacitado para clasificar de forma manual los ejemplos de entrenamiento. El coste asociado al proceso de etiquetado puede hacer que un conjunto de entrenamiento totalmente etiquetado sea inviable, mientras que la adquisición de datos sin etiquetar es relativamente poco costoso. En estos casos, el aprendizaje semisupervisado puede ser muy útil.

Asunciones

[editar]
Representación gráfica de las asunciones del aprendizaje semisupervisado.

Las técnicas de aprendizaje semisupervisado están basadas en diferentes asunciones que ayudan a guiar el proceso de aprendizaje. Según la literatura se centran en las siguientes cuatro:[1][2]

  • Asunción de suavidad: dos instancias que están cerca una de la otra en el espacio de entrada tienen la misma etiqueta.
  • Asunción de baja densidad: el límite de decisión debe pasar a través de un espacio de baja densidad.
  • Asunción de la variedad: el espacio de entrada de alta dimensión está compuesto por múltiples subespacios de menor dimensionalidad. Las instancias del mismo subespacio deben tener la misma etiqueta.
  • Asunción de clúster: las instancias que se encuentran en el mismo clúster deben tener la misma etiqueta.

Taxonomía

[editar]

van Engelen[2]​ presentó una taxonomía que actualmente es la más utilizada, y la que mejor representa el conjunto de modelos SSL. Esta taxonomía se divide en:

Transductivos

[editar]

El grupo inicial de métodos SSL comprende los métodos transductivos. Los algoritmos transductivos generalmente no desarrollan ningún modelo en la fase de entrenamiento y el objetivo es etiquetar el conjunto de instancias no etiquetadas que ya están disponibles. Por lo tanto, el enfoque transductivo no se utiliza con instancias nuevas y desconocidas, por ejemplo, en un sistema de diagnóstico en línea que realiza detección y diagnóstico a medida que se recopilan nuevos datos. Este tipo de métodos siempre se basan en grafos. Los métodos suelen estar compuestos por tres fases: creación del grafo, ponderación del grafo e inferencia (propagación de etiquetas).[3]

Inductivos

[editar]

Los algoritmos inductivos generalmente desarrollan un modelo durante la fase de entrenamiento que puede ser utilizado posteriormente para etiquetar datos no vistos.[4][5]​ El objetivo en este caso es utilizar las instancias no etiquetadas ya disponibles durante la etapa de entrenamiento para mejorar el modelo que podría haberse obtenido si solo se hubieran utilizado instancias etiquetadas para el entrenamiento. Estos métodos se puede seguir dividiendo en:

Métodos wrapper

[editar]

Los métodos wrapper primero entrenan un clasificador (algunos métodos wrapper entrenan más de un clasificador) utilizando solo las instancias etiquetadas para generar las predicciones de las instancias no etiquetadas. Luego, el clasificador se vuelve a entrenar (o los clasificadores se vuelven a entrenar) utilizando tanto las instancias etiquetadas originales como las nuevas instancias etiquetadas (también llamadas pseudo-etiquetadas) para mejorar el modelo, en un proceso que puede realizarse varias veces.

Preprocesamiento no supervisado

[editar]

Los métodos de preprocesamiento no supervisados utilizan instancias no etiquetadas para diferentes propósitos, como extraer características de los datos no etiquetados, pre-agrupando los datos y para establecer los parámetros iniciales de un modelo de aprendizaje supervisado de manera no supervisada. Cabe destacar que este tipo de métodos realiza estas acciones antes del entrenamiento del modelo final.

Intrínsecamente semisupervisados

[editar]

Los modelos intrínsecamente semisupervisados son aquellos que incorporan directamente instancias no etiquetadas en la función objetivo o de optimización del método de aprendizaje. En lugar de tratar las instancias no etiquetadas como datos adicionales separados, estos métodos integran estas instancias en el proceso de aprendizaje para mejorar el rendimiento del modelo.

Aplicaciones

[editar]

Los métodos de aprendizaje semisupervisado, como el resto de técnicas de aprendizaje automático, tienen multitud de aplicaciones en conjuntos de datos reales. El aprendizaje supervisado, quizás la técnica más popular dentro del aprendizaje automático, tiene una contrapartida al ser aplicada en entorno real, ya que necesita una gran cantidad de datos etiquetados, y es que en muchas situaciones obtener una instancia de un dato es sencillo, pero darle su etiqueta real es una tarea difícil y costosa. Gracias a la capacidad de los métodos semisupervisados de obtener información de los datos no etiquetas, además de los etiquetados, permite ser aplicado en casos donde existen pocas instancias etiquetadas y muchas instancias sin etiquetar.

Un ejemplo común donde el aprendizaje semisupervisado puede ser muy beneficioso es en procesos industriales. En un proceso industrial como puede ser la detección y diagnosis de fallos de una máquina normalmente se pueden obtener instancias del proceso fácilmente gracias a los distintos sensores que tiene el proceso, pero poder etiquetar esas instancias es una tarea muy costosa normalmente hecha por un experto humano. Por ello, en este tipo de conjuntos de datos se termina con una gran cantidad de instancias no etiquetadas y un pequeño conjunto de instancias etiquetadas.[4]

Otros ámbitos donde el aprendizaje semisupervisado son la reidentificación de animales en vídeo[6]​donde se tiene en cuenta el uso de restricciones, calculadas de forma no supervisada, para mejorar el desempeño de un clasificador clásico. También es una técnica útil en el campo de la bioinformática para la predicción del plegamiento de proteínas[7]​y en medicina, en el diagnóstico[8]​o en la clasificación de imagen médica,[9]​ entre otras muchas aplicaciones.

Véase también

[editar]

Referencias

[editar]
  1. a b Chapelle, Olivier, ed. (22 de septiembre de 2006). Semi-Supervised Learning (en inglés). The MIT Press. ISBN 978-0-262-25589-9. doi:10.7551/mitpress/9780262033589.001.0001. Consultado el 6 de junio de 2024. 
  2. a b van Engelen, Jesper E.; Hoos, Holger H. (2020-02). «A survey on semi-supervised learning». Machine Learning (en inglés) 109 (2): 373-440. ISSN 0885-6125. doi:10.1007/s10994-019-05855-6. Consultado el 6 de junio de 2024. 
  3. «Semi-supervised learning with graphs - ProQuest». www.proquest.com. Consultado el 6 de junio de 2024. 
  4. a b Ramírez-Sanz, José Miguel; Maestro-Prieto, Jose-Alberto; Arnaiz-González, Álvar; Bustillo, Andrés (2023-12). «Semi-supervised learning for industrial fault detection and diagnosis: A systemic review». ISA Transactions 143: 255-270. ISSN 0019-0578. doi:10.1016/j.isatra.2023.09.027. Consultado el 6 de junio de 2024. 
  5. Garrido-Labrador, José Luis; Serrano-Mamolar, Ana; Maudes-Raedo, Jesús; Rodríguez, Juan J.; García-Osorio, César (2024-07). «Ensemble methods and semi-supervised learning for information fusion: A review and future research directions». Information Fusion 107: 102310. ISSN 1566-2535. doi:10.1016/j.inffus.2024.102310. Consultado el 6 de junio de 2024. 
  6. Kuncheva, Ludmila I.; Garrido-Labrador, José Luis; Ramos-Pérez, Ismael; Hennessey, Samuel L.; Rodríguez, Juan J. (1 de abril de 2024). «Semi-supervised classification with pairwise constraints: A case study on animal identification from video». Information Fusion 104: 102188. ISSN 1566-2535. doi:10.1016/j.inffus.2023.102188. Consultado el 13 de septiembre de 2024. 
  7. Barbero-Aparicio, José A.; Olivares-Gil, Alicia; Rodríguez, Juan J.; García-Osorio, César; Díez-Pastor, José F. (1 de febrero de 2024). «Addressing data scarcity in protein fitness landscape analysis: A study on semi-supervised and deep transfer learning techniques». Information Fusion 102: 102035. ISSN 1566-2535. doi:10.1016/j.inffus.2023.102035. Consultado el 13 de septiembre de 2024. 
  8. Li, Ming; Zhou, Zhi-Hua (2007-11). «Improve Computer-Aided Diagnosis With Machine Learning Techniques Using Undiagnosed Samples». IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans 37 (6): 1088-1098. ISSN 1083-4427. doi:10.1109/TSMCA.2007.904745. Consultado el 13 de septiembre de 2024. 
  9. Huynh, Tri; Nibali, Aiden; He, Zhen (1 de abril de 2022). «Semi-supervised learning for medical image classification using imbalanced training data». Computer Methods and Programs in Biomedicine 216: 106628. ISSN 0169-2607. doi:10.1016/j.cmpb.2022.106628. Consultado el 13 de septiembre de 2024.