Aprendizaje Ockham

En la teoría del aprendizaje computacional, el aprendizaje Ockham (u Occam) es un modelo de aprendizaje algorítmico en el que el objetivo del alumno es obtener una representación sucinta de los datos de entrenamiento recibidos. Está estrechamente relacionado con el aprendizaje probablemente aproximadamente correcto (PAC), en el que el alumno se evalúa en función de su poder predictivo de un conjunto de pruebas.

La aprendibilidad de Ockham implica aprendibilidad de PAC, y para una amplia variedad de clases de conceptos, lo contrario también es cierto: La capacidad de aprendizaje PAC implica la capacidad de aprendizaje Ockham.

Introducción

[editar]

El aprendizaje Ockham debe su nombre a la navaja de Ockham, un principio según el cual, en igualdad de condiciones, una explicación más corta de los datos observados debería ser preferible a una explicación más larga. La teoría del aprendizaje de Occam es una justificación formal y matemática de este principio. Blumer et al.[1]​ demostraron por primera vez que el aprendizaje de Occam implica el aprendizaje PAC, que es el modelo estándar de aprendizaje en la teoría del aprendizaje computacional. En otras palabras, la parsimonia (de la hipótesis de salida) implica poder predictivo.

Definición del aprendizaje Ockham

[editar]

La concisión de un concepto en la clase de concepto puede expresarse mediante la longitud de la cadena de bits más corta que puede representar en . El aprendizaje Ockham relaciona la concisión de los resultados de un algoritmo de aprendizaje con su capacidad de predicción sobre datos desconocidos.

Dejemos que y sean clases de conceptos que contienen conceptos objetivo e hipótesis, respectivamente. Entonces, para las constantes y , un algoritmo de aprendizaje es un algoritmo Ockham para usando dado un conjunto de muestras etiquetados según un concepto , genera una hipótesis de forma que:

  • es consistente con en (es decir, ), y
  • [1][2]

Donde es la longitud máxima de cualquier muestra . Un algoritmo de Ockham se denomina eficiente si se ejecuta en tiempo polinomial en , y Decimos una clase de concepto es aprendizaje de Ockham con respecto a una hipótesis de clase si existe un algoritmo Ockham eficiente para usando

La relación entre Ockham y el aprendizaje PAC

[editar]

El aprendizaje de Ockham implica el aprendizaje de PAC, como muestra el siguiente teorema de Blumer, et al:[2]

Teorema (el aprendizaje de Ockham implica el aprendizaje de PAC)

[editar]

Dejemos sea un algoritmo Ockham eficiente para usando . Entonces existe allí una contante de forma que para cualquier , para cualquier distribución , dando:

muestras extraídas de y etiquetados según un concepto de una extensión de bits cada uno, el algoritmo dará como resultado una hipótesis de forma que tendrá una probabilidad de por lo menos .

Aquí, es con respecto al concepto y distribución . Esto implica que el algoritmo es también un aprendiz de PAC para la clase de conceptos usando hipótesis clase .

Una formulación ligeramente más general es la siguiente:

Teorema (el aprendizaje de Ockham implica el aprendizaje PAC, versión cardinalidad)

[editar]

Tenemos . Dejemos que sea un algoritmo tal que, dando muestras extraída de una distribución fija pero desconocida y etiquetadas según un concepto de longitud de bits cada uno, produce una hipótesis que es coherente con las muestras etiquetadas.

Entonces, existe una constante de forma que , entonces garantiza la salida de una hipótesis de forma que tiene una probabilidad de por lo menos .

Aunque los teoremas anteriores muestran que el aprendizaje Ockham es suficiente para el aprendizaje PAC, no dicen nada sobre la necesidad. Board y Pitt demuestran que, para una amplia variedad de clases conceptuales, el aprendizaje Ockham es de hecho necesario para el aprendizaje PAC.[3]​ Demostraron que para cualquier clase conceptual que sea polinomialmente cerrada bajo listas de excepciones, el aprendizaje PAC implica la existencia de un algoritmo Ockham para esa clase conceptual. Las clases conceptuales que son polinomialmente cerradas bajo listas de excepciones incluyen fórmulas booleanas, circuitos, autómatas finitos deterministas, listas de decisión, árboles de decisión y otras clases conceptuales definidas geométricamente.

Un concepto clase es polinómicamente cerrado bajo listas de excepciones si existe un algoritmo en tiempo polinómico de forma tal que, cuando se le da la representación de un concepto y una lista finita de excepciones genera una representación de un concepto de forma que los conceptos y coinciden excepto en el set .

Prueba de que el aprendizaje Ockham implica el aprendizaje de PAC

[editar]

Primero probamos la versión de la cardinalidad. Llamamos hipótesis mala si resulta en , donde nuevamente es con respecto al concepto real y la distribución subyacente . La probabilidad de que un conjunto de muestras es consistente con es a lo mucho , por la independencia de las muestras. Por el límite de unión, la probabilidad de que exista una hipótesis mala en es a lo mucho , que es menor que si resulta . Con esto concluye la demostración del segundo teorema anterior.

Utilizando el segundo teorema, podemos demostrar el primero. Como tenemos el algoritmo de Ockham esto significa que cualquier hipótesis emitida por puede representarse como máximo por bits, y por lo tanto, . Esto es menor a si establecemos para una constante . Así, por el Teorema de la versión de la cardinalidad, dará como resultado una hipótesis coherente con una probabilidad de por lo menos . Con esto concluye la demostración del primer teorema anterior.

Mejora de la complejidad de las muestras para problemas comunes

[editar]

Aunque el aprendizaje de Ockham y PAC son equivalentes, el marco de Ockham puede utilizarse para producir límites más ajustados en la complejidad muestral de problemas clásicos, incluyendo conjunciones,[2]​ conjunciones con pocas variables relevantes,[4]​ y listas de decisión.[5]

Extensiones

[editar]

Los algoritmos de Ockham también han demostrado tener éxito para el aprendizaje PAC en presencia de errores,[6][7]​ conceptos probabilísticos,[8]​ aprendizaje de funciones[9]​ y ejemplos markovianos no independientes.[10]

Véase también

[editar]

Referencias

[editar]
  1. a b Blumer, A., Ehrenfeucht, A., Haussler, D., & Warmuth, M. K (1987). «Occam's razor». Information processing letters. 
  2. a b c Kearns, Michael J.; Vazirani, Umesh (15 de agosto de 1994). An Introduction to Computational Learning Theory (en inglés). MIT Press. ISBN 978-0-262-11193-5. Consultado el 26 de junio de 2024. 
  3. Board, R., & Pitt, L. (1990). «On the necessity of Occam algorithms.». In Proceedings of the twenty-second annual ACM symposium on Theory of computing. 
  4. Haussler, D. (1988). «Quantifying inductive bias: AI learning algorithms and Valiant's learning framework». Artificial intelligence. 
  5. Rivest, R. L. (1987). Learning decision lists. Machine learning. 
  6. Angluin, D., & Laird, P. (1988). «Learning from noisy examples». Machine Learning,. 
  7. Kearns, M., & Li, M. (1993). «Learning in the presence of malicious errors.». SIAM Journal on Computing. 
  8. Kearns, M. J., & Schapire, R. E. (1990). «Efficient distribution-free learning of probabilistic concepts». In Foundations of Computer Science, 1990. Proceedings., 31st Annual Symposium on. 
  9. Natarajan, B. K. (1993). «Occam's razor for functions.». In Proceedings of the sixth annual conference on Computational learning theory. 
  10. Aldous, D., & Vazirani, U. (1990). «A Markovian extension of Valiant's learning model». In Foundations of Computer Science, 1990. Proceedings., 31st Annual Symposium.