Whisper es un modelo de aprendizaje automático para el reconocimiento y la transcripción de voz, creado por OpenAI y lanzado por primera vez como software de código abierto en septiembre de 2022.[1]
Es capaz de transcribir voz en inglés y varios idiomas más,[2] y también de traducir al inglés varias lenguas. OpenAI afirma que la combinación de diferentes datos de entrenamiento utilizados en su desarrollo ha permitido mejorar el reconocimiento de acentos, ruido de fondo y jerga en comparación con enfoques anteriores.[3]
Whisper es un modelo acústico de aprendizaje profundo de supervisión débil, realizado mediante una arquitectura de transformador codificador-decodificador.[4]
Whisper V2 se lanzó el 8 de diciembre de 2022.[5] Whisper V3 se publicó en noviembre de 2023, en el OpenAI Dev Day.[6]
El reconocimiento del habla tiene una larga historia en la investigación; los primeros enfoques utilizaban métodos estadísticos, como la deformación temporal dinámica, y más tarde modelos ocultos de Markov. Alrededor de la década de 2010, los enfoques de redes neuronales profundas se hicieron más comunes para los modelos de reconocimiento del habla, lo que fue posible gracias a la disponibilidad de grandes conjuntos de datos («macrodatos») y al aumento del rendimiento computacional.[7] Los primeros enfoques del aprendizaje profundo en el reconocimiento del habla incluían redes neuronales convolucionales, que estaban limitadas debido a su incapacidad para capturar datos secuenciales, lo que más tarde llevó al desarrollo de enfoques Seq2seq, que incluyen redes neuronales recurrentes que hacían uso de la memoria a corto plazo.[8]
Los transformadores, introducidos en 2017 por Google, desplazaron muchos enfoques anteriores del estado de la técnica a muchos problemas en el aprendizaje automático, y comenzaron a convertirse en la arquitectura neuronal central en campos como la modelación del lenguaje y la visión por ordenador;[9] los enfoques débilmente supervisados para entrenar modelos acústicos fueron reconocidos a principios de la década de 2020 como prometedores para los enfoques de reconocimiento del habla que utilizan redes neuronales profundas.[10]
Whisper se ha entrenado mediante aprendizaje semisupervisado con 680.000 horas de datos multilingües y multitarea, de los que aproximadamente una quinta parte (117.000 horas) son datos de audio no ingleses. Whisper no supera a los modelos especializados en el conjunto de datos LibriSpeech, aunque cuando se prueba en muchos conjuntos de datos, es más robusto y comete un 50 % menos de errores que otros modelos.[11]
Whisper presenta una tasa de error diferente según los idiomas que transcribe, con una tasa de error por palabra más alta en los idiomas que no están bien representados en los datos de entrenamiento.[12]
El modelo se ha utilizado como base para un modelo unificado de reconocimiento del habla y reconocimiento de sonidos más general.[13]
La arquitectura de Whisper se basa en un transformador codificador-decodificador. El audio de entrada se divide en trozos de 30 segundos convertidos en un cepstrum de frecuencia Mel (MFCC), que se pasa a un codificador. Se entrena un descodificador para predecir los subtítulos de texto posteriores. Se utilizan tokens especiales para realizar varias tareas, como marcas de tiempo a nivel de frase.[11]