Whisper (modelo de reconocimiento de voz)

Whisper es un modelo de aprendizaje automático para el reconocimiento y la transcripción de voz, creado por OpenAI y lanzado por primera vez como software de código abierto en septiembre de 2022.[1]

Es capaz de transcribir voz en inglés y varios idiomas más,[2]​ y también de traducir al inglés varias lenguas. OpenAI afirma que la combinación de diferentes datos de entrenamiento utilizados en su desarrollo ha permitido mejorar el reconocimiento de acentos, ruido de fondo y jerga en comparación con enfoques anteriores.[3]

Whisper es un modelo acústico de aprendizaje profundo de supervisión débil, realizado mediante una arquitectura de transformador codificador-decodificador.[4]

Whisper V2 se lanzó el 8 de diciembre de 2022.[5]​ Whisper V3 se publicó en noviembre de 2023, en el OpenAI Dev Day.[6]

Antecedentes

[editar]

El reconocimiento del habla tiene una larga historia en la investigación; los primeros enfoques utilizaban métodos estadísticos, como la deformación temporal dinámica, y más tarde modelos ocultos de Markov. Alrededor de la década de 2010, los enfoques de redes neuronales profundas se hicieron más comunes para los modelos de reconocimiento del habla, lo que fue posible gracias a la disponibilidad de grandes conjuntos de datos («macrodatos») y al aumento del rendimiento computacional.[7]​ Los primeros enfoques del aprendizaje profundo en el reconocimiento del habla incluían redes neuronales convolucionales, que estaban limitadas debido a su incapacidad para capturar datos secuenciales, lo que más tarde llevó al desarrollo de enfoques Seq2seq, que incluyen redes neuronales recurrentes que hacían uso de la memoria a corto plazo.[8]

Los transformadores, introducidos en 2017 por Google, desplazaron muchos enfoques anteriores del estado de la técnica a muchos problemas en el aprendizaje automático, y comenzaron a convertirse en la arquitectura neuronal central en campos como la modelación del lenguaje y la visión por ordenador;[9]​ los enfoques débilmente supervisados para entrenar modelos acústicos fueron reconocidos a principios de la década de 2020 como prometedores para los enfoques de reconocimiento del habla que utilizan redes neuronales profundas.[10]

Entrenamiento y capacidades

[editar]

Whisper se ha entrenado mediante aprendizaje semisupervisado con 680.000 horas de datos multilingües y multitarea, de los que aproximadamente una quinta parte (117.000 horas) son datos de audio no ingleses. Whisper no supera a los modelos especializados en el conjunto de datos LibriSpeech, aunque cuando se prueba en muchos conjuntos de datos, es más robusto y comete un 50 % menos de errores que otros modelos.[11]

Whisper presenta una tasa de error diferente según los idiomas que transcribe, con una tasa de error por palabra más alta en los idiomas que no están bien representados en los datos de entrenamiento.[12]

El modelo se ha utilizado como base para un modelo unificado de reconocimiento del habla y reconocimiento de sonidos más general.[13]

Arquitectura

[editar]

La arquitectura de Whisper se basa en un transformador codificador-decodificador. El audio de entrada se divide en trozos de 30 segundos convertidos en un cepstrum de frecuencia Mel (MFCC), que se pasa a un codificador. Se entrena un descodificador para predecir los subtítulos de texto posteriores. Se utilizan tokens especiales para realizar varias tareas, como marcas de tiempo a nivel de frase.[11]

Véase también

[editar]

Referencias

[editar]
  1. Golla, Ramsri Goutham (6 de marzo de 2023). «Here Are Six Practical Use Cases for the New Whisper API». Slator (en inglés estadounidense). Archivado desde el original el 25 de marzo de 2023. Consultado el 12 de agosto de 2023. 
  2. Dickson, Ben (3 de octubre de 2022). «How will OpenAI's Whisper model impact AI applications?». VentureBeat (en inglés estadounidense). Archivado desde el original el 15 de marzo de 2023. Consultado el 12 de agosto de 2023. 
  3. Wiggers, Kyle (21 de septiembre de 2022). «OpenAI open-sources Whisper, a multilingual speech recognition system». TechCrunch (en inglés estadounidense). Archivado desde el original el 12 de febrero de 2023. Consultado el 12 de febrero de 2023. 
  4. Radford, Alec; Kim, Jong Wook; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022-12-06). «Robust Speech Recognition via Large-Scale Weak Supervision». arXiv:2212.04356  [eess.AS]. 
  5. «Announcing the large-v2 model · openai/whisper · Discussion #661». GitHub (en inglés). Consultado el 8 de enero de 2024. 
  6. OpenAI DevDay: Opening Keynote (en inglés), consultado el 8 de enero de 2024 .
  7. Yu, Dong; Deng, Li (2014). Automatic speech recognition: a deep learning approach. Signals and communication technology (en inglés) (2015th edición). London Heidelberg: Springer. p. 9. ISBN 978-1-4471-5778-6. 
  8. Siddique, Latif; Zaidi, Aun; Cuayahuitl, Heriberto; Shamshad, Fahad; Shoukat, Moazzam; Qadir, Junaid (2023). «Transformers in Speech Processing: A Survey». arXiv:2303.11607v1  [cs.CL]. 
  9. Kamath, Uday; Graham, Kenneth L.; Emara, Wael (2022). Transformers for machine learning: a deep dive. Chapman & Hall/CRC machine learning & pattern recognition (en inglés) (First edición). Boca Raton London New York: CRC Press, Taylor & Francis Group. pp. xix. ISBN 978-0-367-76734-1. 
  10. Paaß, Gerhard; Giesselbach, Sven (16 de febrero de 2023). «Foundation Models for Speech, Images, Videos, and Control». Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms (en inglés). pp. 313-382. ISBN 978-3-031-23189-6. S2CID 257019816. arXiv:2302.08575. doi:10.1007/978-3-031-23190-2_7. 
  11. a b «Introducing Whisper». openai.com (en inglés estadounidense). 21 de septiembre de 2022. Archivado desde el original el 20 de agosto de 2023. Consultado el 21 de agosto de 2023. 
  12. Wiggers, Kyle (1 de marzo de 2023). «OpenAI debuts Whisper API for speech-to-text transcription and translation». TechCrunch (en inglés estadounidense). Archivado desde el original el 18 de julio de 2023. Consultado el 21 de agosto de 2023. 
  13. Yuan, Gong; Khurana, Sameer; Karlinsky, Leonid; Glass, James (2023). «Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers». Interspeech 2023. pp. 2798-2802. arXiv:2307.03183. doi:10.21437/Interspeech.2023-2193.