Udio est un modèle d'intelligence artificielle générative qui produit de la musique à partir de descriptions textuelles fournies par l'utilisateur. Sa version bêta gratuite est sortie publiquement le 10 avril 2024. Udio a été fondé en décembre 2023 par une équipe d'anciens chercheurs de Google DeepMind, et a pour PDG David Ding. Le programme a reçu le soutien financier de la société de capital-risque Andreessen Horowitz. Certains critiques ont exprimé des inquiétudes quant à la potentielle utilisation de musiques protégées par le droit d'auteur pour entraîner le modèle, ainsi que concernant sa capacité à remplacer les musiciens humains.
Udio a été créé en décembre 2023 par Andrew Sanchez ainsi que quatre anciens chercheurs de Google DeepMind : Conor Durkan, Charlie Nash, Yaroslav Ganin, et le PDG d'Udio David Ding[1],[2]. La société de capital-risque Andreessen Horowitz, les musiciens will.i.am et Common, ainsi que le cofondateur d'Instagram Mike Krieger, ont fourni un soutien financier à Udio[2]. Une version bêta est sortie en avril 2024, et permet aux utilisateurs de générer gratuitement 1 200 chansons par mois[3],[4] Sanchez a affirmé que Udio aide à créer de la bonne musique, et que plus tard, les créateurs pourront en tirer de l'argent[1]. La sortie d'Udio fait suite aux sorties d'autres générateurs de texte en musique tels que Suno AI et Stability Audio[2].
Udio génère des chansons à partir de descriptions textuelles (appelées prompts), qui peuvent inclure le genre musical (par exemple hip hop, classique, hard rock ou country), les paroles, le thème, et d'autres artistes desquels s'inspirer. Ses paroles peuvent être saisies manuellement par l'utilisateur, ou générées à l'aide d'un grand modèle de langage. En avril 2024, le processus exact utilisé pour générer la musique elle-même n'a pas encore été divulgué par les créateurs d'Udio[5]. En 40 secondes environ, le programme génère deux chansons correspondant à la description fournie par l'utilisateur. Les utilisateurs ont la possibilité de « remixer » leurs chansons en modifiant la description originale[3]. Le modèle génère des musiques de 30 secondes, mais qui peuvent ensuite être étendues à 90 secondes[4].
Mark Hachman, rédacteur en chef de PC World, a comparé Udio aux générateurs d'art à base d'intelligence artificielle, et a loué sa capacité à transformer « quelques paroles plutôt médiocres » en une chanson « plutôt entraînante », qualifiant également les voix qu'elle a générées « d'incroyablement réalistes et même émotionnelles »[4]. Ryan Morrison a écrit sur Tom's Guide que Udio avait « une étrange capacité à capturer l'émotion dans les voix synthétiques », et était le seul générateur de musique « à avoir capturé la passion, la douleur et l'esprit d'une performance vocale ». Il a ajouté que le programme était destiné à « des personnes ayant peu voire pas de capacités musicales »[6]. Brian Hiatt a écrit sur Rolling Stone que Udio était « plus personnalisable mais peut-être aussi moins intuitif à utiliser » que Suno AI, et a ajouté que « certains premiers utilisateurs ont suggéré que, en moyenne, la sortie d'Udio semble plus nette que celle de Suno »[1].
Pour Ars Technica, Benj Edwards a écrit que « la capacité de génération d'Udio n'est pas parfaite » et « moins impressionnante » que celle de Suno AI, notant que ses chansons étaient nettement plus courtes que celles de Suno AI. Il a également qualifié les chansons produites de « à moitié cuites et presque cauchemardesques »[5]. En réponse à l'annonce par la société de la sortie bêta d'Udio sur Twitter, Joshua Eustis, membre de Telefon Tel Aviv, a tweeté qu'Udio était « une application pour remplacer les musiciens » et a remis en question les données utilisées. Udio a également été critiqué en ligne comme étant « sans âme » et pour avoir le potentiel de créer des deepfakes audio[3],[2]. Lucas Ropek a déclaré sur Gizmodo que Udio était « plein d'absurdités acoustiques », et que ses chansons étaient « extraordinairement mauvaises »[7].
Certains se sont demandé quelles données ont été utilisées pour l'entraîner, et si ces données consistaient en de la musique protégée par le droit d'auteur. Brian Hiatt de Rolling Stone a écrit qu'il y avait « des raisons substantielles de croire » que Udio et Suno AI ont été formés avec de la musique protégée par le droit d'auteur, tandis que Benj Edwards d'Ars Technica a écrit que ses données de formation étaient « probablement remplies de matériel protégé par le droit d'auteur »[5],[3]. Udio ne recrée pas directement les chansons protégées par le droit d'auteur si vous y êtes invité[4]. Ding a déclaré qu'Udio dispose de « filtres automatisés étendus en matière de droits d'auteur » et que la société « affine continuellement [ses] garanties »[2].