Ο όρος σύνθεση ομιλίας αναφέρεται στην τεχνητή παραγωγή της ανθρώπινης ομιλίας. Το υπολογιστικό σύστημα που χρησιμοποιείται για αυτόν τον σκοπό ονομάζεται συνθετητής ομιλίας, και μπορεί να εφαρμοστεί και σε προϊόντα λογισμικού και σε μηχανήματα υπολογιστών. Ένα σύστημα text-to-speech (TTS), δηλαδή "από-κείμενο-σε-ομιλία", μετατρέπει ένα κανονικό γλωσσικό κείμενο σε ομιλία. Άλλα συστήματα καθιστούν συμβολικές γλωσσικές αναπαραστάσεις, όπως οι φωνητικές καταγραφές, σε ομιλία[1].
Ο συντιθέμενη ομιλία μπορεί να δημιουργηθεί με την συνένωση κομματιών ηχογραφημένου λόγου τα οποία αποθηκεύονται σε κάποια βάση δεδομένων. Τα συστήματα διαφέρουν στο μέγεθος των αποθηκευμένων μονάδων ομιλίας π.χ. ένα σύστημα που αποθηκεύει φώνους ή δίφωναπαρέχει μεγαλύτερη κάλυψη της εξαγόμενης ομιλίας, αλλά μπορεί να στερείται σαφήνειας. Για συγκεκριμένους τομείς χρήσης, η αποθήκευση ολόκληρων λέξεων ή προτάσεων μπορεί να παρέχει υψηλής ποιότητας εξαγόμενη ομιλία. Εναλλακτικά, ένας συνθετητής μπορεί να συμπεριλάβει κάποιο μοντέλο της φωνητικής οδούς και άλλων χαρακτηριστικών της ανθρώπινης φωνής ώστε να δημιουργήσει ένα εντελώς "συνθετικό" φωνητικό αποτέλεσμα[2]. Η ποιότητα ενός συνθετητή ομιλίας εξαρτάται από την ομοιότητα του με την ανθρώπινη φωνή και από την ικανότητα του να μπορεί να κατανοηθεί. Ένα ευκολονόητο πρόγραμμα text-to-speech επιτρέπει σε ανθρώπους με προβλήματα όρασης ή δυσκολίες ανάγνωσης να ακούν τα γραπτά κείμενά τους στον υπολογιστή του σπιτιού τους. Πολλά λειτουργικά συστήματα ηλεκτρονικών υπολογιστών συμπεριλαμβάνουν συνθετητές ομιλίας από τις αρχές της δεκαετίας του 1990.
Ένα σύστημα (ή αλλιώς "μηχανή") text-to-speech αποτελείται από δύο μέρη[3]: το μετωπιαίο και το νωτιαίο άκρο. Το μετωπιαίο άκρο εκτελεί δύο βασικές εργασίες. Πρώτα, μετατρέπει το ανεπεξέργαστο κείμενο που περιέχει σύμβολα όπως αριθμούς και συντομεύσεις στις αντίστοιχες λέξεις ολογράφως. Αυτή η διαδικασία ονομάζεται ομαλοποίηση κειμένου, προ-επεξεργασία ή σημειοποίηση. Έπειτα, το μετωπιαίο άκρο αναθέτει φωνητικές καταγραφές σε κάθε λέξη, και διαιρεί και σηματοδοτεί το κείμενο σε προσωδικές μονάδες, όπως φράσεις και προτάσεις. Η διαδικασία ανάθεσης φωνητικών καταγραφών σε λέξεις ονομάζεται μετατροπή text-to-phoneme (από-κείμενο-σε-φώνημα) ή grapheme-to-phoneme (από-γράφημα-σε-φώνημα). Οι φωνητικές καταγραφές και οι προσωδιακές πληροφορίες αποτελούν την συμβολική γλωσσική αναπαράσταση, η οποία είναι το εξαγόμενο του μετωπιαίου άκρου. Τέλος, το νωτιαίο άκρο- συχνά αναφέρεται και ως ο συνθετητής- μετατρέπει την συμβολική γλωσσική αναπαράσταση σε ήχο. Σε ορισμένα συστήματα, το συγκεκριμένο κομμάτι συμπεριλαμβάνει και τον υπολογισμό της στοχευόμενης προσωδίας (την περιβάλλουσα ύψους φωνής, τις διάρκειες των φωνημάτων)[4], η οποία στην συνέχεια υπαγορεύεται στην εξαγόμενη ομιλία.
Πολύ πριν από την εφεύρεση της ηλεκτρονικής επεξεργασίας σήματος, κάποιοι προσπάθησαν να δημιουργήσουν μηχανές που να μιμούνται την ανθρώπινη ομιλία[5][6]. Κάποιοι πρώιμοι θρύλοι για την ύπαρξη "χαλκοκέφαλων" συνδέονται με τον Πάπα Σιλβέστερο Β΄ (πεθ. 1003 μ.Χ.), τον Albertus Magnus (1198-1280) και τον Roger Bacon (1214-1294).
Στη δεκαετία του 1930, η Bell Labs ανέπτυξε έναν vocoder που ανέλυε αυτόματα την ομιλία σύμφωνα με τους βασικούς τόνους και τους συντονισμούς της[7]. Με βάση το έργο του στον vocoder, ο Homer Dudley ανέπτυξε έναν συνθέτη φωνής ελεγχόμενο από πληκτρολόγιο με την ονομασία The Voder (επιδεικτικό φωνής), τον οποίο εξέθεσε στην Παγκόσμια Έκθεση της Νέας Υόρκης το 1939[8][9][10].
Υπάρχουν πλέον πολλές εφαρμογές, πρόσθετα και gadgets που μπορούν να διαβάζουν μηνύματα απευθείας από ένα πρόγραμμα-πελάτη ηλεκτρονικού ταχυδρομείου και ιστοσελίδες από ένα πρόγραμμα περιήγησης στο διαδίκτυο ή μια γραμμή εργαλείων της Google. Ορισμένα εξειδικευμένα προγράμματα μπορούν να σχολιάζουν ροές RSS. Από τη μία πλευρά, τα διαδικτυακά ηχεία RSS απλοποιούν την παροχή πληροφοριών, επιτρέποντας στους χρήστες να ακούν τις αγαπημένες τους πηγές ειδήσεων και να τις μετατρέπουν σε podcast[11].
Οι πρόσφατες εξελίξεις στην τεχνητή νοημοσύνη (AI) έχουν αυξήσει τις δυνατότητες της τεχνολογίας TTS, για παράδειγμα, με την προσθήκη πολύγλωσσης τεχνολογίας όπου το κείμενο μπορεί να παραχθεί σε ομιλία σε διάφορες γλώσσες[12].
Στο συνέδριο Neural Information Processing Systems Conference (NeurIPS) του 2018, ερευνητές της Google παρουσίασαν μια εργασία με τίτλο "Transferring Learning from Speaker Verification to Text Synthesis in Multi-Loudspeaker Speech"[13], η οποία μεταφέρει τη μάθηση από την επαλήθευση του ομιλητή στη σύνθεση κειμένου σε ομιλία που μπορεί να ακούγεται σχεδόν σαν οποιοσδήποτε άνθρωπος από ένα δείγμα ομιλίας μόλις 5 δευτερολέπτων.