Ein intelligenter persönlicher Assistent, auch Sprachassistent oder mobiler Assistent, ist eine Software, die es ermöglicht, mittels Kommunikation in natürlicher, menschlicher Sprache Informationen abzufragen, Dialoge zu führen und Assistenzdienste zu erbringen, indem sie zur Spracherkennung eine Sprachanalyse vollzieht, diese semantisch interpretiert, logisch verarbeitet und als Ergebnis durch Sprachsynthese eine Antwort formuliert. Verbreitung fanden solche Anwendungen ab ca. 2012 vor allem auf Smartphones. Abzugrenzen ist der Begriff des Sprachassistenten vom Smart Speaker, welcher nur eine bestimmte Art eines Frontends für diese bezeichnet.
Damit eine sprachliche Eingabe durch den Nutzer erfolgen kann, muss diese erst erkannt und verstanden werden. Dabei kommen Spracherkennungs- und Parsingalgorithmen zum Einsatz. Ein erkannter Begriff wird anschließend an eine entsprechende Anwendung delegiert. Fortgeschrittenere Assistenten können bei Unklarheiten Rückfragen an den Nutzer stellen oder ihn um Bestätigungen bitten. Ziel der Entwicklung ist es, einen möglichst nahtlosen und vertrauenswürdigen Sprachdialog zwischen Mensch und Maschine herzustellen. Semantische Technologien können eingesetzt werden, um einem Computer sprachliche Zusammenhänge verständlich zu machen, sodass dieser relevante Schlüsselwörter als spezifische Befehle erkennen kann. Um möglichst schnelle Reaktionszeiten zu ermöglichen, werden die meisten Daten auf Servern der Anbieter verarbeitet, d. h. eine Internetverbindung ist notwendig. Ebenso wird meist eine Anmeldung über ein Benutzerkonto vorausgesetzt.
Derzeit (Mitte 2019) gibt es unter anderem Google Assistant, Siri, Alexa (Amazon Echo), Cortana, Bixby (Samsung), Hallo Magenta (Telekom), HiVoice (Huawei) und Mycroft. Mycroft ist Open-Source und bietet vollständige Quellcode-Offenheit. Von Loupventures wurden Google Assistent, Siri, Alexa und Cortana miteinander verglichen. Dies geschah auf folgende Art: An jedes System wurden 800 Fragen gestellt. Bewertet wurden folgende zwei Kriterien: Hat das System die Frage verstanden? War die Antwort korrekt? Der Google Assistant war im Herbst 2018 klarer Testsieger.[1][2]
Intelligente persönliche Assistenten sind angewandte Technologie aus Bereichen der Künstlichen Intelligenz, vor allem der maschinellen Sprachverarbeitung beziehungsweise der Computerlinguistik innerhalb von kognitiven Systemen. Sie funktionieren meist als Applikation auf einem Betriebssystemen oder sind in dieses integriert. Ein Virtueller Assistent bezeichnet eine Form des Outsourcing durch externes Personal. Intelligente virtuelle Agenten können solche Systeme als visuelle Verkörperung ergänzen, um eine persönliche und emotionale Verbindung zu ermöglichen. Sie stellen gegebenenfalls eine Weiterentwicklung der Sprachassistenten dar, denen es an Fähigkeit zur nonverbalen Kommunikation fehlt.
Die persönlichen Assistenten waren anfangs primär noch auf die Nutzung via PCs bzw. Smartphones begrenzt, aber verschiedene Hersteller haben damit begonnen, für die persönlichen Assistenten auch eigene Hardware-Produkte anzubieten. Diese als Smart Speaker bezeichneten Geräte werden in der Regel kabellos mit dem Internet und einem Benutzerkonto verbunden und können dann den Dienst aufnehmen. Derzeitige Angebote umfassen beispielsweise Geräte wie Amazon Echo und Amazon Echo Dot, Google Home und Apples HomePod. Weitere Anbieter haben Endgeräte angekündigt oder vorgestellt, darunter auch neue Gerätekategorien (Fernseher, Kühlschränke, Autos und sonstige Geräte).[3] Die Leistungen der Endgeräte sind meist noch (Stand Februar 2018) begrenzt auf die Software-Dienste des jeweiligen Anbieters, was die Flexibilität der Nutzer in der Auswahl begrenzt und somit auch kritisch betrachtet werden kann.
Stand 2020, verwenden die meisten Verbraucher in Deutschland einen persönlichen Assistenten auf dem Smartphone. 66 Prozent derer, die einen digitalen Assistenten verwenden, machen dies auf dem Smartphone. Es folgen Tablet (41 Prozent), Smart Speaker (26 Prozent), Smart-TV (21 Prozent) sowie Smartwatches und Kopfhörer (je 7 Prozent).[4]
Die meisten Nutzer von intelligenten persönlichen Assistenten verwenden diese, um per Stimme Geräte im Haushalt zu steuern bzw. die Musikwiedergabe oder das Radio zu steuern. Gut vier von fünf Nutzern (jeweils 82 Prozent) der Assistenten haben das 2021 in einer repräsentativen Umfrage angegeben. Häufig werden auch Verkehrsnachrichten abgerufen (43 Prozent). Ein gutes Drittel (39 Prozent) startet per Stimme Internetrecherchen.[5]
Durch Interaktion von Assistenten mit firmeneigenen Bots können Bestell- und Kaufvorgänge durch bloße Spracheingabe erledigt werden. Dazu müssen keine zusätzlichen Apps installiert werden. Diese Art des E-Commerce wird auch als Conversational Commerce (dt. Dialoghandel), das Kundenerlebnis der Zukunft[6], bezeichnet. Durch Stimm- bzw. Sprechererkennung soll dabei ungewollten Bestellvorgängen vorgebeugt werden, was von Herstellern von "Smart Speakers" zu Beginn versäumt wurde.[7] Moderatoren und Werbespots hatten (zum Teil absichtlich) für solche Fälle gesorgt.[8] Umstritten ist auch der Einsatz solcher Lautsprechergeräte für plötzliche Werbedurchsagen.[9] Patente von Amazon weisen auch auf die akustische Erkennung von Erkältungen der Anwender hin, wodurch ein Angebot für Erkältungsmedikamente durchgesagt werden könnte.[10]
Seitens der Nutzer von IPAs ist das Vertrauen in den Anbieter wesentlich für die Entscheidung, wie sie den Assistenten nutzen. Vor möglichem Missbrauch derartiger Software wird gewarnt.[11] Das erleichterte Erfassen personenbezogener Daten zu Werbezwecken wird ebenfalls kritisch gesehen.[12]
Sowohl die Stimme als auch der Name derartiger Assistenzsysteme sind überwiegend weiblich.[13] Ausnahmen sind beispielsweise die Sprachversionen von Siri auf Arabisch, Französisch, Niederländisch und in Britischem Englisch, da hier die voreingestellte Standardstimme männlich ist.[14]
In verschiedenen Science-Fiction-Filmen werden derartige Assistenten gezeigt, wobei die oben genannten Grenzen nicht klar bestimmbar sind, u. a:
Besonders HAL-9000 hat durch den Erfolg des Films "2001: Odyssee im Weltraum" Popularität erlangt. Von der ersten sprachlich-interaktiven künstlichen Intelligenz in einem Blockbuster wurde folgender Satz berühmt: "Tut mir leid Dave, ich fürchte das kann ich nicht tun." (im englischen Original: "Sorry Dave, I'm afraid I can't do that.") Als Meme kursiert er oft heute noch u. a. in Foren.
Die Entwicklung der Sprachassistenten geht etwa auf das Jahr 1877 zurück. Damals erfand Thomas Edison mit dem „Parlograph“ oder „Ediphone“ das erste rein mechanische Diktiergerät. Den nächsten Meilenstein legten die Bell Laboratories 1930 mit ihrem Voder. Dabei handelt es sich um ein tastaturgesteuertes elektronisches Gerät, das Sprache synthetisieren konnte. 22 Jahre später entwickelten die Bell Laboratories den Automatic Digit Recognizer „Audrey“. Das Gerät konnte Zahlen von 0 bis 9 verstehen. Zehn Jahre darauf löste IBMs „Shoebox“ einfache mathematische Aufgaben per Sprachbefehl.
DARPA-Programm legte Grundstein für moderne Sprachassistenten
Für große Durchbrüche bei der Entwicklung der Sprachassistenten sorgte ein Forschungsprogramm der Defense Advanced Research Projects Agency (DARPA), einer Behörde des US-Verteidigungsministeriums. Es fand von 1971 bis 1976 statt und brachte die Systeme „Harpy“, „Hearsay-II“ und „Dragon“ hervor. Letzteres wurde bis heute immer weiterentwickelt. Es ist als „Dragon NaturallySpeaking“ bekannt und wird inzwischen von Nuance Communications (vormals ScanSoft) vertrieben.
Anbieter bringen Sprachsteuerung auf Heimcomputer
In den 1980er und 1990er Jahren beschäftigten sich unter anderem Apple, IBM und Microsoft damit, die Spracherkennung zu verbessern. Mit dem Beginn der 2000er Jahre integrierten sie die Spracherkennung in Computerprogramme, wie das 2007 erschienene Windows Vista. Zur gleichen Zeit begann die National Security Agency (NSA), Schlüsselbegriffe mit Spracherkennungssoftware aus abgehörten Gesprächen herauszufiltern.
Verbreitung der Sprachassistenten über Smartphones
In den 2010er Jahren sollten die intelligenten persönlichen Assistenten auch im Privatbereich Einzug halten. Den Anfang machte Siri, das seit 2007 von der SIRI Inc. entwickelt und 2010 von Apple gekauft wurde. Die Sprachassistentin erschien 2011 erstmals auf dem iPhone 4s und ist heute essenzieller Bestandteil aller Apple-Produkte. Über den sprachgesteuerten Telefonassistenten GOOG-411 und die Sprachsuche-App Google Now entwickelte auch der Suchmaschinenriese Google einen intelligenten Sprachassistenten. Der Google Assistent ist seit 2016 für Endverbraucher nutzbar und heute für Android, Google Home sowie iOS verfügbar. Bekannt als künstliche Intelligenz aus der Spiele-Reihe Halo, erblickte in der Zwischenzeit (2014) auch Microsofts Cortana das Licht der Welt. Die Sprachassistentin erschien erstmals auf Windows Phone 8.1 und ist heute für Windows 10 und iOS verfügbar. Seit 2015 unterstützt Amazons Alexa die Nutzer der intelligenten Echo-Lautsprecher im Alltag. Sie spielt Musik ab, legt Termine an oder informiert über aktuelle Nachrichten.
Sprachassistenten steuern das intelligente Zuhause
Heute können Verbraucher intelligente virtuelle Assistenten für weit mehr nutzen. Denn die Sprachassistenten steuern auf Zuruf das eigene Zuhause. Sie schalten Lichter ein, drehen die Heizung auf oder verschließen die Haustür.
Ende 2019 haben bereits 60 Prozent aller Deutschen eigene Erfahrungen mit der Technologie gemacht. 11 Prozent nutzen sie sogar täglich. Besonders interessant dabei: Die Grundlage der modernen Sprachassistenten lieferten die Ergebnisse des DARPA-Programms der 70er Jahre, insbesondere das dabei entwickelte Dragon-System.