Google DeepMind
| |
---|---|
Rechtsform | Tochterunternehmen |
Gründung | 23. September 2010 |
Sitz | London, Vereinigtes Königreich |
Leitung | Demis Hassabis (CEO) Lila Ibrahim (COO) |
Mitarbeiterzahl | > 1000[1][2] (2017: 700) |
Branche | Künstliche Intelligenz |
Website | deepmind.google |
Stand: 30. November 2020 |
Google DeepMind (früher DeepMind Technologies) ist ein britisches Unternehmen, das sich auf die Programmierung einer künstlichen Intelligenz (KI) spezialisiert hat. DeepMind wurde im September 2010 gegründet und 2014 von Google LLC übernommen. Im April 2023 wurde DeepMind mit der Google-KI-Forschungsabteilung Google Brain zu Google DeepMind zusammengeführt.[3]
DeepMind Technologies war ein britisches Start-up, gegründet 2010 von Demis Hassabis, Shane Legg und Mustafa Suleyman.[4] Zu den ersten Geldgebern gehörten die Venture-Capital-Unternehmen Horizons Ventures und Founders Fund sowie der Business Angel Scott Banister.[5]
Am 26. Januar 2014 gab der US-Konzern Google bekannt, DeepMind Technologies übernommen und damit das ebenfalls an DeepMind interessierte Facebook ausgestochen zu haben – es war die bis dahin größte Übernahme des kalifornischen Unternehmens in Europa. Der Preis blieb geheim, Branchenkenner gingen von einem Kaufpreis von etwa 500 Millionen Dollar (365 Millionen Euro) aus.[6][7][8] Mehrere Milliardäre hatten bereits in DeepMind investiert, darunter Elon Musk, CEO des privaten Raumfahrtunternehmens SpaceX und des Elektroautoherstellers Tesla, der PayPal-Gründer und ursprüngliche Facebook-Geldgeber Peter Thiel, der Skype-Mitgründer Jaan Tallinn sowie der Hongkonger Magnat Li Ka-shing von Horizon Ventures, einer der mächtigsten Männer Asiens.[9]
Im Jahre 2014 erhielt DeepMind die Auszeichnung „Company of the Year“ vom Cambridge Computer Laboratory.[10][11]
Nach Übernahme wurde das Unternehmen in Google DeepMind umfirmiert. Google setzte auch einen Ethikrat ein, der sicherstellen soll, dass die Technologie von DeepMind nicht missbraucht wird. Die Struktur des Ethikrates blieb unklar.[12]
2015 veröffentlichte das Unternehmen die Ergebnisse eines Forschungsprojektes, bei der die Künstliche Intelligenz alte Atari-Spiele selbstständig erlernen sollte. Nach Angaben von Google DeepMind gelang es der KI, sowohl die Spielregeln zu erlernen als auch Erfolgstaktiken selbstständig zu entwickeln.[13]
Im Dezember 2019 kündigte einer der Gründer, Suleyman, an, dass er DeepMind verlassen würde, damit er bei Google arbeiten kann.[14]
Im April 2023 wurde bekannt gegeben, dass das bisher unabhängige Unternehmen DeepMind und die KI-Forschungsabteilung von Google, Google Brain, zusammengelegt werden. Der Leiter von Google Brain, Jeff Dean, wurde zum Chief Scientist von Google befördert. Der bisherige CEO von DeepMind, Demis Hassabis, wurde zum CEO des neu geschaffenen Google DeepMind ernannt und soll damit die konkrete Ausrichtung der KI-Forschung von Google bestimmen.[15]
Das offizielle Unternehmensziel von Google DeepMind ist, Intelligenz zu verstehen („Solve Intelligence“).[4] Im Gegensatz zu anderen Künstlichen Intelligenzen wie beispielsweise Deep Blue von IBM hat Google DeepMind kein vordefiniertes Ziel und ist somit flexibler in der Anwendung für verschiedene Probleme.[16] Google DeepMind unterscheidet sich ebenfalls in der grundsätzlichen Strukturierung der Künstlichen Intelligenz. Statt ausschließlich auf ein neuronales Netz zu setzen, erweiterte man die KI mit einem Kurzzeitspeicher, um somit die Fähigkeit eines künstlichen Gedächtnisses zu simulieren.[17] Die Entwickler von Google DeepMind bezeichnen die Künstliche Intelligenz deshalb auch als „neuronale Turingmaschine“ und nicht als neuronales Netz.[18]
Zu den leitenden Entwicklern zählt David Silver.
Bei DeepMind wurde AlphaGo entwickelt, ein Computerprogramm, das ausschließlich das Brettspiel Go spielt. Im Oktober 2015 besiegte es den mehrfachen Europameister Fan Hui.[19] Es ist damit das erste Programm, das unter Turnierbedingungen einen professionellen Go-Spieler schlagen konnte. Zwischen dem 9. und 15. März 2016 trat AlphaGo gegen den südkoreanischen Profi Lee Sedol, 9. Dan, an. Das Programm gewann nach fünf Runden mit 4:1.[19]
Im Jahre 2017 wurde eine verbesserte Version namens AlphaGo Zero veröffentlicht, welche AlphaGo 100 zu 0 schlug, wobei die Strategien von AlphaGo Zero autonom erstellt wurden. Die Lernphase dauerte nur drei Tage, wobei AlphaGo im Vergleich Monate dazu brauchte.[20]
AlphaZero ist eine im Dezember 2017 erstmals in einer Veröffentlichung beschriebene Verallgemeinerung des oben erwähnten AlphaGo Zero. AlphaZero lernte die Beherrschung der drei Brettspiele Shōgi, Schach und Go auf höchstem Niveau nur anhand der Spielregeln und durch intensives Spielen gegen sich selbst, ohne die Nutzung von Daten zum Vorgehen menschlicher Spieler.
Die Software DeepNash spielt Stratego. Ihr gelang es im Jahr 2022, auf dem Niveau von menschlichen Spitzenspielern zu spielen. Gegen die besten menschlichen Spieler auf der Spieleplattform Gravon[21] erreichte DeepNash eine Gewinnrate von 84 Prozent. DeepNash verwendet einen neuartigen Ansatz, der auf einer Kombination aus Spieltheorie und sogenanntem modellfreiem Deep Reinforcement Learning basiert. Die Software hat dafür etwa zehn Milliarden Mal gegen sich selbst gespielt und hatte das Ziel, ein so genanntes Nash-Gleichgewicht zu erreichen. Ein Spiel, das sich im Nash-Gleichgewicht befindet, verläuft stabil, denn das einseitige Abweichen von der Strategie würde einen Nachteil bedeuten.
Die Entwicklung einer spielstarken Stratego-Software ist eine enorme Herausforderung, weil die Anzahl der möglichen Spielzustände auch im Vergleich zu Schach, Go und Texas Hold’em außergewöhnlich ist. Weil die Komplexität des Spielbaums von Stratego so groß ist, ist es nicht möglich, eine Monte-Carlo-Baumsuche (englisch Monte Carlo tree search) zu verwenden.[22][23]
Im Januar 2019 wurde AlphaStar vorgestellt, ein KI-Programm, das das Echtzeit-Strategiespiel StarCraft II spielt. Wie AlphaGo handelt es sich dabei um ein künstliches neuronales Netz, das zunächst menschliche Spieler imitierte und dann mit Reinforcement Learning trainiert wurde. In zwei Sätzen zu je fünf Spielen gegen die professionellen Spieler Dario „TLO“ Wünsch und Grzegorz „MaNa“ Komincz gewann AlphaStar jedes Spiel. Die Anzahl der Aktionen pro Minute wurde auf ein für Menschen übliches Maß beschränkt. Im Gegensatz zu menschlichen Spielern hat AlphaStar jederzeit einen vollständigen Überblick über die sichtbaren Teile der Karte, fokussiert sich aber dennoch immer nur auf einzelne Bereiche. Ein bei der Vorstellung live übertragenes Spiel konnte MaNa für sich entscheiden. Besondere Stärken von AlphaStar waren Micromanagement und Multitasking. Im letzten Spiel wurde sie durch ungewöhnliche Aktionen des menschlichen Spielers aus dem Tritt gebracht.[24] Eine Weiterentwicklung trat ab Juli 2019 anonym in Ranglisten gegen echte Spieler an und erreichte in allen 3 „Rassen“ die höchste Liga.[25]
Seit 2016 arbeitete DeepMind auch am Problem, die dreidimensionale Struktur der Proteine nur anhand der Abfolge der Aminosäuren des Proteins vorherzusagen.[26][27] 2018 nahm das von DeepMind für dieses Problem entwickelte KI-Programm AlphaFold am Gemeinschaftsexperiment CASP teil.[26] Dies ist eine Art Wettbewerb, bei dem KI-Programme verschiedener Institutionen genutzt werden, um die Strukturen von Proteinen vorherzusagen. Diese sind den CASP-Veranstaltern bekannt, aber der Öffentlichkeit und den CASP-Teilnehmern nicht. So ist es möglich, die Qualität der Vorhersagen zu beurteilen. DeepMinds AlphaFold schnitt dabei bereits bei seiner ersten Teilnahme 2018 besser ab als die Programme der etwa 100 weiteren Teams.[26] Beim nächsten CASP-Wettbewerb im Jahr 2020 war die Vorhersagequalität des zweiten von DeepMind entwickelten Programms AlphaFold2 so gut, dass Wissenschaftler und auch DeepMind urteilten, dass das jahrzehntealte Problem der Proteinfaltung erstmals als gelöst betrachtet werden könne – das sei ein Meilenstein der Strukturbiologie.[27][28] Am 15. Juli 2021 veröffentlichte DeepMind eine quelloffene Version von AlphaFold 2 und veröffentlichte die Funktionsweise im Fachjournal Nature.[29][30]
In den Jahren 2019 und 2020 veröffentlichte eine Forschergruppe von DeepMind den Algorithmus MuZero, der eine Baumsuche mit einem individuell entwickelten Machine-Learning Model kombiniert.[31][32] MuZero beruht auf Deep Reinforcement Learning und stellt eine Weiterentwicklung der schon in AlphaGo, AlphaGo Zero und AlphaZero verwendeten Technologien dar. Im Gegensatz zur „Alpha“-Serie von KI-Systemen ist MuZero nicht mehr auf eine bestimmte Wissensdomäne oder Anwendungsbereich festgelegt. Es ist keine Voreinstellung von Regeln mehr nötig und auch keine durch Menschen gesteuerte Initialisierung mit Trainingsdaten. Das MuZero-Softwaresystem erlernt diese Regeln selbstständig durch Beobachtung der Umgebung, und vor allem verfeinert es sein selbst aufgestelltes Modell und bestimmte Aspekte des eigenen Entscheidungsprozesses. Ein Vergleich des fertig optimierten MuZero mit anderen KI-Systemen ergab eine mindestens gleichwertige Leistung bei Computergo und Computerschach, aber auch in „Atarigames“ wie Ms. Pac-Man.
WaveNet ist ein neuronales Netzwerk, das ursprünglich ab ca. 2014 zum Zweck der verbesserten, natürlicher klingenden Text-to-Speech-Synthese (TTS) entwickelt wurde, sprich, für menschlicher klingende Vorlesesysteme, indem das Programm natürliche menschliche Stimmen analysieren sollte, um so auch natürlicher klingende Sprache beim Vorlesen von Texten erzeugen zu können.[33] Seit März 2018 bietet Google das auf WaveNet basierende Vorleseprogramm Cloud Text-to-Speech im Rahmen von Google Assistant an.[34][35]
Inzwischen forscht DeepMind aber auch aktiv daran, mit WaveNet existierende individuelle menschliche Stimmen nicht nur zum Vorlesen von Texten möglichst exakt nachzubilden, um es mit ähnlichen Funktionen wie etwa das 2016 von Adobe Inc. vorgestellte Adobe Voco auszustatten. Ein Forschungsbericht vom Juni 2018 mit dem Titel Disentangled Sequential Autoencoder[36] („Entflochtener sequentieller, automatischer Stimmgenerator“) stellt fest, dass es erfolgreich gelungen sei, WaveNet dafür einzusetzen, die Stimme in einer existierenden Tonaufnahme durch jegliche andere reale Stimme zu ersetzen, die denselben Text spricht („content swapping“). Um diese Fähigkeit zu ermöglichen, seien ca. 50 Stunden an Aufnahmen jeweils der Quell- wie Zielstimme nötig, mit denen WaveNet die grundlegenden Eigenschaften der beiden Stimmen erst lernen muss (wobei es selbstständig ein jeweils eigenes, von den Sprachaufnahmen abstrahiertes Modell der zu erlernenden Stimme erstellt), bevor es die Stimmkonvertierung bei jeder beliebigen neuen Tonaufnahme in annehmbarer Qualität durchführen kann. Die Autoren des Forschungsberichts betonen außerdem, dass WaveNet dazu in der Lage sei, statische und dynamische Eigenschaften voneinander zu unterscheiden (zu: „entflechten“), d. h., das Programm trenne automatisch zwischen den bei der Stimmkonvertierung beizubehaltenden Eigenschaften (Textinhalt, Modulation, Geschwindigkeit, Stimmung usw.) und den zu konvertierenden Grundeigenschaften der Quell- wie Zielstimme.
In einem Nachfolgebericht mit dem Titel Unsupervised speech representation learning using WaveNet autoencoders[37] („Selbständiges Sprachmodellernen mit WaveNet“) vom Januar 2019 hieß es, dass DeepMind die Unterscheidung statischer von dynamischen Stimmeigenschaften von WaveNet weiter verbessert habe. In dem weiteren Nachfolgebericht Sample Efficient Adaptive Text-to-Speech[38] („Samplingeffizienz bei adaptiver Text-to-Speech-Synthese“) vom September 2018 (letzte Revision Januar 2019) berichtet DeepMind, das Minimum an benötigten Sprachaufnahmen für das Sampeln einer Stimme inzwischen auf wenige Minuten reduziert zu haben.
Im bereits 2014 veröffentlichten Bericht Towards End-to-End Speech Recognition with Recurrent Neural Networks[39] („Zur vollständigen Spracherkennung mittels rückgekoppelter neuronaler Netze“) verwies DeepMind auf erfolgreiche Versuche, WaveNet zur automatischen Verschriftlichung von existierenden Sprachaufnahmen einzusetzen.
Der Forschungsbericht Large-Scale Visual Speech Recognition[40] („Allgemein einsetzbare optische Spracherkennung“) vom Juli 2018 (letzte Revision vom Oktober 2018) geht auf erfolgreiche Versuche ein, WaveNet zum Lippenlesen bei menschlichen Lippenbewegungen auch in völlig stummen Videoaufnahmen einzusetzen, wobei das Programm professionelle menschliche Lippenleser beim Erraten der tatsächlichen Laute bereits deutlich übertreffe. Dieses Feature scheint als eigenständiges WaveNet-Plugin unter dem Titel LipNet entwickelt zu werden.
Forscher von DeepMind haben Modelle des maschinellen Lernens auf den Fußballsport angewendet. Sie modellieren das Verhalten von Fußballspielern, einschließlich Torhütern, Verteidigern und Stürmern, in verschiedenen Szenarien, z. B. beim Elfmeterschießen. Die Forscher nutzten Heatmaps und Clusteranalysen, um die Spieler nach ihrer Tendenz, sich während des Spiels auf eine bestimmte Art und Weise zu verhalten, wenn sie vor der Entscheidung stehen, wie sie ein Tor erzielen oder ein Tor der anderen Mannschaft verhindern können, zu organisieren.
Die Forscher erwähnen, dass Modelle des maschinellen Lernens zur Demokratisierung der Fußballindustrie eingesetzt werden könnten, indem automatisch interessante Videoclips des Spiels ausgewählt werden, die als Highlights dienen. Dies kann durch die Suche nach bestimmten Ereignissen in Videos geschehen, was möglich ist, da die Videoanalyse ein etablierter Bereich des maschinellen Lernens ist. Möglich ist dies auch aufgrund der umfangreichen Sportanalyse, die auf Daten wie kommentierten Pässen oder Schüssen, Sensoren, die Daten über die Bewegungen der Spieler im Laufe eines Spiels erfassen, und spieltheoretischen Modellen basiert.[41][42]
Auf YouTube wurde 2023 ein Video hochgeladen, das anscheinend kleine Roboter von Google DeepMind bei einer einfachen Variante des Roboterfußballs zeigt.[43]
Im Februar 2016 gab die Firma bekannt, dass es in Großbritannien mit der Gesundheitsbehörde National Health Service zusammenarbeitet, um eine iPhone-App mit dem Namen „Streams“ zu entwickeln, allerdings sei es noch zu früh, um sagen zu können, wo KI angewandt werden könnte.[44] Diese soll dabei helfen, Patienten zu überwachen, die an einem „Nierenschaden“ leiden.[45] April 2016 veröffentlichte das Fachmagazin „New Scientist“ Details der Vereinbarung, demnach erhält Google den Zugriff auf die Daten von 1,6 Millionen NHS-Versicherten, die jährlich in den drei Krankenhäusern – Barnet, Chase Farm and the Royal Free – des Royal Free NHS Trust behandelt werden.[46] Die weitreichende Vereinbarung erlaubt einen Datenaustausch weit über das bekannt gegebene hinaus.[46] Enthalten sind die Daten von HIV-positiven Patienten, Drogenabhängigen oder Frauen, die Abtreibungen vornehmen ließen. Eine Opt-out-Möglichkeit (Möglichkeit der Verweigerung) für Patienten gab es nicht. Neben den pathologischen und radiologischen Ergebnissen werden die Daten der Intensivmedizin und der Notfallabteilungen übertragen sowie die vollständigen Tagesaktivitäten der Kliniken, der Zustand und die Unterbringung der Patienten und die Krankenhausbesuche (wer und wann) übermittelt. Darüber hinaus bedeutet der Datenzugang auf die zentralen Aufzeichnungen aller NHS-Krankenhaus-Behandlungen in Großbritannien, dass es auf historische Daten der vergangenen fünf Jahre zurückgreifen kann – zusätzlich zu den neu auflaufenden Daten.
Kritiker fürchten dabei um die Intimsphäre und den Datenschutz. Das Personal von Google soll aber nicht in der Lage sein, bestimmte Patienten zu identifizieren, und die Daten sollen nicht mit Google-Konten oder Produkten verbunden werden, erklärte Mustafa Suleyman, Leiter des Bereichs „Angewandte KI“ bei DeepMind.[47][48][49]
Das KI-Tool GENoME (Graph Networks for Materials Exploration) hat 2023 2,2 Millionen neue Kristalle entdeckt, darunter 380.000 stabile Materialien, die zukünftige Technologien antreiben könnten.
Im Oktober 2017 kündigte DeepMind an, das Forschungsabteil DeepMind Ethics & Society zu gründen[50], welche sich mit den folgenden Themen beschäftigen soll: Privatsphäre, Transparenz und Gerechtigkeit und wirtschaftliche Folgen davon.