Sztuczna inteligencja jest wykorzystywana w wielu dziedzinach, takich jak diagnostyka medyczna, gra na giełdzie, sterowanie robotami czy automatyczne dowodzenie twierdzeń. Wiele tych zastosowań nie jest jednak traktowanych jako SI, ponieważ termin zwykle kojarzy się z tymi funkcjami ludzkiego umysłu, których jeszcze nie potrafimy odtworzyć w komputerze[2][3].
W odpowiednio zdefiniowanych warunkach można porównywać wyniki uzyskane przez programy komputerowe z wynikami uzyskiwanymi przez ludzi. Testy takie nazywane są eksperckimi testami Turinga. W ten sposób można wskazywać kolejne problemy, dla których programy znajdują rozwiązania lepiej niż ludzie.
Kółko i krzyżyk – drzewo gry ma 26830 węzłów, więc nawet prosty program brute force może je łatwo przejrzeć.
Czwórki – drzewo gry ma 4,5 biliona pozycji. Strategia optymalna została znaleziona w 1988 roku[4].
Warcaby angielskie – drzewo gry ma 5×1020 pozycji. Strategia optymalna została znaleziona w 2007 roku[5].
Kostka Rubika – istnieje 4×1019 pozycji. W 1995 roku pokazano, że niektóre z nich wymagają 20 ruchów. W 2010 roku sprawdzono, że każdą pozycję da się rozwiązać w nie więcej niż 20 ruchów[6].
Pilotowanie myśliwca – w 2016 roku program ALPHA w symulowanych pojedynkach powietrznych wygrywał za każdym razem z ekspertami, nawet pilotując myśliwiec o słabszych parametrach[7].
Diagnostyka raka płuc i zapalenia płuc – w 2013 roku superkomputer Watson poprawnie diagnozował 90% przypadków raka płuc, podczas kiedy przeciętny onkolog 50%[8]. W 2017 roku CheXNet trafniej diagnozował zapalenie płuc od specjalistów[9].
Diagnostyka czerniaka - w 2017 roku najlepsze sieci neuronowe osiągały wyniki takie jak dermatolodzy[10]. W 2018 były już od nich lepsze[11].
Poker - w 2019 roku program Pluribus (ulepszona wersja Libratusa) wykazał się nadludzkimi wynikami w sześcioosobowej wersji pokera bez limitu, najpopularniejszej odmianie pokera[14]
Teleturnieje z pytaniami dotyczącymi ogólnych tematów, takich jak historia, literatura, sztuka, nauka czy sport – w 2011 roku superkomputer Watson pokonał najlepszych graczy w Jeopardy![15]
Rozpoznawanie mowy – w 2015 roku Baidu ogłosiła, że ich system rozpoznawania mowy Deep Speech 2 rozpoznaje mandaryńskie i angielskie frazy wyrwane z kontekstu lepiej, niż przeciętny człowiek znający oba języki[26]
Rozpoznawanie obrazów – w 2015 roku program opracowany przez Microsoft robił 4,94% błędów przy rozpoznawaniu obrazów z otwartej bazy danych ImageNet, podczas gdy ludzie robią średnio 5,1% błędów[1]
Czytanie ze zrozumieniem - w 2018 roku program Alibaby SLQA+ i program Microsoftu r-net zdobyły 82,4 i 82,7 punktów w teście składającym się ze 100 tysięcy pytań. Przeciętny wynik człowieka to 82,3[27]. Podobny wynik osiągnął MT-DNN na teście General Language Understanding Evaluation[28].
↑Proverb: The probabilistic cruciverbalist. By Greg A. Keim, Noam Shazeer, Michael L. Littman, Sushant Agarwal, Catherine M. Cheves, Joseph Fitzgerald, Jason Grosland, Fan Jiang, Shannon Pollard, and Karl Weinmeister. 1999. In Proceedings of the Sixteenth National Conference on Artificial Intelligence, 710-717. Menlo Park, Calif.: AAAI Press.