A Beszédérzékelés az a folyamat, amely során a nyelv hangjait, hangkapcsolatait értelmezzük és megértjük. A beszédpercepció kutatási területei arra irányulnak, hogy megértsük, miképp vagyunk képesek a beszédhangokat feldolgozni és megérteni, és ezt hogyan használjuk fel a beszélt nyelvben. Az alkalmazási és kutatási területek közé tartozik például a számítógépes rendszerek fejlesztése, amelyek felismerik a beszédet, ezen kívül segíthet a siketeknek és a nagyothallóknak, és azoknak, akik az idegen nyelveket tanulják. A beszédhangok feldolgozása leginkább az agy bal oldali területét érinti.
A beszédfolyamatoknak két lényeges összetevője van. Az egyik a beszédprodukció, mely azt a képességet jelenti, ahogy képezzük a hangokat, és kialakul maga a beszéd; a másik a beszédértés, mely ezen produkció megértését jelenti.
A beszéd kisebb elemekből épül fel:
A beszédképzés legfontosabb elemei a tüdő (és az abból kiáramló levegő), a gége, a hangszalagok, és az ezek által körülvett hangrés, valamint a száj- és orrüreg. Az alaphangot a zönge létrehozása adja meg, ezt a hangot tovább formálják a hangszalagok, a hangrés, valamint a száj- és orrüregben található részek.
Minden hangnak a képzés során különböző speciális spektrális szerkezete lesz, más szóval bizonyos frekvenciái lesznek a képzett hangoknak. Az artikulációs csatorna működése révén létrejövő módosult felharmonikusokat a beszédhangok esetében formánsoknak nevezzük (Csépe, Győri, Ragó, 2007, 385. o.). A különböző nyelvekben nagyon sok beszédhangot használnak, ezek száma akár 140 körül is lehet (Gosy, 2004). Képzésük szerint megkülönböztetünk magánhangzókat és mássalhangzókat.
A hangok akusztikai jellemzőit a spektrogramm nevű szerkezettel lehet legjobban szemléltetni. A spektrogramm megmutatja az akusztikus energia mennyiségét a különböző frekvenciákon az idő függvényében. A spektrogrammon a frekvenciák változásait követhetjük nyomon, ezeket formánsátmeneteknek nevezzük; ezek a beszédképző szervek változásait jelentik.
Az észlelési folyamatnál először a nyelvi kódokat dolgozzuk fel, majd ezeket a kódokat fel kell „törnünk” és a lényeges információt ki kell kiszűrnünk, értelmeznünk kell. El kell különítenünk a beszédhangokat, a fonémákat az egyéb környezeti hangoktól. A beszédnek általában külön ritmusa, periódusa és frekvenciatartománya van, így könnyebb felismerni, ha beszélnek hozzánk.
A beszéd észlelése során dekódolás zajlik, és létezik egy speciális beszédmód, amely kizárólag a beszédhangok feldolgozását valósítja meg (Csépe és munkatársai, 2007, 385. o.). Ennek igazolására többféle kísérletet is végeztek, például Remez és munkatársai 1981-ben. A szinuszhullámú beszédet használták ingerként, ami azt jelenti, hogy egy adott beszédhang első három formánsát, és ezek amplitúdó- és frekvenciaváltozásait vizsgálták, majd ezeket szintetizálják szinuszhullámok segítségével, a változtatások megtartásával. Ezeket kellett a kísérleti személyeknek detektálniuk, hogy zajt hallanak, vagy egy beszédhangot. A mintafelismeréshez hasonlóan, ha a kísérleti személyek egy előzetes tudás birtokában voltak, tehát előre megmondták nekik, hogy zajt, vagy beszédhangot fognak hallani, leginkább azt hallották, amit előzetesen mondtak nekik.
A környezetnek is fontos szerepe van a beszédérzékelésben, mint ahogy a látás során is. Több kísérlet is bizonyította, hogy a látást jelző mozzanatok hatással vannak arra, amit éppen hallunk (McGurk és McDonald, 1976, Summerfeld, 1975). A látás útján is hozzájutunk olyan információkhoz, amelyek kiegészítik a hallásról kapott információinkat. Ilyen például a szájmozgás is. A kb. 18-20 hetes csecsemők is képesek felismerni, hogy a hallás és a látás kapcsolatban van egymással (Kuhl és Meltzhogg, 1982). Ezen kívül fontos még a megértéshez a hanglejtés és a hangsúlyozás szerepe is.
A fonéma egy olyan absztrakt nyelvi jelenség, amelynek önmagában nincs jelentése, de megváltoztathatja a szavak jelentését. Ebből azt a következtetést szűrhetjük le, hogy a beszédhangok és a fonémák megegyeznek, de vannak olyan jelenségek, amelyek ezt a nézetet cáfolják (például Liberman és munkatársainak kísérletei, 1954). Ezt a megfeleltetési problémát akusztikai-fonetikai invarienciaproblémának nevezzük (Klatt, 1979).
Az első jelenség a beszédhangok gyorsasága. Egyes vizsgálatok szerint 30 fonéma/másodperc beszédtempó mellett képesek vagyunk megérteni a beszédet, de ha nem beszéd jellegű hangokat mutattak a kísérleti személyeknek ugyanilyen sebességgel, akkor ezeket képtelenek felismerni és külön zajokra bontani, megnevezni, hogy valójában mit hallanak. A hallórendszer tehát a beszéd gyorsaságát képes érzékelni, egyéb zajok közt nem tud különbséget tenni.
A második jelenség az, hogy egy adott fonéma akusztikai jellemzői függenek attól, hogy milyen magánhangzó, vagy mássalhangzó előtt, vagy mögött állnak. Például a /d/ fonéma megváltoztatja a frekvenciatartományát aszerint, hogy utána /u/, vagy /i/ áll. Magát a /d/ hangot mindkét esetben ugyanolyannak halljuk, de a spektrogrammal kimutatható az akusztikai különbség. Ezt a jelenséget kontextusfüggő átszerveződésnek, vagy koartikulációnak nevezzük. Ez a jelenség azért alakul ki, mert a beszédképző szerveinket, nem tudjuk teljesen átvinni egyik helyzetből a másikba. A hang ejtése és képzése is másképpen alakul, ha csak önmagában ejtjük ki a hangot, vagy egy kimondott kontextusban, ezért nagy különbségek lehetnek a beszédhangok között. Mivel a beszédképző szervek is egyediek, ezért a beszélő is nagyban meghatározza a beszéd akusztikai jellemzőit.
A harmadik probléma, hogy az egyes hangok között nincs határ, átmenet, ha egymás után ejtjük ki őket. Például a /ni/ szótagból megpróbáljuk kivonni az /n/ hangot, akkor maga a mássalhangzó ott van ugyan, de önmagában az /n/ hangot csak akkor tudjuk kimondani, ha egy magánhangzót is elé teszünk. Ezt nevezzük szegmentációs problémának.
Az ember általában sokkal több hangot meg tud különböztetni, mint ahányat azonosítani. Egy adott fonémával azonosítható sokféle, eltérő akusztikai tulajdonságoknak a kategórián belüli akusztikai eltéréseit nem tudjuk diszkriminálni (Csépe és munkatársai, 2007, 371. o.). A kategoriális felismerést csak beszédhangoknál találjuk meg, és ez alapján kötjük össze a fonémakategóriákat és a beszédhangokat.
Ez az elmélet Alvin Libermanhoz és munkatársaihoz kötődik, amelyeket a Haskins Laboratóriumban végeztek el. Az elmélet szerint a /di/ és a /du/ szótag elejét azért halljuk ugyanolyannak, mert ezek képzésekor ugyanolyan motoros parancsot adunk a beszédképző szerveinknek. Itt az akaratlagos képzés lényeges, hiszen a fonémák, amelyek bár eltérő akusztikai jellemzőkkel bírnak, mégis egyformáknak tűnnek. A beszédészlelés során erre a szándékra próbálunk következtetni. A motoros elmélet ellen rengeteg kritika fogalmazódott meg (Gosy, 2005), például, hogy a gyermekek – és általában egy idegen nyelv tanulásánál is a későbbiekben - előbb megértik a beszédet, és utána kezdenek el beszélni.
Ez az elmélet Peter Eimashoz és John Corbithoz köthető. Elektronikus beszédszintetizátorral előállították a /b/, /p/, /t/ és /d/ hangokat. Ezek közül voltak olyan hangok, amelyek nem tisztán hallatszottak, például egyszer inkább /t/-nek, mint /d/-nek. A kísérleti személyek percekig a jól hallható /d/-t hallgatták, majd a kevésbé megkülönböztethető hangot, ami /t/, vagy /d/ lehetett. Ezt a hangot sokkal inkább /t/-nek hallották mint /d/-nek, ezért a kísérletvezetők arra következtettek, hogy a /d/ hang sokszori ismétlése kifárasztotta az adott hang megkülönböztető vonásaira érzékeny detektorokat. Az adaptáció után a kevesebbet hallott hang nagyobb aktivitást váltott ki az agyban. Tehát ez azt jelenti, hogy léteznek beszédhangokra érzékeny vonásdetektorok (Sekuler & Blake, 2000). Ez a jelenség hasonló a látásnál tapasztalt adaptációhoz. Azonban a vonásdetekcióval sem magyarázható a beszédérzékelés minden aspektusa.