La diferencia de tiempo interaural (DTI) cuando a humanos o animales respecta, es la diferencia de tiempo de llegada de un sonido entre dos orejas y oídos. Es importante en el proceso de localización de sonidos, ya que proporciona la dirección de la fuente sonora con respecto a la cabeza. Si una señal llega a la cabeza de un lado A, la señal debe viajar un mayor recorrido para lograr llegar al lado B. Este aumento de recorrido de la onda, resulta en una diferencia de tiempo en la llegada del sonido a los oídos, lo cual es detectado por el sistema nervioso para ser analizado.
Cuando una señal es producida en el plano horizontal, al ángulo en relación con la cabeza se le conoce como acimut. A 0 grados (0°), la fuente de sonido se encuentra enfrente de la persona, a 90° se encuentra a la derecha y a 180° se encontrará detrás de ella.
La teoría Dúplex propuesta por el Barón Rayleigh en 1907, provee una explicación a la habilidad de los humanos de localizar la fuente de sonido por las diferencias de tiempo interaural y diferencias en niveles interaurales (DNI).
La teoría Dúplex establece que las DTIs son usadas para localizar fuentes de sonido de bajas frecuencias, mientras que las DNI son usadas para la ubicación de fuentes de sonido de altas frecuencias. No obstante, los rangos de frecuencia que el sistema auditivo utiliza se enciman, y ya que los sonidos más naturales contienen altas y bajas frecuencias en la mayoría de los casos, el sistema auditivo combina información tanto como de las DTIs y DNIs para juzgar la ubicación de la fuente sonora. A consecuencia de este sistema dúplex, es posible generar estímulos llamados intercambio de tiempo-intensidad en dispositivos como audífonos. Los estímulos de intercambio de tiempo-intensidad donde los DTIs que apuntan a la izquierda están desfasados con los DNIs que apuntan a la derecha se pueden percibir como si el sonido proviniera del centro. Una limitación de la teoría Dúplex es que no da una explicación completa sobre la dirección de audición ya que no profundiza en la habilidad de distinguir si la fuente de sonido se encuentra totalmente de frente a la persona o exactamente atrás. La teoría solo explica como se ubican las fuentes en el plano horizontal pero no en el espacio tridimensional.
En los experimentos conducidos por Woodworth en 1938 se probó la teoría dúplex usando una esfera sólida como modelo de una cabeza humana, con la cual se midió la diferencia de tiempo interaural como una función del acimut para diferentes frecuencias. El modelo usado tenía una distancia entre oreja a oreja de aproximadamente 22 y 23 cm. Medidas iniciales resultaron un retraso máximo de 660 μs cuando la fuente de sonido se posicionaba directamente a 90° acimut a un oído. Este retraso del tiempo se relaciona a la longitud de onda del sonido a una frecuencia de 1500 Hz. Se concluyó que cuando el sonido producido es de 1500 Hz o menos la longitud de onda es mayor al retraso máximo de tiempo entre oídos. A una frecuencia cercana a 1500 Hz la longitud de onda del sonido es similar al retraso natural del tiempo. Esto determina que las diferentes medidas de cabeza y distancia entre oídos afecta a la ubicación de cuerpos en el espacio horizontal.
Las fibras de nervio auditivas conocidas como nervio o neurona aferente, llevan información del órgano de Corti al tronco del encéfalo y al cerebro. Las fibras de nervio aferente constan de dos tipos de fibras llamadas tipo I y tipo II. El tipo I de fibras conectan la base de una o dos células sensoriales cabello, mientras que las tipo II conectan la parte exterior de las células cabello. Los dos tipos de fibras conducen una apertura conocida como Habenula perforata. El tipo I de fibras son más gruesas que las tipo II y también puede ser que difieran en como se conectan con las células sensoriales cabello.
Lo siguiente en el recorrido de la onda sonora es el núcleo coclear, el cual recibe principalmente entradas aferentes. El núcleo coclear tiene tres divisiones anatómicas distintas, conocidas como el antero-núcleo coclear ventral (AVCN), postero-núcleo coclear ventral (PVCN) y núcleo coclear dorsal (DCN), las cuales tienen diferentes inervaciones neuronales.
El AVCN contiene células bushy, de las que se creen capaces de procesar el cambio espectral de estímulos complejos como el sonido.