En estadística, un resultado o efecto es estadísticamente significativo cuando es improbable que haya sido debido al azar. Una «diferencia estadísticamente significativa» solamente significa que hay evidencias estadísticas de que hay una diferencia; no significa que la diferencia sea grande, importante o radicalmente diferente.
El nivel de significación de una prueba estadística es un concepto estadístico asociado a la verificación de una hipótesis. En pocas palabras, se define como la probabilidad de tomar la decisión de rechazar la hipótesis nula cuando esta es verdadera (decisión conocida como error de tipo I, o falso positivo). La decisión se toma a menudo utilizando el valor p: si el valor p es inferior al nivel de significación, entonces la hipótesis nula es rechazada. Cuanto menor sea el valor p, más significativo será el resultado.
En otros términos, el nivel de significación de un contraste de hipótesis es una probabilidad p tal que la probabilidad de tomar la decisión de rechazar la hipótesis nula —cuando esta es verdadera— no es mayor que p.
El nivel de significación es comúnmente representado por el símbolo griego α (alfa). Son comunes los niveles de significación del 0.05, 0.01 y 0.001. Si un contraste de hipótesis proporciona un valor p inferior a α, la hipótesis nula es rechazada, siendo tal resultado denominado estadísticamente significativo. Cuanto menor sea el nivel de significación, más fuerte será la evidencia de que un hecho no se debe a una mera coincidencia (al azar).
En algunas situaciones es conveniente expresar la significación estadística como 1 − α. En general, cuando se interpreta una significación dada, se debe tomar en cuenta que, precisamente, está siendo probada estadísticamente.
Diferentes niveles de α tienen distintas ventajas y desventajas. Valores pequeños de α otorgan mayor confianza en la determinación de la significación, pero hacen correr mayores riesgos de equivocarse al aceptar una hipótesis nula falsa (error de tipo II o falso negativo), con lo cual se pierde potencia de estudio. La elección de un nivel de α inevitablemente envuelve un compromiso entre significación y potencia, y consecuentemente entre errores de tipo I y de tipo II.
En algunos campos, por ejemplo física nuclear y de partículas, es común expresar la significación estadística en unidades de σ (sigma), el desvío estándar de una distribución de Gauss. La significación estadística de puede ser convertida en un valor α por medio de la función error:
El uso de σ está motivado por la importancia de la distribución gaussiana para medir incertezas. Por ejemplo, si una teoría predice que un parámetro tendrá un valor de, digamos, 100, y el parámetro medido resulta de 109 ± 3, luego se puede informar la medición como un «desvío de 3σ» de la predicción teórica. En términos de α, esta afirmación es equivalente a decir que, asumiendo que la teoría sea cierta, la posibilidad de obtener el resultado experimental por casualidad es 0,27% (dado que 1 − erf(3/√2) = 0,0027).
Los niveles fijos de significación tales como los mencionados pueden ser considerados como útiles en el análisis exploratorio de datos. Sin embargo, la recomendación de la estadística moderna es que, cuando el resultado de un test es esencialmente el resultado final de un experimento o de otro estudio, el valor p debería ser citado explícitamente. Y, sobre todo, debería ser citado si el valor p es juzgado o no como significativo. Esto es para permitir que el máximo de información sea transferido de un resumen de estudio al metaanálisis.