Phân phối chuẩn

**Phân phối chuẩn**
Hàm mật độ xác suất Đường màu đỏ là phân phối chuẩn tắc
Hàm phân phối tích lũy Màu sắc tương ứng với hình trên
Tham số	$\mu$ cho biết vị trí (thực) $\sigma ^{2}>0$ bình phương tỉ lệ (thực)
Giá	$x\in (-\infty ;+\infty )\!$
Hàm mật độ xác suất	${\frac {1}{\sigma {\sqrt {2\pi }}}}\;\exp \left(-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}\right)\!$
Hàm phân phối tích lũy	${\frac {1}{2}}\left(1+\mathrm {erf} \,{\frac {x-\mu }{\sigma {\sqrt {2}}}}\right)\!$
Giá trị kỳ vọng	$\mu$
Trung vị	$\mu$
Yếu vị	$\mu$
Phương sai	$\sigma ^{2}$
Độ xiên	0
Độ nhọn	$0$
Entropy	$\ln \left(\sigma {\sqrt {2\,\pi \,e}}\right)\!$
Hàm sinh mô men	$M_{X}(t)=\exp \left(\mu \,t+{\frac {\sigma ^{2}t^{2}}{2}}\right)$
Hàm đặc trưng	$\phi _{X}(t)=\exp \left(\mu \,i\,t-{\frac {\sigma ^{2}t^{2}}{2}}\right)$

Phân phối chuẩn (Tiếng Anh: normal distribution) còn gọi là phân phối Gauss hay (Hình chuông Gauss), là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ²).

Phân phối chuẩn tắc (standard normal distribution) là phân phối chuẩn với giá trị trung bình (μ) bằng 0 và độ lệch chuẩn (σ) bằng 1. Phân phối chuẩn còn được gọi là đường cong chuông (bell curve) vì đồ thị của mật độ xác suất có dạng chuông.

Lịch sử

Abraham de Moivre là người đầu tiên đưa ra phân phối chuẩn trong bài báo năm 1734 (được in lại trong ấn bản lần 2 The Doctrine of Chances, 1738) khi muốn xấp xỉ một phân phối nhị thức với n lớn. Kết quả được mở rộng bởi Laplace trong cuốn sách Analytical Theory of Probabilities (1812), và bây giờ gọi là định lý Moivre-Laplace.

Laplace dùng phân phối chuẩn để phân tích sai số của các thử nghiệm. Phương pháp quan trọng bình phương tối thiểu được Legendre đưa ra năm 1805. Năm 1809, Gauss, người tuyên bố đã từng sử dụng phương pháp này từ năm 1794, đã chứng minh phương pháp này bằng cách giả thiết rằng các sai số có phân phối chuẩn.

Tên gọi "đường cong chuông" do Jouffret, người đầu tiên dùng thuật ngữ "bề mặt hình chuông" năm 1872 cho phân phối chuẩn hai chiều với các thành phần độc lập. Tên gọi "phân phối chuẩn" được tạo ra bởi Charles S. Peirce, Francis Galton và Wilhelm Lexis khoảng năm 1875.

Đặc tính của phân phối chuẩn

Có nhiều cách để thể hiện các đặc tính của một phân phối xác suất. Cách dễ thấy nhất là thông qua hàm mật độ xác suất (vẽ ở hình đầu tiên), nó cho biết khả năng xảy ra của mỗi giá trị của biến ngẫu nhiên. Hàm phân phối tích lũy cũng cho cùng thông tin, nhưng hình ảnh của nó thì thông tin chứa đựng không được dễ nhận thấy cho lắm (hình đi sau). Cách tương đương khi chỉ định một phân phối chuẩn là thông qua: mômen, ước lượng, hàm đặc trưng, hàm khởi tạo mômen, và hàm khởi tạo ước lượng và định lý Maxwell. Một số rất hữu ích về mặt lý thuyết, nhưng không trực quan. Xem phân phối xác suất.

Mọi ước lượng của phân phối chuẩn đều bằng 0, ngoại trừ hai cái đầu tiên.

Hàm mật độ xác suất

Hàm mật độ xác suất của phân phối chuẩn với trung bình $\mu$ và phương sai $\sigma ^{2}$ (hay, độ lệch chuẩn $\sigma$ ) là một ví dụ của một hàm Gauss,

$f(x;\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}\,\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right).$

(Xem thêm hàm lũy thừa và pi.)

Nếu một biến ngẫu nhiên $X$ có phân phối này, ta ký hiệu là $X$ ~ $N(\mu ,\sigma ^{2})$ . Nếu $\mu =0$ và $\sigma =1$ , phân phối được gọi là phân phối chuẩn tắc và hàm mật độ xác suất rút gọn thành

f(x)={\frac {1}{\sqrt {2\pi }}}\,\exp \left(-{\frac {x^{2}}{2}}\right).

Hình ảnh bên phải cho thấy hàm mật độ xác suất cho phân phối chuẩn với các tham số khác nhau.

Một số tính chất với phân phối chuẩn:

Hàm mật độ là đối xứng qua giá trị trung bình (giá trị kì vọng).
Giá trị trung bình cũng là mode và trung vị của nó.
68.26894921371% của diện tích dưới đường cong là nằm trong khoảng 1 lần độ lệch chuẩn tính từ trị trung bình (tức là khoảng $(\mu -\sigma ;\mu +\sigma )$ ).
95.44997361036% của diện tích dưới đường cong là nằm trong khoảng 2 lần độ lệch chuẩn $(\mu -2\sigma ;\mu +2\sigma )$ .
99.73002039367% của diện tích dưới đường cong là nằm trong khoảng 3 lần độ lệch chuẩn $(\mu -3\sigma ;\mu +3\sigma )$ .
99.99366575163% của diện tích dưới đường cong là nằm trong khoảng 4 lần độ lệch chuẩn $(\mu -4\sigma ;\mu +4\sigma )$ .
99.99994266969% của diện tích dưới đường cong là nằm trong khoảng 5 lần độ lệch chuẩn $(\mu -5\sigma ;\mu +5\sigma )$ .
99.99999980268% của diện tích dưới đường cong là nằm trong khoảng 6 lần độ lệch chuẩn $(\mu -6\sigma ;\mu +6\sigma )$ .
99.99999999974% của diện tích dưới đường cong là nằm trong khoảng 7 lần độ lệch chuẩn $(\mu -7\sigma ;\mu +7\sigma )$ .

Điểm uốn của đường cong xảy ra tại độ lệch chuẩn 1 tính từ trị trung bình.

Tích phân

Diện tích dưới đường cong phân phối chuẩn phải bằng 1. Tiếp theo là chứng minh:

Đặt $I=\int \limits _{-\infty }^{\infty }e^{\frac {-x^{2}}{2}}dx$ , Thì ta có $I^{2}=(\int \limits _{-\infty }^{\infty }e^{\frac {-x^{2}}{2}}dx)(\int \limits _{-\infty }^{\infty }e^{\frac {-y^{2}}{2}}dy)=\int \limits _{-\infty }^{\infty }\int \limits _{-\infty }^{\infty }e^{-{\frac {x^{2}+y^{2}}{2}}}dxdy$ .

để áp dùng biến đổi Hệ tọa độ cực, đặt $x=r\cos \theta ,y=r\sin \theta$ lại. Ta có ${\begin{bmatrix}dx\\dy\end{bmatrix}}={\begin{bmatrix}{\frac {\partial x}{\partial r}}&{\frac {\partial x}{\partial \theta }}\\{\frac {\partial y}{\partial r}}&{\frac {\partial y}{\partial \theta }}\end{bmatrix}}{\begin{bmatrix}dr\\d\theta \end{bmatrix}}={\begin{bmatrix}\cos \theta &-r\sin \theta \\sin\theta &r\cos \theta \end{bmatrix}}{\begin{bmatrix}dr\\d\theta \end{bmatrix}}$ với Ma trận Jacobi.

Mà Định thức Jacobi $J={\begin{bmatrix}{\frac {\partial (x,y)}{\partial (r,\theta )}}\end{bmatrix}}$ , Ta có $dxdy={\begin{bmatrix}{\frac {\partial x}{\partial r}}&{\frac {\partial x}{\partial \theta }}\\{\frac {\partial y}{\partial r}}&{\frac {\partial y}{\partial \theta }}\end{bmatrix}}drd\theta =rdrd\theta$ . nên $I^{2}=\int \limits _{-\infty }^{\infty }\int \limits _{-\infty }^{\infty }e^{-{\frac {x^{2}+y^{2}}{2}}}dxdy=\int \limits _{0}^{2\pi }\int \limits _{0}^{\infty }e^{-{\frac {r^{2}}{2}}}rdrd\theta$ .

Vậy $I^{2}=\int \limits _{0}^{2\pi }\int \limits _{0}^{\infty }e^{-{\frac {r^{2}}{2}}}rdrd\theta =\int \limits _{0}^{2\pi }[-e^{-{\frac {r^{2}}{2}}}]_{0}^{\infty }d\theta =\int \limits _{0}^{2\pi }1d\theta =2\pi$ , ta có $I={\sqrt {2\pi }}.$

Hàm phân phối tích lũy

Hàm phân phối tích lũy (cdf) chính là xác suất để một biến $X$ có giá trị nhỏ hơn hay bằng $x$ , và nó được biểu diễn dưới dạng hàm mật độ sau:

F(x;\mu ,\sigma )={\frac {1}{\sigma {\sqrt {2\pi }}}}\int _{-\infty }^{x}\exp \left(-{\frac {(u-\mu )^{2}}{2\sigma ^{2}}}\ \right)\,du.

Hàm cdf chuẩn tắc, qui ước viết là $\Phi$ , chỉ là từ dạng cdf tổng quát và được tính với $\mu =0$ và $\sigma =1$ ,

\Phi (x)=F(x;0,1)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}\exp \left(-{\frac {u^{2}}{2}}\right)\,du.

Hàm cdf chuẩn hóa có thể được biểu diễn dưới dạng một hàm đặc biệt gọi là hàm sai số, như sau

\Phi (z)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {z}{\sqrt {2}}}\right)\right].

Hàm cdf nghịch đảo, hay hàm "quantile", có thể được biểu dưới dạng nghịch đảo của hàm sai số:

\Phi ^{-1}(p)={\sqrt {2}}\;\operatorname {erf} ^{-1}\left(2p-1\right).

Hàm "quantile" này đôi khi còn gọi là hàm "probit". Hàm "probit" không có nguyên hàm sơ cấp. Không có ở đây không phải là không tìm thấy, mà nghĩa là người ta chứng minh rằng không tồn tại một nguyên hàm như vậy.

Đôi khi cần tính: $\Phi ^{-1}(p)$ với số chữ số thập phân nhỏ bằng phương pháp:

Ví dụ: Tính $\Phi ^{-1}(0.2)$ với 4 chữ số thập phân:

Ta có: $\Phi (0.5)<0.2<\Phi (0.6)$ . Nhớ tạm 0.5

Tiếp tục: $\Phi (0.52)<0.2<\Phi (0.53)$ . Nhớ tạm 0.52

Tiếp tục: $\Phi (0.524)<0.2<\Phi (0.525)$ . Nhớ tạm 0.524

Cuối cùng: $\Phi (0.5244)<0.2<\Phi (0.5245)$

Kết quả: $\Phi ^{-1}(0.2)=0.5244$

Giá trị của hàm Φ(x) có thể xấp xỉ một cách chính xác bằng nhiều phương pháp khác nhau, như tích phân số, chuỗi Taylor, hay chuỗi tiệm cận.

Hàm khởi tạo

Hàm khởi tạo Mômen

Hàm khởi tạo mômen được định nghĩa là giá trị kỳ vọng của $\exp(tX)$ . Với phân phối chuẩn, hàm được viết thành

$M_{X}(t)\,$	$=\mathrm {E} \left[\exp(tX)\right]$
	$=\int _{-\infty }^{\infty }{\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)\exp(tx)\,dx$
	$=\exp \left(\mu t+{\frac {\sigma ^{2}t^{2}}{2}}\right)$

và có thể thấy bằng cách khai triển biểu thức trong ngoặc thành bình phương đúng.

Hàm đặc trưng

Hàm đặc trưng được định nghĩa là giá trị kì vọng của $\exp(itX)$ , với $i$ là phần ảo đơn vị. Với phân phối chuẩn, hàm đặc trưng được viết thành

$\phi _{X}(t;\mu ,\sigma )\!$	$=\mathrm {E} \left[\exp(itX)\right]$
	$=\int _{-\infty }^{\infty }{\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)\exp(itx)\,dx$
	$=\exp \left(i\mu t-{\frac {\sigma ^{2}t^{2}}{2}}\right).$

Hàm đặc trưng được tính bằng cách thay thế $t$ cho $it$ trong hàm khởi tạo mômen.

Tính chất

Một số tính chất của phân phối chuẩn:

Nếu $X\sim N(\mu ,\sigma ^{2})$ và $a$ và $b$ là các số thực, thì $aX+b\sim N(a\mu +b,(a\sigma )^{2})$ (xem giá trị kì vọng và phương sai).
Nếu $X\sim N(\mu _{X},\sigma _{X}^{2})$ $X\sim N(\mu _{X},\sigma _{X}^{2})$ và $Y\sim N(\mu _{Y},\sigma _{Y}^{2})$ $Y\sim N(\mu _{Y},\sigma _{Y}^{2})$ là các biến ngẫu nhiên chuẩn độc lập, thì:
- Tổng của chúng là có phân phối chuẩn với $U=X+Y\sim N(\mu _{X}+\mu _{Y},\sigma _{X}^{2}+\sigma _{Y}^{2})$ (proof).
- Hiệu của chúng là có phân phối chuẩn với $V=X-Y\sim N(\mu _{X}-\mu _{Y},\sigma _{X}^{2}+\sigma _{Y}^{2})$ .
- Cả hai $U$ và $V$ là độc lập với nhau.
Nếu $X\sim N(0,\sigma _{X}^{2})$ $X\sim N(0,\sigma _{X}^{2})$ và $Y\sim N(0,\sigma _{Y}^{2})$ $Y\sim N(0,\sigma _{Y}^{2})$ là các biến ngẫu nhiên chuẩn độc lập, thì:
- Tích của chúng $XY$ tuân theo phân phối với hàm mật độ $p$ cho bởi
  $p(z)={\frac {1}{\pi \,\sigma _{X}\,\sigma _{Y}}}\;K_{0}\left({\frac {|z|}{\sigma _{X}\,\sigma _{Y}}}\right),$ với $K_{0}$ là hàm Bessel được chỉnh sửa loại 2.
- Tỉ số giữa chúng tuân theo phân phối Cauchy với $X/Y\sim \mathrm {Cauchy} (0,\sigma _{X}/\sigma _{Y})$ .
Nếu $X_{1},\cdots ,X_{n}$ là các biến ngẫu nhiên chuẩn tắc độc lập, thì $X_{1}^{2}+\cdots +X_{n}^{2}$ có phân phối chi-bình phương với n bậc tự do.

Chuẩn hóa biến ngẫu nhiên có phân phối chuẩn

Một hệ quả của Tính chất 1 là ta có thể quy mọi biến ngẫu nhiên phân phối chuẩn về dạng phân phối chuẩn tắc.

Nếu $X$ ~ $N(\mu ,\sigma ^{2})$ , thì

Z={\frac {X-\mu }{\sigma }}\!

là một biến có phân phối chuẩn tắc: $Z$ ~ $N(0,1)$ . Từ đó lại dẫn đến một hệ quả quan trọng là hàm phân phối tích lũy của một phân phối chuẩn nói chung sẽ là:

$\Pr(X\leq x)=\Phi \left({\frac {x-\mu }{\sigma }}\right)={\frac {1}{2}}\left(1+\operatorname {erf} \left({\frac {x-\mu }{\sigma {\sqrt {2}}}}\right)\right).$

Ngược lại, nếu $Z$ ~ $N(0,1)$ , thì

X=\sigma Z+\mu

là một biến ngẫu nhiên có phân phối chuẩn với trị trung bình $\mu$ và phương sai $\sigma ^{2}$ .

Giá trị của phân phối chuẩn hóa đã được lập thành bảng, và các phân phối chuẩn khác đều là các dạng biến đổi đơn giản từ phân phối chuẩn hóa. Do đó, có thể tra bảng giá trị phân phối tích lũy của hàm phân phối chuẩn hóa để tính các giá trị phân phối tích lũy của phân phối chuẩn.

Mô-men

Một số mô-men bậc nhỏ của phân phối chuẩn:

Number	Raw moment	Central moment	Cumulant
0	1	0
1	$\mu$	0	$\mu$
2	$\mu ^{2}+\sigma ^{2}$	$\sigma ^{2}$	$\sigma ^{2}$
3	$\mu ^{3}+3\mu \sigma ^{2}$	0	0
4	$\mu ^{4}+6\mu ^{2}\sigma ^{2}+3\sigma ^{4}$	$3\sigma ^{4}$	0

Mọi ước lượng của phân phối chuẩn lớn hơn bậc hai đều bằng zero.

Khởi tạo biến ngẫu nhiên có phân phối chuẩn

Khi mô phỏng bằng máy tính, người ta thường khởi tạo các giá trị số có phân phối chuẩn. Có nhiều cách và cách đơn giản nhất là chuyển ngược bằng hàm phân phối tích lũy chuẩn tắc. Có nhiều phương pháp hiệu quả được dùng đến, một trong chúng là biến đổi Box-Muller.

Biến đổi Box-Muller nhận hai giá trị có phân phối đều làm đầu vào và ánh xạ chúng thành giá trị có phân phối chuẩn. Phương pháp này đòi hỏi phải khởi tạo giá trị từ phân phối đều, và có nhiều phương pháp như vậy. Xem thêm khởi tạo số ngẫu nhiên.

Biến đổi Box-Muller là dựa vào: phân phối chi-bình phương với hai bậc tự do (xem tính chất 4 ở trên) là một biến ngẫu nhiên lũy thừa có thể khởi tạo dễ dàng.

Định lý giới hạn trung tâm

Phân phối chuẩn có một tính chất rất quan trọng là trong một số trường hợp nhất định, phân phối của tổng rất nhiều biến ngẫu nhiên độc lập sẽ có phân phối xấp xỉ chuẩn.

Đây là định lý giới hạn trung tâm.

Tầm quan trọng thực tiễn của định lý giới hạn trung tâm là phân phối chuẩn có thể được sử dụng như một xấp xỉ cho một số dạng phân phối khác.

Một phân phối nhị thức với các tham số $n$ và $p$ được xấp xỉ chuẩn hóa đối với các giá trị lớn của $n$ và $p$ không quá gần 1 hoặc 0 (một số sách đề nghị sử dụng phép xấp xỉ này chỉ khi $np$ và $n(1-p)$ đều lớn hơn hoặc bằng 5. Trong trường hợp này, cần phải hiệu chỉnh tính liên tục.
Một phân phối Poisson với tham số $\lambda$ được xấp xỉ chuẩn hóa đối với giá trị $\lambda$ lớn. Phân phối chuẩn được xấp xỉ có trị trung bình $\mu =\lambda$ và phương sai $\sigma ^{2}=\lambda$ .

Việc các phép xấp xỉ trên đây có đạt được đủ độ chính xác hay không còn tùy thuộc vào mục đích sử dụng chúng và tốc độ hội tụ về phân phối chuẩn. Thường trong những trường hợp nói trên, độ kém chính xác sẽ xảy ra ở đuôi của đường phân phối.

Khả năng phân chia vô hạn

Phân phối chuẩn có khả năng phân chia vô hạn.

Độ ổn định

Phân phối chuẩn là phân phối xác suất ổn định.

Độ lệch chuẩn

Trong thực nghiệm, ta thường giả thiết rằng dữ liệu lấy từ tổng thể có dang phân phối xấp xỉ chuẩn. Nếu giả thiết này được kiểm chứng thì có khoảng 68% số giá trị nằm trong khoảng 1 độ lệch chuẩn so với trị trung bình, khoảng 95% số giá trị trong khoảng hai lần độ lệch chuẩn và khoảng 99.7% nằm trong khoảng 3 lần độ lệch chuẩn. Đó là "quy luật 68-95-99.7" hoặc quy tắc kinh nghiệm.

Kiểm định giả thiết về phân phối chuẩn

Phép kiểm định cho ta biết một bộ số liệu cho trước có dạng phân phối tương tự phân phối chuẩn hay không. Giả thiết không là số liệu giống dạng phân phối chuẩn, do đó một giá trị P đủ nhỏ sẽ chứng tỏ dữ liệu không có phân phối chuẩn.

Các phân phối liên quan

$R\sim \mathrm {Rayleigh} (\sigma ^{2})$ là một phân phối Rayleigh nếu $R={\sqrt {X^{2}+Y^{2}}}$ với $X\sim N(0,\sigma ^{2})$ và $Y\sim N(0,\sigma ^{2})$ là 2 phân phối chuẩn độc lập.
$Y\sim \chi _{\nu }^{2}$ là một phân phối khi-bình phương với $\nu$ bậc tự do nếu $Y=\sum _{k=1}^{\nu }X_{k}^{2}$ với $X_{k}\sim N(0,1)$ cho $k=0,1,\cdots ,\nu$ và là độc lập
$Y\sim \mathrm {Cauchy} (\mu =0,\theta =1)$ là một phân phối Cauchy nếu $Y=X_{1}/X_{2}$ và $X_{1}\sim N(0,1)$ và $X_{2}\sim N(0,1)$ là 2 phân phối chuẩn độc lập.
$Y\sim {\mbox{Log-N}}(\mu ,\sigma ^{2})$ là một phân phối log-normal nếu $Y=\exp(X)$ and $X\sim N(\mu ,\sigma ^{2})$ .
Liên quan đến phân phối Lévy skew alpha-stable: nếu $X\sim {\textrm {Levy-S}}\alpha {\textrm {S}}(2,\beta ,\sigma /{\sqrt {2}},\mu )$ thì $X\sim N(\mu ,\sigma ^{2})$ .
Phân phối chuẩn rút gọn. Nếu, $X\sim N(\mu ,\sigma ^{2})$ thì, việc rút gọn dưới tại $A$ và trên tại $B$ sẽ dẫn đến một biến ngẫu nhiên với mean $E(X)=\mu +{\frac {\sigma (\phi _{1}-\phi _{2})}{T}}$ , trong đó $T=\Phi \left({\frac {B-\mu }{\sigma }}\right)-\Phi \left({\frac {A-\mu }{\sigma }}\right)$ và $\phi _{1}=f\left({\frac {A-\mu }{\sigma }}\right)$ và $\phi _{2}=f\left({\frac {B-\mu }{\sigma }}\right)$ , trong đó $f(\cdot )$ là hàm mật độ xác suất của biến ngẫu nhiên chuẩn tắc.

Ước lượng tham số

Ước lượng hợp lý cực đại của các tham số

Giả sử

X_{1},\dots ,X_{n}

độc lập thống kê và mỗi biến đều có phân phối chuẩn với kì vọng μ và phương sai σ². Theo ngôn ngữ thống kê, các giá trị quan trắc của các biến ngẫu nhiên này tạo thành một "mẫu từ tổng thể có phân phối chuẩn". Ta cần ước lượng "trị trung bình của tổng thể μ và độ lệch chuẩn của tổng thể σ, dựa trên các giá trị quan sát được của mẫu. Hàm mật độ xác suất liên hiệp của các biến ngẫu nhiên này là:

f(x_{1},\dots ,x_{n};\mu ,\sigma )\propto \sigma ^{-n}\prod _{i=1}^{n}\exp \left({-1 \over 2}\left({x_{i}-\mu  \over \sigma }\right)^{2}\right).

(Chú ý: Ở đây ký hiệu tỉ lệ $\propto$ có nghĩa là tỉ lệ như một hàm của $\mu$ và $\sigma$ , chứ không phải tỉ lệ như một hàm của $x_{1},\dots ,x_{n}$ . Điểu này có thể xem như là điểm khác biệt giữa quan điểm của các nhà thống kê và nhà xác suất. Lý do về tầm quan trọng của điểm khác nhau này sẽ được đề cập dưới đây.)

Hàm hợp lý - một hàm của μ và σ là

L(\mu ,\sigma )\propto \sigma ^{-n}\exp \left({-\sum _{i=1}^{n}(x_{i}-\mu )^{2} \over 2\sigma ^{2}}\right).

Trong phương pháp hợp lý cực đại, các giá trị của μ và σ làm cho hàm hợp lý đạt cực đại sẽ cho ta các giá trị của ước lượng các thông số μ và σ của tổng thể.

Thông thường trong khi cực đại hóa một hàm 2 biến ta có thể xét các đạo hàm riêng. Nhưng ở đây ta sẽ khai thác một đặc điểm là giá trị của μ làm cực đại hóa hàm hợp ký với σ là cố định, không phụ thuộc vào σ. Do đó, ta có thể tìm giá trị của μ, sau đó thay thế nó vào trong phương trình hợp lý, để cuối cùng thu được giá trị của σ làm cực đại biểu thức tìm được.

Rõ ràng là hàm hợp ký là một hàm giảm của tổng

\sum _{i=1}^{n}(x_{i}-\mu )^{2}.\,\!

Do đó ta muốn giá trị của μ làm cực tiểu hóa tổng này. Đặt:

{\overline {x}}=(x_{1}+\cdots +x_{n})/n

là "trị trung bình mẫu". Nhận thấy

\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\sum _{i=1}^{n}((x_{i}-{\overline {x}})+({\overline {x}}-\mu ))^{2}

=\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+2\sum _{i=1}^{n}(x_{i}-{\overline {x}})({\overline {x}}-\mu )+\sum _{i=1}^{n}({\overline {x}}-\mu )^{2}

=\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}+0+n({\overline {x}}-\mu )^{2}.

Chỉ có số hạng cuối phụ thuộc vào μ và nó được cực tiểu hóa bằng

{\widehat {\mu }}={\overline {x}}.

Đó là ước lượng hợp lý cực đại của μ. Khi ta thay thế giá trị này cho μ trong hàm hợp lý, ta nhận được:

L({\overline {x}},\sigma )\propto \sigma ^{-n}\exp \left({-\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2} \over 2\sigma ^{2}}\right).

Ta quy ước ký hiệu hàm "log hợp lý", nghĩa là, logarit của hàm hợp lý, bằng một chữ $\ell$ thường, và ta có

\ell ({\widehat {\mu }},\sigma )=[\mathrm {constant} ]-n\log(\sigma )-{\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2} \over 2\sigma ^{2}}

và sau đó

{\partial  \over \partial \sigma }\ell ({\widehat {\mu }},\sigma )={-n \over \sigma }+{\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2} \over \sigma ^{3}}={-n \over \sigma ^{3}}\left(\sigma ^{2}-{1 \over n}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\right).

Đạo hàm này dương, bằng 0, hoặc âm tùy thuộc vào σ² nằm giữa 0 và

{1 \over n}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2},

hoặc bằng đại lượng đó, hoặc lớn hơn đại lượng đó.

Kết quả là trị trung bình của bình phương các sai số là một ước lượng hợp lý cực đại của σ², và căn bậc hai của nó là ước lượng hợp lý cực đại của σ. Ước lượng này là một ước lượng chệch, nhưng có một sai số căn quân phương nhỏ hơn so với ước lượng không chệch, vốn là n/(n − 1) lần ước lượng trên.

Điều khái quát gây ngạc nhiên

Đạo hàm của ước lượng hợp lý cực đại của ma trận hiệp phương sai của một phân phối đa biến chuẩn rất khó nhận ra. Nó liên quan đến định lý phổ và lý do có thể coi một đại lượng vô hướng như là vết của ma trận 1×1 hơn là chỉ một biến vô hướng. Xem thêm cách xác định các ma trận hiệp phương sai.

Ước lượng không chệch của các tham số

Ước lượng hợp lý cực đại cho tổng thể đồng nghĩa với việc $\mu$ của một mẫu là một ước lượng không chệch của trị trung bình, và phương sai cũng vậy. Tuy nhiên điều đó chỉ có được khi trị trung bình của tổng thể đã được biết trước. Thực tế ta chỉ có một mẫu lấy từ tổng thể, và không hề có thông tin gì về trị trung bình cũng như phương sai của tổng thể. Trường hợp này ước lượng không chệch của phương sai $\sigma ^{2}$ là: