Skip navigation

8.3. Các đặc trưng của mẫu ngẫu nhiên

Thống kê

Định nghĩa: Một hàm $Y=g(X_1,X_2,\cdots, X_n)$ phụ thuộc tập giá trị của mẫu ngẫu nhiên được gọi là một thống kê.

Ví dụ: Xét tập hợp giá trị mẫu $(x_1,x_2,\cdots, x_n)$, các hàm sau đây được gọi là các thống kê:

  1. $g(x_1,x_2,\cdots,x_n)=\dfrac{1}{n}\sum\limits_{i=1}^n x_i=EX$,
  2. $g(x_1,x_2,\cdots,x_n)=\dfrac{1}{n}\sum\limits_{i=1}^n (x_i-EX)^2=DX$

Có hai nhóm thống kê mẫu quan trọng đặc trưng cho ĐLNN của tổng thể:

  1. Các số đặc trưng cho ta hình ảnh về vị trí trung tâm của mẫu, tức là xu thế các số liệu trong mẫu tụ tập xung quanh những con số nào đó. Chẳng hạn trung bình mẫu, trung vị mẫu, Mode mẫu...
  2. Các số đặc trưng cho sự phân tán của các số liệu: độ lệch trung bình, độ lệch tiêu chuẩn và phương sai mẫu.

Các tham số đặc trưng của mẫu

Trung bình mẫu (kì vọng mẫu)

Xét mẫu ngẫu nhiên $(X_1, · · · , X_n)$ của BNN $X$, thống kê $$\overline{X}=\dfrac{1}{n}(X_1+X_2+...+X_n)=\dfrac{1}{n}\sum\limits_{i=1}^{n} X_i$$ gọi là trung bình mẫu. Với mẫu cụ thể $(x_1, · · · , x_n)$ thì: $$\overline{x}=\dfrac{1}{n}\sum\limits_{i=1}^{n} x_i$$ là giá trị mà trung bình mẫu nhận được ứng với mẫu đã cho.

Xét mẫu ngẫu nhiên có dạng điểm

$X$ $X_1$ $X_2$ $\cdots$ $X_k$
$n_i$ $n_1$ $n_2$ $\cdots$ $n_k$

Khi đó $\overline{X}=\dfrac{n_1X_1+n_2X_2+\cdots+n_kX_k}{n_1+n_2+\cdots+n_k}$

Xét mẫu ngẫu nhiên dạng khoảng thì $$ \overline{X}=\dfrac{n_1X^*_1+n_2X^*_2+\cdots+n_kX^*_k}{n_1+n_2+\cdots+n_k}, \text{với }X^*_i=\dfrac{X_i+X_{i+1}}{2}. $$

Do $X_1,\cdots, X_n$ là các ĐLNN độc lập cùng phân phối như $X$ nên $\overline{X}$ là một ĐLNN. Theo tính chất của kì vọng và phương sai ta có: \begin{align}E(\overline{X})&=\dfrac{1}{n}E\left(\sum\limits_{i=1}^nX_i\right)=\dfrac{1}{n}\sum\limits_{i=1}^nE(X_i)=\dfrac{n.E(X)}{n}=E(X),\\D(\overline{X})&=\dfrac{1}{n^2}D\left(\sum\limits_{i=1}^nX_i\right)=\dfrac{1}{n^2}\sum\limits_{i=1}^nD(X_i)=\dfrac{n.D(X)}{n^2}=\dfrac{D(X)}{n}.\end{align}

Từ công thức trên, do phương sai $D(\overline{X})$ bé hơn $n$ lần $D(X)$ nên các giá trị có thể có của $\overline{X}$ sẽ ổn định quanh kì vọng hơn các giá trị của $X$.

Phương sai mẫu, độ lệch chuẩn mẫu

Một cách tương tự trung bình mẫu, phương sai mẫu được định nghĩa là kì vọng của độ lệch bình phương các thành phần của mẫu với trung bình mẫu và kí hiệu $$ \hat{S}^2=\dfrac{1}{n}\sum\limits_{i=1}^n(X_i-\overline{X})^2=\dfrac{1}{n}\sum\limits_{i=1}^nX_i^2-(\overline{X})^2.$$ Nếu mẫu cho dưới dạng bảng thì $$ \hat{S}^2=\dfrac{1}{n}\sum\limits_{i=1}^k(x_i-\overline{X})^2n_i=\dfrac{1}{n}\sum\limits_{i=1}^kx_i^2n_i-(\overline{X})^2. $$

Do $\hat{S}^2$ là ĐLNN nên $E(\hat{S}^2)=\dfrac{n-1}{n}D(X)$. Để kì vọng của phương sai mẫu trùng với phương sai $D(X)$ của ĐLNN gốc ta cần phương sai mẫu có hiệu chỉnh là $$S^2=\dfrac{n}{n-1}\hat{S}^2=\dfrac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline{X})^2=\dfrac{1}{n-1}\sum\limits_{i=1}^nX_i^2-\dfrac{n}{n-1}(\overline{X})^2.$$

Chú ý:

  1. Thống kê $\hat{S}$ gọi là độ lệch chuẩn mẫu chưa hiệu chỉnh và $\hat{s}$ là giá trị của $\hat{S}$ với mẫu đã cho.
  2. Thống kê $S$ gọi là độ lệch chuẩn mẫu đã hiệu chỉnh và $s$ là giá trị của $S$ với mẫu đã cho.

Ví dụ

Tuổi thọ (đơn vị: 10 giờ) một loại linh kiện do công ty A sản xuất ra được kiểm tra ngẫu nhiên, kết quả ghi thành bảng sau: 

Tuổi $\leq 7$ 7-7,5 7,5-8 8-8,5 8,5-9 $\geq 9 $
$n_i$ 3 15 18 14 20 4

Tính $\overline{x}, \hat{s}^2,s^2$.