Định nghĩa. Giả sử $\hat{\theta_1}$ và $\hat{\theta_2}$ là hai thống kê có từ mẫu ngẫu nhiên $(X_1, X_2. · · · , X_n)$ và $\theta$ là một trong các đặc số của BNN $X$ của tổng thể. Khi đó $[\hat{\theta_1}, \hat{\theta_2}]$ được gọi là khoảng tin cậy của $\theta$ với độ tin cậy $\beta$ nếu: $p(\hat{\theta_1}\leq \theta \leq \hat{\theta_2})=1-\alpha=\beta$.
Độ dài $\hat{\theta_1}-\hat{\theta_2}$ được gọi là bề rộng của khoảng tin cậy.
Hệ số $\alpha := 1 − \beta$ được gọi là mức ý nghĩa.
Để tìm $\hat{\theta_1}$ và $\hat{\theta_2}$ ứng với độ tin cậy $\beta$, ta thực hiện theo các bước sau:
Bước 1
Tìm một thống kê $\hat{\theta_1}$ sao cho phân phối xác suất của $\hat{\theta_1}$ xác định hoàn toàn (không chứa đặc số $\theta$).
Bước 2
Với độ tin cậy $\beta$ cho trước, ta tìm cặp số dương $\alpha_1$ và $\alpha_2$ thỏa mãn $\alpha_1 + \alpha_2 = \alpha$ và tương đương với chúng là các phân vị $\hat{\theta}_{\alpha_1}, \hat{\theta}_{1-\alpha_2}$ thỏa mãn điều kiện: $$p\left(\hat{\theta}<\hat{\theta}_{\alpha_1}\right)=\alpha_1 \text{ và } p\left(\hat{\theta}>\hat{\theta}_{1-\alpha_1}\right)=1-p\left(\hat{\theta}<\hat{\theta}_{\alpha_1}\right)=\alpha_2.$$
Khi đó: $$p\left(\hat{\theta}_{\alpha_1}<\hat{\theta}<\hat{\theta}_{1-\alpha_2}\right)=1-\alpha_2-\alpha_1=1-\alpha=\beta.\tag{*}\label{7.3}$$
Bước 3
Bằng các phép biến đổi tương đương ta đưa bất đẳng thức trong \eqref{7.3} về dạng $\hat{\theta_1} < \theta < \hat{\theta_2}$ và $p\left(\hat{\theta_1} <\theta < \hat{\theta_2}\right)= \beta$, đó chính là khoảng tin cậy cần tìm.
Khoảng tin cậy cho kì vọng
Giả sử BNN của tổng thể là $X \sim N(\mu;\sigma^2)$ với tham số kì vọng $\mu$ chưa biết và mẫu ngẫu nhiên $(X_1,\cdots, X_n)$. Bài toán đặt ra là tìm khoảng tin cậy cho $E(X) = \mu$ với độ tin cậy $\beta$ cho trước.
Trường hợp 1: Biến ngẫu nhiên $X$ có phân phối chuẩn và $D(X)=\sigma^2$ đã biết (mẫu có kích thước $n$ bất kỳ).
Bước 1: Từ mẫu cụ thể ta tính $\overline{x}$; với độ tin cậy $\beta$ cho trước, ta tính $\alpha=1-\beta$ và tìm $U_{\alpha/2}$ bằng cách tra bảng.
Bước 2: Tính độ chính xác $\varepsilon= U_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}$.
Bước 3: Khoảng tin cậy của $\mu$ là $(\overline{x}-\varepsilon; \overline{x}+\varepsilon)$.
Ví dụ: Khối lượng sản phẩm là BNN $X$ có luật phân phối chuẩn, biết rằng phương sai $\sigma^2 = 4g^2$. Kiểm tra 25 sản phẩm, tính được khối lượng trung bình là 20g. Tìm khoảng tin cậy 95% cho khối lượng trung bình của sản phẩm.
Giải: Thông tin đầu vào gồm: $\overline{x} = 20, \sigma = 2, n = 25$.
Với độ tin cậy $\beta=95\%=0,95$, ta có mức ý nghĩa $\alpha=1-\beta=0,05$ và $U_{\alpha/2}=1,96.$
Ta chọn khoảng tin cậy đối xứng, tức là cần tính độ chính xác $$\varepsilon=U_{\alpha/2}\dfrac{\sigma}{\sqrt{n}}=1,96\dfrac{2}{\sqrt{25}}=0,784.$$ Vậy khoảng ước lượng cần tìm là: $( 19, 216; 20, 784)$.
Trường hợp 2: Biến ngẫu nhiên $X$ có phân phối chuẩn và $D(X)=\sigma^2$ chưa biết (mẫu có kích thước $n\geq 30$).
Bước 1: Ta dùng ước lượng $D(X)=S^2$ thay cho $\sigma^2$.
Bước 2: Từ mẫu cụ thể ta tính $\overline{x}$.
Bước 3: Tính độ chính xác $\varepsilon= U_{\alpha/2}\dfrac{S}{\sqrt{n}}$.
Bước 4: Khoảng tin cậy của $\mu$ là $(\overline{x}-\varepsilon; \overline{x}+\varepsilon)$.
Ví dụ: Điều tra năng suất lúa trên diện tích 100 ha của 1 vùng, tính được $\overline{x}=46$ tạ/ha, $S^2=10,91$. Hãy ước lượng năng suất lúa trung bình của toàn vùng với độ tin cậy $\beta=95\%$.
Giải: Gọi $X$ là năng suất lúa trung bình của toàn vùng. Rõ ràng chưa biết phương sai mẫu, mẫu có kích thước $n=100>30$.
Từ độ tin cậy $\beta=95\%=0,95$, ta có mức ý nghĩa $\alpha=1-\beta=0,05$ và $U_{\frac{\alpha}{2}}=1,96.$
Theo bước 3 ở trên ta có $\varepsilon=0,647$.
Vậy khoảng ước lượng cần tìm là: $(45,353; 46,647)$.
Trường hợp 3: Biến ngẫu nhiên $X$ có phân phối chuẩn và $D(X)=\sigma^2$ chưa biết (mẫu có kích thước $n< 30$).
Bước 1: Ta dùng ước lượng $D(X)=S^2$ thay cho $\sigma^2$.
Bước 2: Từ mẫu cụ thể ta tính $\overline{x}$.
Bước 3: Tính độ chính xác $\varepsilon= t_{\alpha/2}(n-1)\dfrac{S}{\sqrt{n}}$, với $t_{\alpha/2}(n-1)$ được tra theo bảng phân phối Student.
Bước 4: Khoảng tin cậy của $\mu$ là $(\overline{x}-\varepsilon; \overline{x}+\varepsilon)$.
Ví dụ: Để đánh giá nhiệt độ lớn nhất trung bình ở tỉnh Khánh Hòa vào ngày 5 tháng 9 (giả sử nhiệt độ tuân theo luật chuẩn), người ta lấy số liệu ở 5 vùng của tỉnh đo được trong ngày là 29, 31, 33, 35 và 36 độ C. Xác định khoảng tin cậy 95% cho nhiệt độ cao nhất trung bình trong ngày đang xét.
Giải: Gọi $X$ là nhiệt độ cao nhất ở Khánh Hòa vào ngày 05/09, theo giả thiết $X \sim N(\mu; \sigma^2)$. Từ số liệu đã cho ta có bảng sau:
$x_i$
29
31
33
35
36
$\overline{x}=32,8$
$x_i-\overline{x}$
-3,8
-1,8
0,2
2,2
3,2
$(x_i-\overline{x})^2$
14,44
3,24
0,04
4,48
10,24
$S^2=8,2$
Với độ tin cậy 95%, tra bảng phân phối Student ta có $t_{0,025}(4)= 2,776$.
Khi đó ta có độ chính xác là: $\varepsilon= 2,776\dfrac{\sqrt{8,2}}{\sqrt{5}}=2,776\dfrac{2,863}{2,236}\approx 3,554$.
Vậy khoảng ước lượng cần tìm là $( 29,246;36,354)$.
Khoảng tin cậy cho tỉ lệ
Giả sử ta cần ước lượng tỉ lệ cá thể có tính chất $A$ trong khoảng $(f_1; f_2)$ sao cho $P(f_1<p<f_2) = 1-\alpha = \beta$. Lấy mẫu ngẫu nhiên $X_1,\cdots, X_n$ là các BNN độc lập có cùng phân phối Bernoulli với $ E(X_i) = p$ và $D(X_i) = p(1-p), i = \overline{1,n}$. Tần suất mẫu $f=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$ và $D(f)= \dfrac{p(1-p)}{n}$.
Bước 1: Từ mẫu cụ thể ta tính $f$; với độ tin cậy $\beta$ cho trước, ta tính $\alpha=1-\beta$ và tìm $U_{\alpha/2}$ bằng cách tra bảng.
Bước 2: Tính độ chính xác $\varepsilon=U_{\alpha/2}\sqrt{\dfrac{f(1-f)}{n}}$.
Bước 3: Khoảng tin cậy cho tỉ lệ $p$ của tổng thể với độ tin cậy $\beta$ là: $(f-\varepsilon; f+\varepsilon)$.
Ví dụ: Nghiên cứu nhu cầu sử dụng máy tính ở 1 đơn vị, người ta tiến hành điều tra 100 quân nhân, thì thấy có 60 quân nhân có nhu cầu sử dụng máy tính. Hãy ước lượng xác suất về nhu cầu sử dụng máy tính của toàn đơn vị với độ tin cậy $\beta=95\%$.
Gọi $p$ là tỷ lệ về nhu cầu sử dụng máy tính ở đơn vị, cần ước lượng $p$. Ta có: $f=\dfrac{60}{100}=0,6$; mẫu có kích thước 100.
Từ $\beta=95\%$ ta có $U_{\alpha/2}=1,96$. Do đó ta tính được: $\varepsilon=1,96\sqrt{\dfrac{0,6(1-0,6)}{100}}=0,096$.
Vậy, ước lượng về nhu cầu sử dụng máy tính là $(0,504; 0,696)$.
Khoảng tin cậy cho phương sai
Xét BNN $X$ của tổng thể có luật phân phối chuẩn $N(\mu; \sigma^2)$ trong đó phương sai $\sigma^2$ chưa biết. Với độ tin cậy $\beta =1-\alpha$ cho trước, ta sẽ ước lượng khoảng tin cậy cho tham số $\sigma^2$ phụ thuộc điều kiện kì vọng $\mu$ đã biết hoặc chưa biết.
Trường hợp 1. Kì vọng $\mu$ đã biết
Bước 1: Tính ${\overline{S}}^2=\dfrac{1}{n}\sum\limits_{i=1}^{n}(x_i-\mu)^2$.
Bước 2: Khoảng tin cậy cho phương sai $\sigma^2$ là: $$\dfrac{n{\overline{S}}^2}{\chi_{\alpha_1}^{2}(n)}< \sigma^2< \dfrac{n{\overline{S}}^2}{\chi_{1-{\alpha_2}}^{2}(n)}.$$
Chú ý. Với khoảng tin cậy đối xứng nếu ta chọn: ${\alpha_1}={\alpha_2}=\dfrac{\alpha}{2}$ thì $$\dfrac{n{\overline{S}}^2}{\chi_{\alpha/2}^{2}(n)}<\sigma^2<\dfrac{n{\overline{S}}^2}{\chi_{1-\alpha/2}^{2}(n)}.$$
Trường hợp 2. Kì vọng $\mu$ chưa biết
Bước 1: Với mẫu cụ thể ta tính $S^2=\dfrac{1}{(n-1)}\sum\limits_{i=1}^{n}(x_i-\overline{x})^2$.
Bước 2: Khoảng tin cậy cho phương sai $\sigma^2$ là: $\left(\dfrac{(n-1)S^2}{\chi_{\alpha/2}^{2}(n-1)};\dfrac{(n-1)S^2}{\chi_{1-\alpha/2}^{2}(n-1)}\right)$.
Ví dụ. Kiểm tra 25 sản phẩm của một công ty sản xuất thức ăn đóng gói ta được kết quả sau:
Trọng lượng (g)
195
200
205
Số sản phẩm
5
18
2
Với độ tin cậy 95%, hãy ước lượng phương sai của trọng lượng các sản phẩm trong 2 trường hợp:
Biết trọng lượng trung bình $\mu=$ 200g,
Không biết trọng lượng trung bình.
a) Ta tính được $n{\overline{S}}^2=\sum\limits_{i=1}^{3}(x_i-200)^2n_i=175$. Với độ tin cậy 95% thì $\alpha=0, 05$, tra Bảng phần Phụ lục ta có: $\chi_{0,025}^{2}(25)= 40, 646$ và $\chi_{0,975}^{2}(25)= 13,12.$
$x_i$
195
200
205
$n_i$
5
18
2
$x_in_i$
975
3600
410
$\overline{x}=199,4$
$(x_i-200)^2$
25
0
25
$(x_i-\overline{x})^2$
19,36
0,36
31,36
độ tin cậy 95%, qua mẫu cụ thể này, khoảng tin cậy của $\sigma^2$ là: $\left(\dfrac{175}{40,646}; \dfrac{175}{13,12}\right) \approx (4, 305; 13, 338)$.
b) Ta có $(n-1)s^2=\sum\limits_{i=1}^{3}(x_i-199,4)^2n_i=166$. Với độ tin cậy 95% thì $\alpha=0, 05$, tra Bảng phần Phụ lục ta có: $\chi_{0,025}^{2}(24)= 39, 364$ và $\chi_{0,975}^{2}(24)= 12, 401$.
Khoảng tin cậy của $\sigma^2$ là: $\left(\dfrac{166}{39,364}; \dfrac{166}{12,401}\right) \approx ( 4, 217; 13, 386)$.
Khoảng tin cậy cho tỉ lệ
Giả sử ta cần ước lượng tỉ lệ cá thể có tính chất $A$ trong khoảng $(f_1; f_2)$ sao cho $P(f_1 < p < f_2) = 1 − \alpha = \beta$. Lấy mẫu ngẫu nhiên $X_1, · · · , X_n$ là các BNN độc lập có cùng phân phối Bernoulli với $ E(X_i) = p$ và $D(X_i) = p(1 − p), i = \overline{1,n}$. Tần suất mẫu $f=\dfrac{1}{n}\sum\limits_{i=1}^{n}X_i$ và $D(f)= \dfrac{p(1-p)}{n}$.
Bước 1: Với độ tin cậy $\beta$ cho trước, ta tính $\alpha=1-\beta$ và tìm $U_{\alpha/2}$ bằng cách tra bảng.
Bước 2: Tính độ chính xác $\varepsilon=U_{\alpha/2}\sqrt{\dfrac{f(1-f)}{n}}$.
Bước 3: Khoảng tin cậy cho tỉ lệ $p$ của tổng thể với độ tin cậy $\beta$ là: $(f-\varepsilon; f+\varepsilon)$.
Ví dụ. Nghiên cứu nhu cầu sử dụng máy tính ở 1 đơn vị, người ta tiến hành điều tra 100 quân nhân, thì thấy có 60 quân nhân có nhu cầu sử dụng máy tính. Hãy ước lượng xác suất về nhu cầu sử dụng máy tính của toàn đơn vị với độ tin cậy $\beta=95\%$.
Gọi $p$ là tỷ lệ về nhu cầu sử dụng máy tính ở đơn vị, cần ước lượng $p$. Ta có: $f=\dfrac{60}{100}=0,6$; mẫu có kích thước 100.
Từ $\beta=95\%$ ta có $U_{\alpha/2}=1,96$. Do đó ta tính được: $\varepsilon=1,96\sqrt{\dfrac{0,6(1-0,6)}{100}}=0,096$.
Vậy, ước lượng về nhu cầu sử dụng máy tính là $(0,504; 0,696)$.