Skip navigation

8.1. Khái niệm mẫu ngẫu nhiên

Mẫu ngẫu nhiên và tập tổng thể

Bài toán: Một nhà sản xuất dưa chuột muối đóng hộp muốn biết phân phối chiều dài các quả dưa chuột, để làm vỏ hộp với kích thước thích hợp. Nhà sản xuất này không thể đo hết chiều dài của hàng triệu quả dưa chuột sẽ được đóng hộp. Họ chỉ đo chiều dài của $n$ quả dưa chuột được chọn một cách ngẫu nhiên, rồi từ đó ước lượng ra phân phối chiều dài. Số $n$ ở đây có thể là một số khá lớn, ví dụ 100 quả hay 1000 quả, nhưng nó là một phần rất nhỏ của tổng số các quả dưa chuột. 

Để mô hình hóa bài toán ước lượng trên, ta gọi $X$ là BNN “chiều dài của quả dưa chuột”. Chúng ta muốn ước lượng phân phối xác suất của $X$, hoặc là ước lượng những đại lượng đặc trưng của $X$, ví dụ như kì vọng và phương sai. Để ước lượng, chúng ta sẽ lấy ra $n$ giá trị của $X$ một cách ngẫu nhiên và gọi các giá trị được lấy ra là $x_1,x_2,\cdots,x_n$. Bộ $(x_1,x_2,\cdots,x_n)$ được gọi là một mẫu ngẫu nhiên cỡ $n$ của BNN $X$.

Như vậy, mẫu ngẫu nhiên có nguồn gốc từ một tập lớn hơn mà ta sẽ gọi là tập tổng thể và mang thông tin nào đó về tập tổng thể, mặc dù các thông tin đó có thể khác nhau ở những mẫu khác nhau.

Vấn đề chọn mẫu

Việc chọn phương pháp lấy mẫu phù hợp phụ thuộc vào chính tập đối tượng cụ thể và vào sở trường của nhà nghiên cứu.

Chọn mẫu ngẫu nhiên: Trong phương pháp chọn mẫu ngẫu nhiên, mỗi phần tử của tập tổng thể đã có xác suất chọn xác định từ trước cả khi chọn mẫu. Có 3 cách chọn như sau:

  1. Chọn mẫu ngẫu nhiên đơn giản: là phương pháp chọn mẫu có tính chất mọi mẫu có cùng kích cỡ (cùng số phần tử) có cùng xác suất được chọn và mọi phần tử của tập tổng thể có đồng khả năng lọt vào mẫu.
  2. Chọn mẫu phân nhóm: Đầu tiên ta chia tập tổng thể thành các nhóm tương đối thuần nhất, sau đó từ mỗi nhóm trích ra một mẫu ngẫu nhiên; tập hợp tất cả các mẫu đó cho ta một mẫu (ngẫu nhiên) phân nhóm.
  3. Chọn mẫu chùm: là chọn một mẫu ngẫu nhiên của các tập con của tập tổng thể, được gọi là các chùm. Ta cũng giả sử rằng các phần tử của mỗi chùm mang tính đại diện cho tập tổng thể.

Chọn mẫu có suy luận: Phương pháp chọn mẫu này dựa trên ý kiến các chuyên gia về đối tượng nghiên cứu. Như vậy việc chọn mẫu ở đây dựa trên hiểu biết và kinh nghiệm của một vài nhà chuyên môn.

Sai số trong lấy mẫu: Khi lấy mẫu, do nhiều nguyên nhân khác nhau, sẽ không tránh khỏi những sai số trong các số liệu mẫu. Để thuận lợi cho việc xử lí, ta phân loại các sai số như sau:

  1. Sai số thô: sinh ra do phạm vi các điều kiện cơ bản của việc lấy mẫu hoặc do sơ suất của người thực hiện.
  2. Sai số hệ thống: là sai số do không điều chỉnh chính xác dụng cụ hoặc không thống nhất giữa những người lấy mẫu về cách xác định một đại lượng nào đó... dẫn đến các kết quả quan sát được bị sai lệch.
  3. Sai số ngẫu nhiên: sinh ra do một số lớn các nguyên nhân mà tác động của chúng nhỏ đến mức không thể tách riêng và tính riêng biệt cho từng nguyên nhân được.