Page 70 - XSTK6
P. 70
tiên phong trong công ngh» nhªn bi¸t danh tính b¬ng màng mt. Thuªt toán cõa
ông ta giúp t¤o ra tø £nh màng mt mët mã vîi 266 đơn và thông tin có thº coi
là ng¨u nhiên và đëc lªp vîi nhau (méi đơn và là mët BNN nhªn giá trà 0 và 1,
vîi xác su§t 50%-50%). Đº tìm ra 266 đơn và thông tin đëc lªp đó (xu§t phát tø
2 11 = 2048 đơn và thông tin không đëc lªp vîi nhau) và kiºm đành sü đëc lªp cõa
chúng, Daugman đã làm thèng kê so sánh hơn 222 000 l¦n c°p £nh màng mt
khác chõ (2 mt trong 1 c°p là cõa hai ngưíi khác nhau), và hơn 500 c°p £nh
màng mt cùng chõ. Mët trong các k¸t qu£ là, t l» đơn và thông tin ch»ch nhau
giúa mã cõa 2 mt khác chõ tuân theo phân phèi chu©n vîi kì vång là 45.6% (tùc
là trung bình hai mt khác chõ thì có 45.6% đơn và thông tin ch»ch nhau) vîi
đë l»ch chu©n là 0.18%, và không có c°p mt khác chõ nào có dưîi 37% đơn và
thông tin l»ch nhau. M°t khác, hai £nh màng mt khác nhau cõa cùng mët chõ
thì trung bình ch¿ có 9% các đơn và thông tin bà l»ch nhau trong sè 266 đơn và,
và không có c°p £nh mt cùng chõ nào bà l»ch nhau quá 31% đơn và thông tin.
Tø đó d¨n đ¸n thuªt toán phân bi»t: coi r¬ng n¸u hai mã bà l»ch nhau không
quá 34% sè đơn và thông tin, thì v¨n là cõa cùng mët ngưíi, còn n¸u trên 34%
thì coi là cõa hai ngưíi khác nhau.
Mët đi·u c¦n chú ý là, thèng kê thưíng bà các tê chùc hay cá nhân l¤m döng
đº bóp méo sü thªt theo hưîng có lñi cho mình, ho°c có khi tü dèi mình, n¸u như
làm không đúng cách. Có r§t nhi·u cách nói dèi khác nhau b¬ng thèng kê, ch¯ng
h¤n như: bàa đ°t các con sè không có thªt, lüa chån các con sè có lñi, gi§u đi các
con sè b§t lñi, thiên và (bias) trong vi»c chån m¨u thí nghi»m... Ch¯ng h¤n như: Bë
quèc phòng Mÿ đã tuyên bè r¬ng, trong cuëc chi¸n vîi Irac năm 1991, các tên lûa
Patriot cõa Mÿ đã bn rơi 41 tên lûa Scud cõa Irac, nhưng khi Quèc hëi Mÿ đi·u
tra l¤i th§y ch¿ có 4 tên lûa Scud bà bn rơi; hay ví dö v· bias làm häng k¸t qu£
thèng kê: Báo Literacy Digest thăm dò ý ki¸n cû tri v· b¦u cû têng thèng ð Mÿ
năm 1936, qua đi»n tho¤i và qua các đëc gi£ đ°t báo. K¸t qu£ thăm dò trên ph¤m
vi r§t rëng cho dü đoán là Landon s³ đưñc 370 phi¸u (đ¤i cû tri) còn Roosevelt
s³ ch¿ đưñc 161 phi¸u. Th¸ nhưng lúc b¦u thªt thì Roosevelt thng. Hoá ra, đèi
tưñng mà Literacy Digest thăm dò năm đó, nhúng ngưíi có ti·n đ°t đi»n tho¤i hay
đ°t báo, là nhúng ngưíi thuëc t¦ng lîp khá gi£, có bias theo phía Landon (Đ£ng
Cëng hòa), không đ°c trưng cho toàn dân chúng Mÿ.
Nói chung, đº thèng kê toán håc cho ra đưñc các k¸t qu£ đáng tin cªy, ngoài
các công thùc toán håc đúng đn, còn c¦n đ£m b£o sü trung thüc cõa các sè li»u,
có m¨u thüc nghi»m (lưñng sè li»u) đõ lîn, và lo¤i đi đưñc £nh hưðng cõa các bias
đº đ£m b£o tính ng¨u nhiên cõa sè li»u. Nhi·u khi vi»c lo¤i đi các k¸t qu£ có bias
cao tø m¨u thüc nghi»m là công vi»c hi»u qu£, cho ra k¸t luªn thèng kê chính xác
và đï tèn kém hơn là tăng cï cõa m¨u thüc nghi»m lên thêm nhi·u.
3.2. CƠ SÐ LÝ THUYT MU
3.2.1. M¨u ng¨u nhiên
a) M¨u ng¨u nhiên và tªp têng thº
Bài toán: Mët nhà s£n xu§t dưa chuët muèi đóng hëp muèn bi¸t phân phèi
chi·u dài các qu£ dưa chuët (chi·u dài trung bình, đë l»ch chu©n...), đº làm vä hëp
67