Xin chào các bạn, hôm nay mình sẽ viết về một chủ đề rất thú vị và quan trọng trong lĩnh vực An toàn thông tin, đó là xác suất thống kê. Xác suất thống kê là một nhánh của toán học ứng dụng, nghiên cứu về các hiện tượng ngẫu nhiên, các phương pháp thu thập, phân tích và diễn giải dữ liệu. Trong An toàn thông tin, xác suất thống kê có vai trò rất lớn trong việc thiết kế, phân tích và đánh giá các thuật toán mã hóa, bảo mật, chữ ký số, xác thực và các ứng dụng khác.
Trong bài viết này, mình sẽ trình bày về các khái niệm cơ bản của xác suất thống kê, các phân phối xác suất thường gặp, các đại lượng thống kê và các kiểm định thống kê. Mình cũng sẽ đưa ra một số ví dụ minh họa về ứng dụng của xác suất thống kê trong An toàn thông tin. Hy vọng bài viết sẽ giúp các bạn hiểu rõ hơn và có hứng thú hơn với môn học này.
## Khái niệm cơ bản của xác suất thống kê
Xác suất là một khái niệm để đo lường mức độ chắc chắn hoặc không chắc chắn của một sự kiện xảy ra. Một sự kiện là một tập hợp các kết quả có thể xảy ra trong một thí nghiệm ngẫu nhiên. Một thí nghiệm ngẫu nhiên là một quá trình có nhiều kết quả có thể xảy ra nhưng không biết trước được kết quả nào sẽ xảy ra. Ví dụ, khi tung một đồng xu, ta có hai kết quả có thể xảy ra là sấp hoặc ngửa, nhưng ta không biết trước được kết quả nào sẽ xảy ra. Khi tung hai đồng xu, ta có bốn kết quả có thể xảy ra là (sấp, sấp), (sấp, ngửa), (ngửa, sấp) hoặc (ngửa, ngửa). Một tập hợp tất cả các kết quả có thể xảy ra của một thí nghiệm ngẫu nhiên được gọi là không gian mẫu.
Xác suất của một sự kiện được tính bằng tỉ lệ giữa số lần sự kiện đó xảy ra và số lần thực hiện thí nghiệm. Xác suất của một sự kiện luôn nằm trong khoảng từ 0 đến 1. Xác suất bằng 0 nghĩa là sự kiện không bao giờ xảy ra. Xác suất bằng 1 nghĩa là sự kiện luôn luôn xảy ra. Xác suất càng gần 0 thì sự kiện càng ít có khả năng xảy ra. Xác suất càng gần 1 thì sự kiện càng có khả năng xảy ra cao.
Ví dụ, khi tung một đồng xu công bằng (không bị lệch), ta có không gian mẫu là {sấp, ngửa}. Xác suất của sự kiện sấp là 1/2, xác suất của sự kiện ngửa cũng là 1/2. Khi tung hai đồng xu công bằng, ta có không gian mẫu là {(sấp, sấp), (sấp, ngửa), (ngửa, sấp), (ngửa, ngửa)}. Xác suất của sự kiện cả hai đồng xu đều sấp là 1/4, xác suất của sự kiện cả hai đồng xu đều ngửa cũng là 1/4. Xác suất của sự kiện có một đồng xu sấp và một đồng xu ngửa là 2/4.
Có hai cách tiếp cận chính để xác định xác suất của một sự kiện: xác suất cổ điển và xác suất thống kê. Xác suất cổ điển dựa trên giả thiết rằng tất cả các kết quả có thể xảy ra của một thí nghiệm ngẫu nhiên đều có khả năng bằng nhau. Xác suất thống kê dựa trên dữ liệu quan sát được từ việc thực hiện thí nghiệm nhiều lần. Xác suất thống kê có thể khác với xác suất cổ điển do sai số ngẫu nhiên hoặc sai số doanh thu.
Xác suất có thể được áp dụng cho các sự kiện đơn hoặc phức tạp. Có ba quy tắc cơ bản để tính toán xác suất của các sự kiện phức tạp: quy tắc cộng, quy tắc nhân và quy tắc Bayes. Quy tắc cộng cho biết xác suất của sự kiện A hoặc B xảy ra bằng tổng xác suất của A và B trừ đi xác suất của A và B cùng xảy ra. Quy tắc nhân cho biết xác suất của sự kiện A và B xảy ra bằng tích xác suất của A và xác suất của B biết A đã xảy ra. Quy tắc Bayes cho biết xác suất của sự kiện A biết B đã xảy ra bằng tỉ lệ giữa xác suất của B biết A đã xảy ra nhân với xác suất của A chia cho xác suất của B.
Ví dụ, khi tung hai đồng xu công bằng, ta có không gian mẫu là {(sấp, sấp), (sấp, ngửa), (ngửa, sấp), (ngửa, ngửa)}. Gọi A là sự kiện đồng xu thứ nhất sấp, B là sự kiện đồng xu thứ hai ngửa. Theo quy tắc cộng, ta có:
P(A hoặc B) = P(A) + P(B) – P(A và B) = 1/2 + 1/2 – 1/4 = 3/4.
Theo quy tắc nhân, ta có:
P(A và B) = P(A) * P(B | A) = 1/2 * 1/2 = 1/4.
Theo quy tắc Bayes, ta có:
P(A | B) = P(B | A) * P(A) / P(B) = 1/2 * 1/2 / 1/2 = 1/2.