Thuật toán nghiên cứu về các gia đình dễ đổ vỡ

25.000 nghiên cứu và liên quan đến 8 triệu đối tượng trong hơn 100 năm đi đến kết luận: 'Các hiệu ứng tâm lý xã hội thường có hệ số tương quan 0,21'.

Cuộc thi đã thu hút sự quan tâm đáng kể của các nhà nghiên cứu. Báo cáo cuối cùng trình bày kết quả từ 160 đội có trình độ cao được chọn từ nhiều ứng viên quốc tế. Hầu hết các đối thủ được chọn đã miêu tả mình là nhà khoa học dữ liệu và ứng dụng máy học.

Trong chặng đầu tiên của cuộc thi, các đội tham gia truy cập vào toàn bộ dữ liệu của một nửa mẫu nghiên cứu, trong đó có sáu kết quả thực tế. Họ sử dụng “dữ liệu đào tạo” này để xây dựng thuật toán dự đoán.

Sau đó các thuật toán của họ được áp dụng (để dự đoán sáu kết quả) cho các gia đình trong nửa mẫu nghiên cứu còn lại chưa được sử dụng để xây dựng thuật toán. Đại lượng đo lường độ chính xác là sai số bình phương trung bình (MSE): sai số dự đoán của từng trường hợp là bình phương của chênh lệch giữa kết quả thực tế và dự đoán của thuật toán.

Ảnh minh họa. Nguồn: Oleksandr P/Pexels.

Những mô hình về nhất trong cuộc thi tốt đến mức nào? Lẽ dĩ nhiên, được xây dựng từ một bộ dữ liệu lớn, các thuật toán học máy tinh vi đã mang lại kết quả dự đoán tốt hơn so với các mô hình tuyến tính đơn giản (và suy ra là tốt hơn dự đoán của con người).

Nhưng so với một mô hình rất đơn giản, độ cải thiện của các mô hình Ai cũng không nhiều, và độ chính xác vẫn thấp một cách đáng thất vọng. Khi dự đoán về việc bị trục xuất, mô hình tốt nhất đạt hệ số tương quan 0,22 (PC = 57%).

Các hệ số tương quan cỡ đó cũng được tìm thấy cho những sự kiện riêng lẻ khác, như liệu người nuôi dưỡng chính đang mất việc hay đang được đào tạo việc làm và điểm số của đứa trẻ về “tính kiên trì bền bỉ”, một đặc điểm tính cách kết hợp sự kiên trì và niềm đam mê một mục tiêu cụ thể. Đối với những sự kiện này, các hệ số tương quan nằm trong khoảng từ 0,17 đến 0,24 (PC = 55-58%).

Hai trong số sáu kết quả mục tiêu là những kết quả tổng hợp, dễ đoán hơn nhiều. Về điểm trung bình của đứa trẻ, hệ số tương quan giữa dự đoán của mô hình và kết quả thực tế là 0,44 (PC = 65%); còn về điểm đánh giá tổng quát khó khăn vật chất trong 12 tháng trước, hệ số tương quan là 0,48 (PC = 66%).

Điểm đánh giá tổng quát này dựa trên 11 câu hỏi, như “Em có bao giờ bị đói không?” và “Dịch vụ điện thoại của em có bị hủy không?” Ai cũng biết, các kết quả tổng hợp thường dễ đoán hơn những kết quả đơn lẻ. Kết luận chính của cuộc thi là: một lượng lớn thông tin dự đoán vẫn không đủ để dự đoán các sự kiện đơn lẻ trong dòng đời con người, và ngay cả việc dự đoán những kết quả tổng hợp cũng khá hạn chế.

Các kết quả quan sát trong nghiên cứu trên có tính chất điển hình, và nhiều hệ số tương quan khác mà các nhà khoa học xã hội tường thuật cũng nằm trong miền giá trị này. Việc rà soát tổng quan nhiều nghiên cứu tâm lý xã hội, bao gồm 25.000 nghiên cứu và liên quan đến 8 triệu đối tượng trong hơn 100 năm, đã đi đến kết luận: “Các hiệu ứng tâm lý xã hội thường có hệ số tương quan 0,21.”

Những mối tương quan cao hơn nhiều, như hệ số tương quan 0,60 giữa chiều cao và kích thước bàn chân người trưởng thành mà chúng tôi đã đề cập trên đây, khá phổ biến trong đo lường vật lý nhưng rất hiếm trong các ngành khoa học xã hội. Xem xét tổng quan 708 nghiên cứu trong khoa học hành vi và nhận thức, người ta cũng nhận thấy, các hệ số tương quan từ 0,50 trở lên chỉ chiếm khoảng 3%.

Hệ số tương quan thấp như vậy có thể gây ngạc nhiên nếu bạn từng đọc về những kết quả nghiên cứu được gọi là “có ý nghĩa thống kê” hoặc thậm chí “có ý nghĩa thống kê cao.” Các thuật ngữ thống kê thường gây hiểu lầm cho những độc giả ngoài ngành, và “có ý nghĩa thống kê” xem ra là ví dụ điển hình tệ hại nhất.

Daniel Kahneman, Olivier Sibony, Cass R. Sunstein/NXB Trẻ

Nguồn Znews: https://znews.vn/thuat-toan-nghien-cuu-ve-cac-gia-dinh-de-do-vo-post1470310.html