Ngay cả những AI phát hiện tin tức giả tốt nhất vẫn còn quá nhiều lỗ hổng

Linh Le

Có thể tự động xác định nguồn tin tức đáng ngờ — nhưng chúng tôi sẽ cần nhiều dữ liệu hơn.

Khi giám đốc điều hành Facebook Mark Zuckerberg hứa với Quốc hội rằng AI sẽ giúp giải quyết vấn đề tin tức giả mạo, ông đã tiết lộ rất ít về cách thức như thế nào. Nghiên cứu mới mang lại cho chúng ta một bước gần hơn để tìm ra điều đó.

Trong một cuộc nghiên cứu sâu rộng mà sẽ được trình bày tại một cuộc họp vào cuối tháng này, các nhà nghiên cứu của MIT, Qatar Viện Nghiên cứu Computing (QCRI) và Đại học Sofia ở Bulgaria thử nghiệm hơn 900 biến thể cho dự đoán tin cậy-có lẽ là bộ lớn nhất một phương tiện truyền thông đầu ra của từng đề xuất .

Sau đó, các nhà nghiên cứu đã đào tạo một mô hình học máy trên các kết hợp khác nhau của các biến để xem kết quả nào chính xác nhất. Mô hình tốt nhất được ghi nhãn chính xác với các điểm tin tức “thấp”, “trung bình” hoặc “cao” chỉ là 65% thời gian.

Đây là một thành công xa vời. Nhưng các thí nghiệm cho thấy những điều quan trọng về những gì nó sẽ làm để thuê ngoài kiểm tra thực tế của chúng tôi với một cỗ máy. Preslav Nakov, một nhà khoa học cao cấp tại QCRI và một trong những nhà nghiên cứu về nghiên cứu này, cho biết ông lạc quan rằng các nguồn tin tức giả có thể tự động được phát hiện theo cách này.

Nhưng điều đó không có nghĩa là nó sẽ dễ dàng.

Phương pháp điên rồ

Trong sự bùng nổ của nghiên cứu về phát hiện tin tức giả từ chiến dịch tranh cử tổng thống Mỹ năm 2016, bốn phương pháp chính đã xuất hiện: kiểm tra thực tế các tuyên bố cá nhân, phát hiện các bài báo giả, săn lùng, và đo độ tin cậy của các nguồn tin tức. Nakov và phần còn lại của nhóm đã chọn tập trung vào thứ tư vì nó gần nhất với nguồn gốc của thông tin sai lạc. Nó cũng đã được nghiên cứu ít nhất.

Các nghiên cứu trước đây đã cố gắng mô tả độ tin cậy của một nguồn tin tức bởi có bao nhiêu tuyên bố của nó phù hợp hoặc mâu thuẫn với các tuyên bố đã được kiểm tra thực tế rồi. Nói cách khác, một máy sẽ so sánh lịch sử của các tuyên bố thực tế được tạo ra bởi một cửa hàng tin tức chống lại các kết luận của các trang web như Snopes hoặc PolitiFact. Tuy nhiên, cơ chế này dựa vào sự kiểm tra thực tế của con người và đánh giá lịch sử của cửa hàng, chứ không phải là hiện tại. Vào thời điểm những tuyên bố mới nhất đã được kiểm chứng bằng tay, “đã quá muộn”, Nakov nói.

Để phát hiện một nguồn tin tức giả gần với thời gian thực, Nakov và các cộng tác viên đã đào tạo hệ thống của họ bằng cách sử dụng các biến có thể được lập bảng độc lập với những người kiểm tra thực tế của con người. Chúng bao gồm các phân tích về nội dung, như cấu trúc câu của các tiêu đề và sự đa dạng từ trong các bài báo; các chỉ số trang web tổng thể, như cấu trúc URL và lưu lượng truy cập trang web; và các biện pháp ảnh hưởng của cửa hàng, như sự tương tác trên phương tiện truyền thông xã hội và trang Wikipedia, nếu có.

Để chọn các biến, các nhà nghiên cứu dựa vào cả nghiên cứu trước đây – các nghiên cứu trước đây đã chỉ ra rằng các bài báo giả có khuynh hướng có các lựa chọn từ lặp đi lặp lại, ví dụ và trên các giả thuyết mới.

Bằng cách thử nghiệm các kết hợp biến khác nhau, các nhà nghiên cứu đã có thể xác định các yếu tố dự báo tốt nhất cho độ tin cậy của nguồn tin tức. Cho dù một cửa hàng có một trang Wikipedia, ví dụ, đã có một sức mạnh dự đoán outsize; lưu lượng của cửa hàng, ngược lại, không có. Bài tập đã giúp các nhà nghiên cứu xác định các biến bổ sung mà họ có thể khám phá trong tương lai.

Dữ liệu bị thiếu hụt nghiêm trọng

Nhưng có một trở ngại khác: sự thiếu hụt dữ liệu đào tạo — điều mà Nakov gọi là “chân lý cơ bản”.

Đối với hầu hết các nhiệm vụ học máy, đơn giản là đủ để chú thích dữ liệu đào tạo. Nếu bạn muốn xây dựng một hệ thống phát hiện các bài viết về thể thao, bạn có thể dễ dàng gắn nhãn các bài viết có liên quan hoặc không liên quan đến chủ đề đó. Sau đó, bạn đặt bộ dữ liệu vào máy để có thể tìm hiểu các đặc điểm của bài viết thể thao.

Nhưng việc ghi nhãn các phương tiện truyền thông có tính thực tế cao hoặc thấp thì nhạy cảm hơn nhiều. Nó phải được thực hiện bởi các nhà báo chuyên nghiệp theo các phương pháp nghiêm ngặt, và nó là một quá trình tốn thời gian. Kết quả là, thật khó để xây dựng một kho dữ liệu huấn luyện vững chắc, một phần lý do tại sao tính chính xác của mô hình nghiên cứu quá thấp. “Cách rõ ràng nhất để tăng độ chính xác là có được nhiều dữ liệu đào tạo hơn”, ông Nakov nói

Hiện tại, Media Bias Fact Check, tổ chức được lựa chọn để cung cấp “sự thật cơ bản” cho nghiên cứu, đã đánh giá 2.500 nguồn phương tiện truyền thông — một điều nhỏ nhặt trong các thuật ngữ học máy. Nhưng Nakov nói rằng cơ sở dữ liệu của tổ chức đang phát triển nhanh chóng. Ngoài việc thu thập thêm dữ liệu đào tạo, các nhà nghiên cứu cũng đang tìm cách cải thiện hiệu suất của mô hình với nhiều biến hơn, một số mô tả cấu trúc của trang web, cho dù nó có thông tin liên hệ và các mẫu xuất bản và xóa nội dung.

Họ cũng đang trong giai đoạn đầu của việc xây dựng một nền tảng tổng hợp tin tức cung cấp cho người đọc những tín hiệu quan trọng đối với sự tin cậy của mọi câu chuyện và nguồn được chia sẻ.

Mặc dù công việc còn lại để được thực hiện, Nakov nghĩ rằng công nghệ như vậy có thể giúp giải quyết các dịch giả giả tương đối nhanh chóng nếu các nền tảng như Facebook và Twitter tha thiết gắng sức. “Nó giống như chống spam,” anh viết trong một tin nhắn Skype. “Chúng tôi sẽ không bao giờ ngừng tin giả mạo hoàn toàn, nhưng chúng tôi có thể đặt chúng dưới sự kiểm soát.”

Chia sẻ bài viết ngay

Nguồn bài viết : https://www.technologyreview.com