Tại sao các phân tích big data thỉnh thoảng gặp thất bại

Ngoc Huynh

Các thành kiến, cấu trúc dữ liệu không hoàn chỉnh và các thất bại của điện toán chỉ là một trong số các lý do giải thích tại sao các phân tích big data có thể không chính xác.

Ông Tye Waller – huấn luyện viên của đội Oakland A’s đang nói về cơ sở dữ liệu của đội bóng chày của mình.

Babe Ruth đánh 714 cú home run (cú đánh cho phép người đánh chạy quanh ghi điểm mà khỏi phải dừng lại) trong sự nghiệp của mình ở đội Major League Baseball. Cũng trong giai đoạn này, ông cũng đã bị thất bại 1330 lần. Ở khía cạnh này, big data giống với Babe. Nhiều lần, big data “đánh một cú home run” và làm thay đổi một công ty; thỉnh thoảng, thì big data thất bại.

Ví dụ, có phải các phân tích big data đã đoán trước giá dầu tụt nhanh gần đây không? Tất nhiên câu trả lời là không, dựa trên những gì mà thương gia tỷ phú người Ả rập là Hoàng tử Alwaleed bin Talal đã chia sẻ trong một bài phỏng vấn vào tháng 1/2015 trên tờ USA Today: “Ả-rập Xê-út và tất cả các nước khác đã mất cảnh giác. Không ai dự tính đến việc này. Những ai mà nói rằng họ dự tính giá dầu giảm 50% thì không có nói thật.”

Google Flu Trends đã dự đoán không thành công sự bùng phát dịch cúm năm 2013 khi nó dự đoán số ca nhiễm cúm nhiều gấp đôi Trung tâm kiểm soát và phòng ngừa dịch bệnh đã báo cáo. “Trong số các vấn đề cơ bản đó là việc Google đã cho rằng mối quan hệ bất biến giữa các tìm kiếm liên quan đến bệnh cúm và nhiễm bệnh cúm, ngay khi công nghệ tìm kiếm đã thay đổi và con người đã bắt đầu sử dụng nó theo nhiều cách khác nhau,” David Lazer, giáo sư ngành khoa học chính trị và khoa học máy tính tại trường đại học Northeastern đã viết trong một bài báo. “Sự thất bại đó là đương lượng của kỷ nguyên big data của tiêu đề Chicago Tribune’s ‘Dewey Defeats Truman vào năm 1948.”

Tin tốt lành là càng có nhiều công ty sử dụng big data, thì càng có nhiều công ty tìm hiểu điểm mạnh và điểm yếu của big data theo cùng một cách mà các nhà quản lý bóng chày tìm hiểu điểm mạnh và điểm yếu của các cầu thủ đánh banh.

Dưới đây là một vài điểm cốt lõi của các suy xét đúng mà các công ty đang lượm lặt khi họ tích lũy kinh nghiệm về big data.

. Không bao giờ quên rằng các phân tích big data là kết quả của các nghi vấn và cấu trúc dữ liệu mà các nhà khoa học dữ liệu và các nhà phân tích kinh doanh (business analyst) khởi động quá trình. Máy móc thì nhanh hơn, nhưng cuối cùng, nó thực hiện các yêu cầu một cách dễ dàng. Nó chỉ có thể đi nhanh như là dùng suy nghĩ điều khiển nó, vì vậy bạn vẫn phải nghĩ về những gì mà một phân tích có thể đã thiếu sót.

. Nếu bạn đang sử dụng big data theo thời gian thực như là một ứng dụng then chốt, thì bạn vẫn cần một kế hoạch failover bằng tay. Hoặc cài đặt tại chỗ cho khách hàng hoặc điện toán đám mây có thể thất bại. Nếu điều này xảy ra, thì bạn cần am tường về tất cả mọi người có thể điều khiển hoạt động và chạy nó.

. Các phân tích big data thì vẫn nằm trong giai đoạn học hỏi ban đầu khi nó dự đoán hành vi con người. Con người hiện đại đã có mặt trên hành tinh này khoảng 200,000 năm và chúng ta vẫn không chỉ ra được tại sao chúng ta hành xử như thế! Ngay cả với “suy nghĩ” và quá trình liên tưởng, thì các máy móc cũng bị giới hạn dự đoán kết quả hành vi con người.

“Dữ liệu và các tập hợp dữ liệu thì không khách quan; chúng là các tác phẩm do con người thiết kế,” Kate Crawford đã viết trong bài báo 2013 Harvard Business Review. “Chúng ta đưa ra các con số về giọng nói, vẽ ra kết luận từ dữ liệu, và định rõ ý nghĩa thông qua cách hiểu của chúng ta. Các thành kiến ngầm ở cả giai đoạn thu thập và phân tích đưa ra các rủi ro đáng kể, và các thành kiến ngầm quan trọng với phương trình big data bằng với các chỉ số của chính chúng.”

Điều này có nghĩa là các công ty nên giới hạn việc sử dụng big data phải không? Chắc chắn là không rồi. Đó chỉ đơn giản nhắc nhở rằng big data giống như tất cả các dự án liên quan đến dữ liệu khác, nên được tiếp cận thận trọng.

Chia sẻ bài viết ngay

Nguồn bài viết : http://www.techrepublic.com/