Cách để ưu tiên những gì bạn đang phát triển với Big Data

Diem Do

Gloria Lau gives her keynote at Big Data TechCon

Gloria Lau phát biểu tại Big Data TechCon

 

Sự thu hút đã chuyển sang sự phân tích dữ liệu và các trường hợp kinh doanh trong thế giới-thực tại Big Data TechCon diễn ra ngày 29/10 vừa qua tại San Francisco. Việc trao đổi qua lại là công việc ngày qua ngày và các quy trình đưa ra quyết định cần để hỗ trợ cho các hoạt động Big Data có quy mô lớn với các chủ đề như Hadoop, Spark, NoSQL và các cơ sở dữ liệu quan hệ truyền thống và cách mà chúng có thể được kế thừa cho các sản phẩm trên nền tảng dữ liệu.

 

Phó Chủ tịch dữ liệu tại Timeful- Gloria Lau đã thảo luận về phương pháp mà bà sử dụng để quyết định cho những nơi mà các đội nhóm của bà dành thời gian vào đó. Lau là cựu quản lý của nhóm khoa học dữ liệu của LinkedIn và đó là lúc mà bà đã bảo vệ cho phương pháp này.

 

Phương pháp của bà bắt đầu với một câu trích dẫn cổ điển từ Donald Knuth là : “Việc tối ưu hóa vội vàng là gốc rễ của mọi tội lỗi”. Để chấm dứt việc này, bà đã động viên những người tham dự để hỏi chính họ hai câu hỏi khi đang quyết định đưa ra những thứ tự ưu tiên của họ nên là gì khi xây dựng các sản phẩm dữ liệu.

 

Hai câu hỏi này là : ” Metric mà sản phẩm này đang cố gắng để nâng lên là gì” và “nếu người dùng của bạn cho bạn chỉ 1 phút trong 1 ngày sử dụng sản phẩm, vậy bạn muốn họ làm gì?” Sau đó bà đã áp dụng 2 câu hỏi này cho nhiều kịch bản có thể đối diện với các lập trình viên Big Data.

 

 

Chẳng hạn, nếu sự theo dõi một metric không nhất quán, bạn sẽ quyết định như thế nào nếu đội nhóm của bạn nên theo theo dõi và bắt được lỗi này? Theo phương pháp của Lau, điều quan trọng chỉ để sửa lỗi này nếu nó đang ảnh hưởng nghiêm trọng đến metric mà bạn xác định.

 

Ở một nơi khác tại buổi triển lãm, Cố vấn cho TypeSafe- Dean Wampler đã mô tả quy trình xử lý các luồng với Apache Spark. Ông cho rằng việc sử dụng dữ liệu được phân bố đàn hồi thiết lập trong Spark cho phép các lập trình viên tái sử dụng các khối lượng lớn code. Ông cho rằng sự thiết lập và teardown code là khác nhau, chứ không phải là code cốt lõi có thể được tái sử dụng lại trên HDFS hay bất kỳ kho lưu trữ dữ liệu khác giống như Apache Cassandra.

 

Giám đốc của trường Đại học RapidMiner, Todd Cioffi đã thảo luận về những thiếu sót liên quan đến sự linh hoạt trong kinh doanh khi đưa ra dự đoán về các phân tích. Như ví dụ mà ông đã mô tả về cách phân tích về sự linh hoạt trong kinh doanh như thế nào giúp bạn hiểu rõ hơn, có thể 1 trong 5 khách hàng sẽ không mua sản phẩm của bạn lần thứ hai. Nhưng thông tin đó không giúp bạn tìm ra khách hàng thực sự sẽ rời khỏi.

 

“Những gì mà bạn muốn thực hiện là sự quan sát về mức độ riêng tư và tìm ra khả năng mà các cá nhân có được. Sự linh hoạt trong kinh doanh có khuynh hướng đưa ra cái nhìn tổng quan toàn bộ và sự nhìn nhận về mỗi cá nhân trong cách dự đoán. Sự linh hoạt trong kinh doanh chỉ trả lời cho những gì được hỏi. Vì thế nếu bạn đang khai thác các phân tích , sự khai thác của bạn dựa trên những gì mà bạn nghĩ để hỏi. Thật sự khó khăn để yêu cầu SQL rằng “hãy hiển thị cho tôi những gì có trong đó”. Trước hết, vẫn phụ thuộc vào sự phân tích của bạn để nhận câu trả lời, hơn là để cho dữ liệu nói cho bạn biết những gì có ở đó”, Cioffi cho biết.

 

” Nơi mà sự linh hoạt trong kinh doanh biến mất thì sự phân tích tiên đoán sẽ xuất hiện. Không có nghiã là bạn không áp dụng sự linh hoạt trong kinh doanh, mà bạn không nên chỉ áp dụng sự linh hoạt trong kinh doanh nếu bạn muốn dữ liệu của bạn có được thông minh hơn, rõ ràng hơn “, Cioffi cho hay.

Chia sẻ bài viết ngay

Nguồn bài viết : sdtimes.com