Microsoft mở rộng Azure Data Lake với các công cụ big data mới

Ngoc Huynh

Microsoft vừa mới giới thiệu một dịch vụ phân tích mới, có khả năng mở rộng một cách linh hoạt được xây dựng dựa trên Apache YARN.

Microsoft đã hoàn toàn hướng đến big data khi hãng này chính thức giới thiệu dịch vụ Azure Data Lake vào hồi đầu năm nay, và vào hôm thứ Hai hãng đã ra mắt các công cụ mới được thiết kế nhằm tạo ra quá trình xử lý big data và phân tích đơn giản hơn và dễ tiếp cận hơn.

Đầu tiên, Microsoft đã quyết định đổi tên Azure Data Lake thành Azure Data Lake Store, mang đến một kho chứa (repository) riêng biệt dành cho dữ liệu mà không cần phải quan tâm đến kích thước hay kiểu dữ liệu – – bao gồm dữ liệu không có cấu trúc, bán cấu trúc và có cấu trúc – – và không yêu cầu ứng dụng thay đổi theo quy mô của dữ liệu.

Dữ liệu có thể được chia sẻ một cách an toàn và tạo ra sự tiếp cận dễ dàng đối với quá trình xử lý và phân tích. Dữ liệu có thể có được theo thời gian thực từ các bộ cảm biến và các thiết bị có các ứng dụng của IoTs hay từ các website mua hàng trực tuyến, tất cả đều không có giới hạn về tài khoản hay kích thước tệp tin.

Vào cuối năm nay, Microsoft sẽ phát hành phiên bản xem trước của Azure Data Lake Store, cửa hàng sẽ tương thích với Hadoop Distributed File System (HDFS), do đó các bản phân phối của Hadoop như Hortonworks, MapR và Cloudera có thể truy cập dữ liệu dễ dàng trong quá trình xử lý và phân tích.

Thứ hai, Azure Data Lake Analytics bổ sung một phần lưu trữ của Azure Data Lake với một dịch vụ phân tích mới, có khả năng mở rộng linh hoạt được xây dựng dựa trên Apache YARN mà cũng sẽ có phiên bản dùng thử vào cuối năm nay.

Dịch vụ phân tích mới bao gồm ngôn ngữ truy vấn U-SQL (U-SQL query language), với khả năng truy vấn phân tán và mở rộng cho phép người dùng phân tích dữ liệu một cách hiệu quả trong Azure Data Lake Store và khắp các SQL Server trong Azure, Azure SQL Database và Azure SQL Data Warehouse.

Cuối cùng, Azure HDInsight của Microsoft hiện tại cũng đã bao gồm trong Azure Data Lake, mang đến cluster service của Apache Hadoop – đây là thành phần chính để điều khiển hoạt động của failover cluster. Cluster Service chạy trên tất cả cluster node và được quản lý bởi Failover Cluster Manager – được quản lý đầy đủ với các cơ chế phân tích mã nguồn mở như Hive, Spark, Hbase và Storm.

Cũng hỗ trợ Azure Data Lake và Azure Data Lake Tools dành cho Visual Studio, mang đến một môi trường phát triển được tích hợp mở rộng ra Azure Data Lake, và dẫn đầu các ứng dụng của Hadoop từ các nhà cung cấp phần mềm độc lập đang mở rộng sang an ninh, quản lý, phân tích và chuẩn bị dữ liệu.

Hiện tại, Microsoft vẫn chưa công bố chi tiết giá thành của Azure Data Lake Store.

Chia sẻ bài viết ngay

Nguồn bài viết : http://www.pcworld.com/