Car-tech

Cloudera Preps Hadoop cho doanh nghiệp

Hadoop. Введение в Big Data и MapReduce

Hadoop. Введение в Big Data и MapReduce
Anonim

Cloudera đã giới thiệu một bộ công cụ quản lý Hadoop mới, có tên là Cloudera Enterprise, mà công ty sẽ cung cấp cho một khoản phí thuê bao hàng năm, nó công bố vào thứ ba. Nó cũng đã cập nhật gói phân phối mã nguồn mở của Hadoop. Cả hai phiên bản mới, cũng như một số đối tác mới với các nhà cung cấp phần mềm quản lý dữ liệu, cho thấy công ty đang hướng tới cung cấp công nghệ cơ sở dữ liệu mới nổi.

"Đặt cược của chúng tôi không chỉ là các công ty Web lớn, mà các ngân hàng, bệnh viện và các công ty bảo hiểm sẽ phát hiện ra họ cần phải phân tích phức tạp và có cấu trúc cùng với Hadoop đã được tạo ra cho điều đó, "Giám đốc điều hành Cloudera Mike Olson nói. "Hadoop giải quyết một vấn đề mới, theo một cách mới."

Một trong số ngày càng nhiều cơ sở dữ liệu không phải SQL hoặc NoSQL, Hadoop dựa trên Google MapReduce, một khuôn khổ để xử lý dữ liệu song song với số lượng lớn máy tính nút. Hadoop, hiện đang được phát triển như một dự án mã nguồn mở của Quỹ Phần mềm Apache, cung cấp một sự thay thế cho các cơ sở dữ liệu quan hệ truyền thống, ít nhất là những trường hợp phân tích các tập dữ liệu lớn, nhanh chóng thay đổi.

Nó có thể làm việc với cả SQL lẫn không Dữ liệu -SQL, và kiên cường hơn đối với sự thất bại của máy chủ hơn so với các cơ sở dữ liệu quan hệ.

Cloudera đang đóng gói Hadoop cho các tổ chức tầm trung, cả với bản phân phối Hadoop và các công cụ quản lý mới được phát hành. Cả hai gói này sẽ cho phép các tổ chức không có nhiều kinh nghiệm chuyên sâu trong Hadoop để chạy phần mềm, Olson nói. "Có một huyền thoại rằng Hadoop có thể sử dụng được nếu bạn có dữ liệu được Google chia tỷ lệ. Có rất nhiều người dùng chỉ có vài terabyte dữ liệu mà họ muốn phân tích", Olson nói.

Phân phối của Cloudera cho Hadoop (CDH) là một gói phần mềm mã nguồn mở của các chương trình phần mềm được tích hợp sẵn được xây dựng xung quanh Hadoop Common, trước đây có tên là Hadoop Core. Gói này bao gồm: Hive, cung cấp cơ sở hạ tầng kho dữ liệu; HBase, cơ sở dữ liệu nằm bên dưới Hadoop; Pig, trình biên dịch cho các chương trình giảm bản đồ;

Trong phiên bản mới phát hành 3, gói này bao gồm ba chương trình mà công ty đã phát hành dưới dạng các dự án mã nguồn mở, theo giấy phép mã nguồn mở Apache V2. Một là Flume, có thể hỗ trợ tải dữ liệu vào Hadoop. Một phần bổ sung mới là Oozie, một phần mềm quản lý luồng công việc. Cuối cùng là mã Môi trường Người dùng Hadoop (HUE), cung cấp giao diện người dùng để quản lý Hadoop.

"HUE cho phép bất kỳ ai xây dựng một ứng dụng nhắm vào các nhà phân tích. Nó biết cách nói chuyện với các cụm Hadoop".

Gói doanh nghiệp Cloudera bổ sung CDH phiên bản 3 với các công cụ quản lý bổ sung. Phần mềm mới này, không phải là mã nguồn mở, cho phép quản trị viên kiểm soát việc quản lý truy cập thông qua việc sử dụng Giao thức truy cập thư mục hạng nhẹ.

Olson sẽ không thảo luận về số tiền mà Cloudera đã thực hiện từ phí đăng ký và tư vấn cho đến nay, nhưng lưu ý rằng quý đầu tiên của năm 2010, công ty đã thực hiện nhiều như Olson cho biết những gì nó kiếm được trong nửa năm 2009. Trong số các ngành công nghiệp, dịch vụ tài chính, viễn thông, bán lẻ, chính phủ và các công ty thương mại điện tử đã tỏ ra quan tâm đến công nghệ này, "Những điều mà các công ty đang làm với Hadoop khác nhau. nói chung, những người này đang thu thập rất nhiều dữ liệu từ nhiều nơi và cần phải phân tích nó đến các phân tích phức tạp, "Olson nói. "Các dịch vụ tài chính quan tâm đến việc sử dụng Hadoop để phát hiện gian lận. Trong viễn thông, có một nhu cầu thực sự để tối ưu hóa mạng và giảm bớt sự khuấy động của khách hàng."

Ngoài việc cung cấp các gói này, Cloudera đã tập hợp hỗ trợ cho Hadoop từ các nhà cung cấp phần mềm quản lý dữ liệu (BI) và quản lý dữ liệu.

Olson dự định công bố, trong bài phát biểu tại Hội nghị thượng đỉnh Hadoop 2010, diễn ra tại Santa Clara, California vào thứ ba, nhà cung cấp BI MicroStrategy sẽ hỗ trợ sử dụng Hadoop.

Một đối tác mới khác là Talend, một nhà cung cấp phần mềm tích hợp dữ liệu nguồn mở. Công ty đã mở rộng Talend Integration Suite để giao tiếp với cơ sở dữ liệu Hadoop. Bộ phần mềm của nó cho phép quản trị viên quản lý và tổng hợp nhiều nguồn dữ liệu từ một bảng điều khiển duy nhất. Với Hadoop, phần mềm "có thể chèn hoặc lấy dữ liệu một cách tự nhiên, và xử lý dữ liệu trong kiến ​​trúc Hadoop", phó chủ tịch tiếp thị của Talend, Yves de Montcheuil, cho biết ngày càng nhiều công ty đang chuẩn bị nguồn mở hoặc các công cụ quản lý thương mại cho Hadoop. Tuần trước, Cloudera và Quest bắt tay vào một dự án xây dựng phần mềm có thể liên kết Hadoop với cơ sở dữ liệu Oracle. Vào tháng 5, công ty tình báo kinh doanh nguồn mở Pentaho đã thông báo rằng bộ BI của nó sẽ làm việc với cơ sở dữ liệu Hadoop.

Trong một cuộc phỏng vấn riêng với IDG News Service, Yahoo CTO Raymie Stata đã chỉ ra rằng Hadoop có thể giảm nhu cầu xây dựng siêu máy tính để phân tích các tập dữ liệu lớn. Theo truyền thống, các tập dữ liệu lớn đã được chuyển từ lưu trữ vào siêu máy tính, đó là một tập hợp các máy chủ được tổng hợp, sẽ được phân tích. Ngược lại, Hadoop di chuyển tính toán phân tích đến nơi dữ liệu cư trú, loại bỏ sự cần thiết của một cỗ máy khủng hoảng số khổng lồ.

Ngoài việc cung cấp của Cloudera, Hadoop cũng được thương mại hóa bởi IBM, gần đây đã bắt đầu cung cấp một bộ dịch vụ phân tích sử dụng công nghệ.

Joab Jackson bao gồm phần mềm enterpise và chung tin tức công nghệ cho

Dịch vụ Tin tức IDG

. Theo dõi Joab trên Twitter tại @Joab_Jackson. Địa chỉ email của Joab là [email protected]