Hadoop. Введение в Big Data и MapReduce
Cloudera đã giới thiệu một bộ công cụ quản lý Hadoop mới, có tên là Cloudera Enterprise, mà công ty sẽ cung cấp cho một khoản phí thuê bao hàng năm, nó công bố vào thứ ba. Nó cũng đã cập nhật gói phân phối mã nguồn mở của Hadoop. Cả hai phiên bản mới, cũng như một số đối tác mới với các nhà cung cấp phần mềm quản lý dữ liệu, cho thấy công ty đang hướng tới cung cấp công nghệ cơ sở dữ liệu mới nổi.
"Đặt cược của chúng tôi không chỉ là các công ty Web lớn, mà các ngân hàng, bệnh viện và các công ty bảo hiểm sẽ phát hiện ra họ cần phải phân tích phức tạp và có cấu trúc cùng với Hadoop đã được tạo ra cho điều đó, "Giám đốc điều hành Cloudera Mike Olson nói. "Hadoop giải quyết một vấn đề mới, theo một cách mới."
Một trong số ngày càng nhiều cơ sở dữ liệu không phải SQL hoặc NoSQL, Hadoop dựa trên Google MapReduce, một khuôn khổ để xử lý dữ liệu song song với số lượng lớn máy tính nút. Hadoop, hiện đang được phát triển như một dự án mã nguồn mở của Quỹ Phần mềm Apache, cung cấp một sự thay thế cho các cơ sở dữ liệu quan hệ truyền thống, ít nhất là những trường hợp phân tích các tập dữ liệu lớn, nhanh chóng thay đổi.
Nó có thể làm việc với cả SQL lẫn không Dữ liệu -SQL, và kiên cường hơn đối với sự thất bại của máy chủ hơn so với các cơ sở dữ liệu quan hệ.
Cloudera đang đóng gói Hadoop cho các tổ chức tầm trung, cả với bản phân phối Hadoop và các công cụ quản lý mới được phát hành. Cả hai gói này sẽ cho phép các tổ chức không có nhiều kinh nghiệm chuyên sâu trong Hadoop để chạy phần mềm, Olson nói. "Có một huyền thoại rằng Hadoop có thể sử dụng được nếu bạn có dữ liệu được Google chia tỷ lệ. Có rất nhiều người dùng chỉ có vài terabyte dữ liệu mà họ muốn phân tích", Olson nói.
Phân phối của Cloudera cho Hadoop (CDH) là một gói phần mềm mã nguồn mở của các chương trình phần mềm được tích hợp sẵn được xây dựng xung quanh Hadoop Common, trước đây có tên là Hadoop Core. Gói này bao gồm: Hive, cung cấp cơ sở hạ tầng kho dữ liệu; HBase, cơ sở dữ liệu nằm bên dưới Hadoop; Pig, trình biên dịch cho các chương trình giảm bản đồ;
Trong phiên bản mới phát hành 3, gói này bao gồm ba chương trình mà công ty đã phát hành dưới dạng các dự án mã nguồn mở, theo giấy phép mã nguồn mở Apache V2. Một là Flume, có thể hỗ trợ tải dữ liệu vào Hadoop. Một phần bổ sung mới là Oozie, một phần mềm quản lý luồng công việc. Cuối cùng là mã Môi trường Người dùng Hadoop (HUE), cung cấp giao diện người dùng để quản lý Hadoop.
"HUE cho phép bất kỳ ai xây dựng một ứng dụng nhắm vào các nhà phân tích. Nó biết cách nói chuyện với các cụm Hadoop".
Gói doanh nghiệp Cloudera bổ sung CDH phiên bản 3 với các công cụ quản lý bổ sung. Phần mềm mới này, không phải là mã nguồn mở, cho phép quản trị viên kiểm soát việc quản lý truy cập thông qua việc sử dụng Giao thức truy cập thư mục hạng nhẹ.
Olson sẽ không thảo luận về số tiền mà Cloudera đã thực hiện từ phí đăng ký và tư vấn cho đến nay, nhưng lưu ý rằng quý đầu tiên của năm 2010, công ty đã thực hiện nhiều như Olson cho biết những gì nó kiếm được trong nửa năm 2009. Trong số các ngành công nghiệp, dịch vụ tài chính, viễn thông, bán lẻ, chính phủ và các công ty thương mại điện tử đã tỏ ra quan tâm đến công nghệ này, "Những điều mà các công ty đang làm với Hadoop khác nhau. nói chung, những người này đang thu thập rất nhiều dữ liệu từ nhiều nơi và cần phải phân tích nó đến các phân tích phức tạp, "Olson nói. "Các dịch vụ tài chính quan tâm đến việc sử dụng Hadoop để phát hiện gian lận. Trong viễn thông, có một nhu cầu thực sự để tối ưu hóa mạng và giảm bớt sự khuấy động của khách hàng."
Ngoài việc cung cấp các gói này, Cloudera đã tập hợp hỗ trợ cho Hadoop từ các nhà cung cấp phần mềm quản lý dữ liệu (BI) và quản lý dữ liệu.
Olson dự định công bố, trong bài phát biểu tại Hội nghị thượng đỉnh Hadoop 2010, diễn ra tại Santa Clara, California vào thứ ba, nhà cung cấp BI MicroStrategy sẽ hỗ trợ sử dụng Hadoop.
Một đối tác mới khác là Talend, một nhà cung cấp phần mềm tích hợp dữ liệu nguồn mở. Công ty đã mở rộng Talend Integration Suite để giao tiếp với cơ sở dữ liệu Hadoop. Bộ phần mềm của nó cho phép quản trị viên quản lý và tổng hợp nhiều nguồn dữ liệu từ một bảng điều khiển duy nhất. Với Hadoop, phần mềm "có thể chèn hoặc lấy dữ liệu một cách tự nhiên, và xử lý dữ liệu trong kiến trúc Hadoop", phó chủ tịch tiếp thị của Talend, Yves de Montcheuil, cho biết ngày càng nhiều công ty đang chuẩn bị nguồn mở hoặc các công cụ quản lý thương mại cho Hadoop. Tuần trước, Cloudera và Quest bắt tay vào một dự án xây dựng phần mềm có thể liên kết Hadoop với cơ sở dữ liệu Oracle. Vào tháng 5, công ty tình báo kinh doanh nguồn mở Pentaho đã thông báo rằng bộ BI của nó sẽ làm việc với cơ sở dữ liệu Hadoop.
Trong một cuộc phỏng vấn riêng với IDG News Service, Yahoo CTO Raymie Stata đã chỉ ra rằng Hadoop có thể giảm nhu cầu xây dựng siêu máy tính để phân tích các tập dữ liệu lớn. Theo truyền thống, các tập dữ liệu lớn đã được chuyển từ lưu trữ vào siêu máy tính, đó là một tập hợp các máy chủ được tổng hợp, sẽ được phân tích. Ngược lại, Hadoop di chuyển tính toán phân tích đến nơi dữ liệu cư trú, loại bỏ sự cần thiết của một cỗ máy khủng hoảng số khổng lồ.
Ngoài việc cung cấp của Cloudera, Hadoop cũng được thương mại hóa bởi IBM, gần đây đã bắt đầu cung cấp một bộ dịch vụ phân tích sử dụng công nghệ.
Joab Jackson bao gồm phần mềm enterpise và chung tin tức công nghệ cho
Dịch vụ Tin tức IDG
. Theo dõi Joab trên Twitter tại @Joab_Jackson. Địa chỉ email của Joab là [email protected]
Oracle đã mua Global Knowledge Software (GKS) phát triển các công cụ để xây dựng các khóa đào tạo tự phục vụ cho các nhà cung cấp phần mềm doanh nghiệp bao gồm Oracle, Microsoft và SAP. Các công cụ đào tạo như vậy dành cho nhân viên doanh nghiệp ngày càng trở nên cần thiết vì ngày càng có nhiều chức năng kinh doanh được tự động hoá và trở thành các ứng dụng tự phục vụ.
Oracle, khách hàng GKS đứng đắn, đã sử dụng các công cụ của công ty để xây dựng bộ sản phẩm Oracle Productivity Kit của mình như một phần bổ sung cho phần mềm Oracle Tutor của mình. Theo kế hoạch, GKS cung cấp các công cụ phát triển cho một số đối thủ của Oracle, bao gồm SAP và Microsoft.
ĐIện toán đám mây IBM cho phép các doanh nghiệp và người tiêu dùng truy cập từ xa vào các máy tính qua Internet để truy cập các dịch vụ. Gopalakrishnan cho biết Trung tâm mới ở Ấn Độ được đặt làm nền tảng thử nghiệm cho các doanh nghiệp và các viện nghiên cứu triển khai và thử nghiệm ứng dụng, Gopalakrishnan nói. Mặc dù nền tảng này sẽ được cung cấp miễn phí cho các cơ sở đào tạo mà các đối tác của IBM, các doanh nghiệp sẽ phải trả phí, ông nói thêm.
Có một số ứng dụng quy mô sản xuất sử dụng điện toán đám mây, Gopalakrishnan cho biết. Các tổ chức học thuật ở Ấn Độ dự kiến sẽ làm việc để sử dụng điện toán đám mây cho các ứng dụng của chính phủ điện tử và nghiên cứu các mô hình triển khai cho điện toán đám mây. Deepak Bhosale, Giám đốc bộ phận CNTT của Asian Paints, một nhà cung cấp sơn của Ấn Độ cho biết.
. Dell đang có kế hoạch cung cấp các doanh nghiệp vừa và nhỏ (SMB) toàn cầu được cấu hình sẵn các gói phần cứng và phần mềm nguồn mở để điều hành các doanh nghiệp của họ, theo một giám đốc điều hành của công ty. Phần mềm nguồn trong số các doanh nghiệp vừa và nhỏ, đặc biệt khi các công ty trong lĩnh vực này tìm cách cắt giảm chi phí, Amit Midha, chủ tịch khu vực Châu Á Thái Bình Dương và Nhật Bản của Dell cho doanh nghiệp SMB, hôm thứ Ba. sẽ áp dụng nguồn mở, bởi vì họ có thể hỏi tại sao họ nên
Dell hiện đang tập trung vào việc cung cấp các gói phần mềm và phần cứng được cấu hình sẵn bằng phần mềm nguồn mở để trợ giúp những khách hàng không đủ tiên tiến để tự mình triển khai nguồn mở, Midha nói. Dell và các đối tác sẽ cung cấp dịch vụ và đào tạo cho những khách hàng này.