Apache hadoop là gì

Big Data đã vươn lên là 1 phần rứa mạnh với là gia tài lớn bự của mỗi công ty, với Hadoop là technology chủ chốt đến Việc lưu trữ cùng truy vấn dữ liệu to.

Bạn đang xem: Apache hadoop là gì

Hadoop là gì?

Hadoop là một trong Apache framework mã mối cung cấp msinh hoạt được cho phép cách tân và phát triển những ứng dụng phân tán (distributed processing) nhằm tàng trữ với cai quản những tập dữ liệu bự. Hadoop lúc này mô hình MapReduce, mô hình nhưng áp dụng sẽ được chia nhỏ ra thành nhiều phân đoạn khác nhau được chạy tuy nhiên tuy vậy bên trên những node khác biệt. Hadoop được viết bởi Java tuy vậy vẫn cung cấp C++, Pybé, Perl bởi lý lẽ streaming.

Hadoop xử lý sự việc gì?

Xử lý với thao tác cân nặng dữ liệu lớn tưởng tính bằng Petabyte.Xử lý trong môi trường thiên nhiên phân tán, dữ liệu tàng trữ ngơi nghỉ đa phần cứng không giống nhau, đề xuất giải pháp xử lý đồng bộCác lỗi lộ diện tiếp tục.Băng thông giữa những Hartware vật lý cất tài liệu phân tán gồm giới hạn.

Kiến trúc Hadoop là gì?

Một nhiều Hadoop bé dại gồm 1 master node với những worker/slave sầu node. Toàn bộ cụm đựng 2 lớp, một tấm MapReduce Layer với lớp tê là HDFS Layer. Mỗi lớp tất cả các nguyên tố tương quan riêng. Master node tất cả JobTracker, TaskTracker, NameNode, với DataNode. Slave/worker node bao gồm DataNode, cùng TaskTracker. Cũng có thể slave/worker node chỉ với tài liệu hoặc node để tính toán.


*
*
*

Hadoop framework tất cả 4 module:

1.Hadoop Distributed File System (HDFS)

Đây là khối hệ thống file phân tán cung cấp truy vấn thông lượng cao đến áp dụng khai quật dữ liệu. Hadoop Distributed File System (HDFS) là khối hệ thống tập tin ảo. khi chúng ta dịch chuyển 1 tập tin vào HDFS, nó tự động hóa tạo thành các mhình ảnh nhỏ. Các đoạn nhỏ dại của tập tin sẽ được nhân rộng cùng lưu trữ bên trên những máy chủ không giống nhằm tăng sức chịu lỗi và tính chuẩn bị sẵn sàng cao.

HDFS áp dụng kiến trúc master/slave sầu, trong các số ấy master gồm một NameNode để làm chủ khối hệ thống file metadata với một tuyệt các slave sầu DataNodes để lưu trữ tài liệu thực trên.

Một tập tin cùng với định hình HDFS được phân thành các kăn năn cùng hầu như kân hận này được tàng trữ vào một tập các DataNodes. NameNode có mang ánh xạ trường đoản cú những khối hận cho các DataNode. Các DataNode quản lý những tác vụ đọc và ghi dữ liệu lên khối hệ thống file. Chúng cũng quản lý bài toán tạo, huỷ, và nhân rộng các kăn năn thông qua các chỉ thị từ bỏ NameNode.


2. Hadoop MapReduce

Đây là khối hệ thống dựa trên YARN dùng để cách xử trí tuy nhiên song những tập tài liệu to. Là cách phân tách một vấn đề tài liệu lớn hơn thành những đoạn nhỏ tuổi hơn với phân tán nó trên các sever. Mỗi máy chủ có 1 tập tài ngulặng riêng rẽ và sever cách xử trí tài liệu bên trên cục bộ. khi sever cách xử trí xong xuôi tài liệu, chúng vẫn gởi trngơi nghỉ về máy chủ bao gồm.

MapReduce có một single master (đồ vật chủ) JobTracker với những slave sầu (đồ vật trạm) TaskTracker bên trên từng cluster-node. Master gồm trọng trách thống trị tài nguyên, quan sát và theo dõi quy trình tiêu thụ tài nguyên cùng lập kế hoạch cai quản những tác vụ bên trên những đồ vật trạm, theo dõi bọn chúng với triển khai lại các tác vụ bị lỗi. Những sản phẩm công nghệ slave TaskTracker xúc tiến các tác vụ được master hướng đẫn và tin báo trạng thái tác vụ (task-status) để master theo dõi.

Xem thêm: Hướng Dẫn Vượt Qua Tầng 9 Ame Onna Âm Dương Sư : Hướng Dẫn Ame Onna

JobTracker là 1 trong nhược điểm của Hadoop Mapreduce. Nếu JobTracker bị lỗi thì đa số công việc tương quan sẽ bị xa rời.

3. Hadoop Common

Đây là những tlỗi viện với tiện ích quan trọng của Java để các module khác áp dụng. Những thỏng viện này cung cấp khối hệ thống file và lớp OS trừu tượng, bên cạnh đó chứa những mã lệnh Java để khởi hễ Hadoop.

4. Hadoop YARN

Quản lý tài nguyên của các hệ thống lưu trữ dữ liệu cùng chạy phân tích.

Hadoop chuyển động như thế nào?

Giai đoạn 1

Một user hay là một ứng dụng hoàn toàn có thể submit một job lên Hadoop (hadoop job client) cùng với những hiểu biết cách xử lý thuộc những báo cáo cơ bản:

Nơi lưu lại (location) tài liệu input đầu vào, output trên khối hệ thống dữ liệu phân tán.Các java class ở định hình jar cất những dòng lệnh thực hiện các hàm maps cùng reduce.Các tùy chỉnh cấu hình rõ ràng liên quan mang lại job trải qua những thông số kỹ thuật truyền vào.

Giai đoạn 2

Hadoop job client submit job (file jar, file thực thi) và những tùy chỉnh cho JobTracker. Sau kia, master đã phân phối hận tác vụ cho các đồ vật slave sầu để quan sát và theo dõi và quản lý quá trình các lắp thêm này, đôi khi tin báo về tình trạng cùng chẩn đân oán tương quan mang lại job-client.

Giai đoạn 3

TaskTrackers trên những node không giống nhau thực thi tác vụ MapReduce và trả về công dụng output được lưu lại vào khối hệ thống file.

lúc “chạy Hadoop” có nghĩa là chạy một tập các trình nền – daetháng, hoặc các chương trình thường xuyên trú, bên trên những sever khác biệt trên mạng của người tiêu dùng. Những trình nền có mục đích cụ thể, một số trong những chỉ mãi mãi bên trên một máy chủ, một số trong những hoàn toàn có thể tồn tại trên các sever.

Các daemon bao gồm:

NameNodeDataNodeSecondaryNameNodeJobTrackerTaskTracker

Tại sao sử dụng Hadoop?

Các điểm tiện lợi khi sử dụng Hadoop:

Robus và Scalable – cũng có thể thêm node mới cùng biến hóa chúng khi cần.Affordable and Cost Effective sầu – Không buộc phải phần cứng đặc trưng nhằm chạy Hadoop.Adaptive và Flexible – Hadoop được thành lập cùng với tiêu chuẩn cách xử trí tài liệu gồm cấu trúc cùng không cấu trúc.Highly Available & Fault Tolerant – lúc 1 node lỗi, nền tảng gốc rễ Hadoop auto chuyển lịch sự node khác.

Nguồn tđam mê khảo:

Leave a Reply

Your email address will not be published. Required fields are marked *