Map Reduce Là Gì

     

MapReduce trong Hadoop là gì?

MapReduce là một khuôn khổ ứng dụng và quy mô lập trình được áp dụng để xử lý một lượng to dữ liệu. Chương trình MapReduce vận động trong hai giai đoạn, kia là map và reduce. Các tác vụ Map giải quyết việc chia bé dại và ánh xạ dữ liệu trong những khi reduce tác vụ xáo trộn và reduce dữ liệu.

Bạn đang xem: Map reduce là gì

Hadoop có công dụng chạy những chương trình MapReduce được viết bằng nhiều ngôn từ khác nhau: Java, Ruby, Python với C ++. Các chương trình của map Reduce trong năng lượng điện toán đám mây tất cả tính chất song song, cho nên vì thế rất hữu dụng để triển khai phân tích tài liệu quy mô lớn thực hiện nhiều vật dụng trong cụm.

Đầu vào cho từng pha là các cặp key-value . Ngoài ra, đầy đủ lập trình viên cần xác định hai chức năng: bản đồ function cùng reduce function

Giải thích cụ thể về phong cách thiết kế MapReduce trong dữ liệu lớn

Toàn bộ quá trình trải qua tứ giai đoạn thực hiện là phân tách tách, ánh xạ, xới trộn cùng reduce bớt.

Bây giờ trong hướng dẫn MapReduce này, bọn họ hãy phát âm với một lấy một ví dụ về MapReduce–

Hãy coi xét các bạn có dữ liệu đầu vào sau mang đến Chương trình MapReduce trong Big Data

Chào mừng các bạn đến với Hadoop Lớp

Hadoop tốt

Hadoop xấu

*

Kiến trúc MapReduce

Kết quả sau cuối của tác vụ MapReduce là

bad1
Class1
good1
Hadoop3
is2
to1
Welcome1

Dữ liệu trải qua các giai đoạn sau của MapReduce trong tài liệu lớn

Tách đầu vào:

Đầu vào cho một quá trình MapReduce trong tài liệu lớn được chia thành các phần có kích thước thắt chặt và cố định được gọi là phần bóc đầu vào Phần chia đầu vào là 1 phần của nguồn vào được áp dụng bởi một Map

Lập Map

Đây là giai đoạn trước tiên trong quá trình thực hiện công tác thu nhỏ tuổi Map. Trong quá trình này, dữ liệu trong những lần tách bóc được chuyển mang đến một hàm ánh xạ để tạo nên các cực hiếm đầu ra. Trong lấy ví dụ của bọn chúng tôi, các bước của quá trình ánh xạ là đếm một vài lần lộ diện của từng từ từ các phần tách đầu vào (chi tiết hơn về phần tách bóc đầu vào được đưa ra bên dưới) và sẵn sàng một list ở dạng

Xáo trộn

Giai đoạn này tiêu thụ áp ra output của quy trình tiến độ Ánh xạ. Nhiệm vụ của nó là hợp tuyệt nhất các phiên bản ghi bao gồm liên quan từ trên đầu ra của quy trình Lập Map. Trong ví dụ như của chúng tôi, những từ tương đương nhau được ghép lại với nhau thuộc với tần suất tương ứng của chúng.

Xem thêm: Mua Màn Hình Note 8 Cũ Còn Màn Hình, Vân Tay Nhạy, Màn Hình Note 8

reduce

Trong quy trình này, những giá trị đầu ra từ giai đoạn Ngẫu nhiên được tổng hợp. Quy trình tiến độ này phối kết hợp các giá trị từ quy trình tiến độ xáo trộn và trả về một giá trị đầu ra output duy nhất. Nắm lại, quá trình này bắt tắt tổng thể tập dữ liệu.

Trong ví dụ của chúng tôi, tiến trình này tổng hợp các giá trị từ quy trình Xáo trộn, tức là, giám sát tổng số lần xuất hiện của mỗi từ.

MapReduce Architecture phân tích và lý giải chi tiết

Một tác vụ map được tạo cho mỗi phần tách, sau đó thực thi tính năng Map mang lại mỗi bản ghi trong phần tách.Luôn luôn bổ ích khi có nhiều phần tách bóc vì thời hạn cần nhằm xử lý một trong những phần nhỏ rộng so với thời hạn thực hiện nhằm xử lý tổng thể đầu vào. Khi những phần tách bé dại hơn, quá trình xử lý sẽ tốt hơn để cân bằng tải vì công ty chúng tôi đang xử lý các phần bóc song song.Tuy nhiên, cũng không nên mong muốn có các vết phân tách có size quá nhỏ. Khi những phần bóc quá nhỏ, sự quá tải của việc cai quản các phần bóc tách và tạo thành tác vụ Map ban đầu chi phối tổng thời hạn thực hiện công việc.Đối với phần lớn các công việc, tốt hơn buộc phải tạo form size chia nhỏ tuổi bằng size của khối HDFS (theo khoác định là 64 MB).Việc thực thi những tác vụ map dẫn đến việc ghi áp ra output vào đĩa cục bộ trên nút khớp ứng chứ không phải HDFS.Lý bởi vì chọn đĩa cục bộ trên HDFS là để tránh xào nấu diễn ra vào trường hợp buổi giao lưu của cửa hàng HDFS.Đầu ra map là cổng đầu ra trung gian được giải pháp xử lý bằng những tác vụ reduce để tạo ra đầu ra cuối cùng.Khi quá trình hoàn thành, cổng đầu ra Map có thể bị quăng quật bỏ. Bởi vì vậy, lưu trữ nó trong HDFS cùng với sự sao chép trở nên vượt mức cần thiết.Trong trường phù hợp nút bị lỗi, trước lúc tác vụ thu gọn sử dụng đầu ra Map, Hadoop đã chạy lại nhiệm vụ maps trên một nút khác và chế tác lại đầu ra output Map.Tác vụ reduce không hoạt động trên định nghĩa địa phương dữ liệu. Đầu ra của phần lớn tác vụ maps được cấp cho tác vụ thu gọn. Đầu ra map được chuyển cho máy vị trí tác vụ reduce vẫn chạy.Trên sản phẩm này, áp sạc ra được hợp độc nhất vô nhị và sau đó được chuyển đến hàm reduce do người tiêu dùng xác định.Không giống như đầu ra Map, đầu ra output reduce được lưu trữ trong HDFS (bản sao trước tiên được tàng trữ trên nút toàn cục và các phiên bản sao không giống được lưu trữ trên các nút không tính giá đỡ). Vì chưng vậy, viết reduce sản lượng

MapReduce tổ chức vận động như chũm nào?

Bây giờ trong giải đáp MapReduce này, bọn họ sẽ khám phá cách buổi giao lưu của MapReduce

Hadoop chia quá trình thành các nhiệm vụ. Gồm hai một số loại nhiệm vụ:

Map (Tách & Lập Map)reduce (xáo trộn, reduce)

như đã đề cập nghỉ ngơi trên.

Xem thêm: Bầu Trời Xanh Một Màu Xanh Rất Khác, 999 Cap Hay Về Bầu Trời Xanh

Quá trình thực thi hoàn chỉnh (thực hiện những tác vụ map và Rút gọn, cả hai) được điều hành và kiểm soát bởi hai một số loại thực thể được hotline là

Jobtracker : hoạt động như một master (chịu trách nhiệm thực hiện hoàn chỉnh các bước đã nộp)Nhiều Trình theo dõi Nhiệm vụ : hành vi như slave, mỗi người trong số bọn họ thực hiện công việc

Đối với mỗi công việc được nhờ cất hộ để thực hiện trong hệ thống, có một Trình quan sát và theo dõi công vấn đề nằm bên trên Namenode và bao gồm nhiều trình theo dõi tác vụ nằm ở Datanode .

*

Cách hoạt động của Hadoop MapReduce

Một các bước được chia thành nhiều nhiệm vụ tiếp đến được chạy trên các nút tài liệu trong một cụm.Người theo dõi công việc có nhiệm vụ điều phối hoạt động bằng phương pháp lên lịch cho các tác vụ chạy trên những nút dữ liệu khác nhau.Việc thực thi trách nhiệm riêng lẻ sau đó được theo dõi vị trình theo dõi tác vụ, ở trên gần như nút dữ liệu đang thực thi một phần của công việc.Trách nhiệm của trình theo dõi công việc là gửi report tiến độ đến trình theo dõi và quan sát công việc.Ngoài ra, trình theo dõi trọng trách định kỳ gửi biểu thị heartbea mang đến Trình theo dõi quá trình để thông báo cho anh ta về trạng thái bây giờ của hệ thống.Do đó, trình theo dõi quá trình theo dõi tiến độ toàn diện của từng công việc. Trong trường hợp trọng trách bị lỗi, trình theo dõi công việc có thể lên kế hoạch lại bên trên một trình theo dõi trách nhiệm khác.