Đề cương khóa học
Giới thiệu
- Giới thiệu về các giải pháp Cloud Computing và Big Data
- Tổng quan về các tính năng và kiến trúc của Apache Hadoop
Thiết lập Hadoop
- Lập kế hoạch cho một cụm Hadoop (tại chỗ, trên đám mây, v.v.)
- Chọn hệ điều hành và bản phân phối Hadoop
- Cung cấp tài nguyên (phần cứng, mạng, v.v.)
- Tải xuống và cài đặt phần mềm
- Định kích thước cụm để đảm bảo tính linh hoạt
Làm việc với HDFS
- Hiểu về Hệ thống Tệp Phân tán Hadoop (HDFS)
- Tổng quan về Tham khảo Lệnh HDFS
- Accessing HDFS
- Thực hiện các thao tác tệp cơ bản trên HDFS
- Sử dụng S3 như một bổ sung cho HDFS
Tổng quan về MapReduce
- Hiểu về luồng dữ liệu trong khung MapReduce
- Map, Shuffle, Sort và Reduce
- Demo: Tính toán mức lương hàng đầu
Làm việc với YARN
- Hiểu về quản lý tài nguyên trong Hadoop
- Làm việc với ResourceManager, NodeManager, Application Master
- Lên lịch công việc dưới YARN
- Lên lịch cho số lượng lớn các nút và cụm
- Demo: Lên lịch công việc
Tích hợp Hadoop với Spark
- Thiết lập bộ nhớ cho Spark (HDFS, Amazon, S3, NoSQL, v.v.)
- Hiểu về Tập dữ liệu phân tán linh hoạt (RDD)
- Tạo một RDD
- Triển khai các phép biến đổi RDD
- Demo: Triển khai chương trình tìm kiếm văn bản cho tiêu đề phim
Quản lý một cụm Hadoop
- Giám sát Hadoop
- Bảo mật một cụm Hadoop
- Thêm và xóa các nút
- Chạy điểm chuẩn hiệu suất
- Tinh chỉnh một cụm Hadoop để tối ưu hóa hiệu suất
- Sao lưu, khôi phục và lập kế hoạch liên tục kinh doanh
- Đảm bảo tính khả dụng cao (HA)
Nâng cấp và Di chuyển một cụm Hadoop
- Đánh giá các yêu cầu về khối lượng công việc
- Nâng cấp Hadoop
- Di chuyển từ tại chỗ sang đám mây và ngược lại
- Khôi phục từ các lỗi
Khắc phục sự cố
Tóm tắt và Kết luận
Requirements
- Kinh nghiệm quản trị hệ thống
- Kinh nghiệm với dòng lệnh Linux
- Hiểu biết về các khái niệm dữ liệu lớn
Đối tượng
- Quản trị viên hệ thống
- DBA
Testimonials (5)
A lot of practical examples, different ways to approach the same problem, and sometimes not so obvious tricks how to improve the current solution
Rafal - Nordea
Course - Apache Spark MLlib
very interactive...
Richard Langford
Course - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Course - A Practical Introduction to Stream Processing
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
Get to learn spark streaming , databricks and aws redshift