Đề cương khóa học
- Giới thiệu
- Hadoop Lịch sử, khái niệm
- Hệ sinh thái
- Phân phối
- Kiến trúc tổng quan
- Hadoop Những hiểu lầm phổ biến
- Hadoop Thách thức (phần cứng / phần mềm)
- Labs: thảo luận về các dự án và vấn đề Big Data của bạn
- Lập kế hoạch và cài đặt
- Chọn phần mềm, Hadoop bản phân phối
- Xác định kích thước cụm, lập kế hoạch mở rộng
- Chọn phần cứng và mạng
- Cấu trúc rack
- Cài đặt
- Multi-tenancy (đa người thuê)
- Cấu trúc thư mục, nhật ký
- Đánh giá hiệu suất
- Labs: cài đặt cụm, chạy các bài kiểm tra hiệu suất
- Các thao tác HDFS
- Khái niệm (mở rộng ngang, sao chép, vị trí dữ liệu, nhận biết rack)
- Các nút và daemon (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Giám sát sức khỏe
- Quản trị dựa trên dòng lệnh và trình duyệt
- Thêm bộ nhớ, thay thế ổ đĩa bị lỗi
- Labs: làm quen với dòng lệnh HDFS
- Nạp dữ liệu
- Flume để nạp nhật ký và dữ liệu khác vào HDFS
- Sqoop để nhập từ SQL cơ sở dữ liệu vào HDFS, cũng như xuất trở lại SQL
- Hadoop Kho dữ liệu với Hive
- Sao chép dữ liệu giữa các cụm (distcp)
- Sử dụng S3 như một phần bổ sung cho HDFS
- Các phương pháp hay nhất và kiến trúc nạp dữ liệu
- Labs: thiết lập và sử dụng Flume, tương tự cho Sqoop
- Các thao tác và quản trị MapReduce
- Tính toán song song trước mapreduce: so sánh HPC vs Hadoop quản trị
- Tải cụm MapReduce
- Các nút và Daemon (JobTracker, TaskTracker)
- Đi qua giao diện người dùng MapReduce
- Cấu hình MapReduce
- Cấu hình công việc
- Tối ưu hóa MapReduce
- Chống lỗi cho MR: những gì cần nói với các lập trình viên của bạn
- Labs: chạy các ví dụ MapReduce
- YARN: kiến trúc mới và khả năng mới
- Mục tiêu thiết kế và kiến trúc triển khai YARN
- Các tác nhân mới: ResourceManager, NodeManager, Application Master
- Cài đặt YARN
- Lập lịch công việc dưới YARN
- Labs: điều tra lập lịch công việc
- Các chủ đề nâng cao
- Giám sát phần cứng
- Giám sát cụm
- Thêm và xóa máy chủ, nâng cấp Hadoop
- Sao lưu, phục hồi và lập kế hoạch liên tục kinh doanh
- Quy trình làm việc của Oozie
- Hadoop Tính khả dụng cao (HA)
- Hadoop Liên kết
- Bảo mật cụm của bạn với Kerberos
- Labs: thiết lập giám sát
- Các track tùy chọn
- Cloudera Manager để quản trị cụm, giám sát và các tác vụ thường xuyên; cài đặt, sử dụng. Trong track này, tất cả các bài tập và labs được thực hiện trong môi trường phân phối Cloudera (CDH5)
- Ambari để quản trị cụm, giám sát và các tác vụ thường xuyên; cài đặt, sử dụng. Trong track này, tất cả các bài tập và labs được thực hiện trong trình quản lý cụm Ambari và Hortonworks Data Platform (HDP 2.0)
Requirements
- thành thạo các kỹ năng quản trị hệ thống cơ bản
- có kỹ năng viết script cơ bản
Kiến thức về Hadoop và Điện toán phân tán không bắt buộc, nhưng sẽ được giới thiệu và giải thích trong khóa học.
Môi trường thực hành
Zero Install: Không cần cài đặt phần mềm Hadoop trên máy của sinh viên! Một cụm Hadoop hoạt động sẽ được cung cấp cho sinh viên.
Sinh viên cần những thứ sau
- một ứng dụng khách SSH (Linux và Mac đã có ứng dụng khách ssh, đối với Windows, Putty được khuyến nghị
- một trình duyệt để truy cập cụm. Chúng tôi khuyến nghị trình duyệt Firefox với tiện ích mở rộng FoxyProxy đã cài đặt
Testimonials (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay