Đề cương khóa học
Phần 1: Giới thiệu về Hadoop
- lịch sử, khái niệm Hadoop
- hệ sinh thái
- các bản phân phối
- kiến trúc tổng quan
- những hiểu lầm về Hadoop
- thách thức của Hadoop
- phần cứng / phần mềm
- lab: cái nhìn đầu tiên về Hadoop
Phần 2: HDFS
- Thiết kế và kiến trúc
- khái niệm (mở rộng ngang, sao chép, tính cục bộ dữ liệu, nhận biết rack)
- Daemons: Namenode, Secondary namenode, Data node
- giao tiếp / heartbeat
- tính toàn vẹn dữ liệu
- đường dẫn đọc / ghi
- Khả năng sẵn sàng cao (HA) của Namenode, Liên kết
- lab: Tương tác với HDFS
Phần 3: Map Reduce
- khái niệm và kiến trúc
- daemons (MRV1): jobtracker / tasktracker
- các giai đoạn: driver, mapper, shuffle/sort, reducer
- Map Reduce Phiên bản 1 và Phiên bản 2 (YARN)
- Bên trong Map Reduce
- Giới thiệu chương trình Map Reduce Java
- lab: Chạy chương trình MapReduce mẫu
Phần 4: Pig
- Pig so với Java Map Reduce
- luồng công việc Pig
- ngôn ngữ Pig Latin
- ETL với Pig
- Biến đổi & Kết nối
- Hàm do người dùng xác định (UDF)
- lab: viết các script Pig để phân tích dữ liệu
Phần 5: Hive
- kiến trúc và thiết kế
- kiểu dữ liệu
- Hỗ trợ SQL trong Hive
- Tạo bảng Hive và truy vấn
- phân vùng
- kết nối
- xử lý văn bản
- lab: các phòng thí nghiệm khác nhau về xử lý dữ liệu với Hive
Phần 6: HBase
- khái niệm và kiến trúc
- HBase so với RDBMS so với Cassandra
- HBase Java API
- Dữ liệu chuỗi thời gian trên HBase
- thiết kế lược đồ
- lab: Tương tác với HBase bằng shell; lập trình trong HBase Java API; Bài tập thiết kế lược đồ
Requirements
- thành thạo ngôn ngữ lập trình Java (hầu hết các bài tập lập trình đều bằng java)
- thành thạo môi trường Linux (có thể điều hướng dòng lệnh Linux, chỉnh sửa tệp bằng vi / nano)
Môi trường Lab
Zero Install: Không cần cài đặt phần mềm hadoop trên máy của sinh viên! Một cụm hadoop hoạt động sẽ được cung cấp cho sinh viên.
Sinh viên cần những điều sau
- một ứng dụng khách SSH (Linux và Mac đã có ứng dụng khách ssh, đối với Windows Putty được khuyến nghị)
- một trình duyệt để truy cập cụm. Chúng tôi khuyến nghị Firefox browser
Testimonials (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay