Đề cương khóa học

1: HDFS (17%)

  • Mô tả chức năng của các Daemon HDFS
  • Mô tả hoạt động bình thường của một cụm Apache Hadoop, cả trong lưu trữ dữ liệu và xử lý dữ liệu.
  • Xác định các tính năng hiện tại của hệ thống máy tính thúc đẩy một hệ thống như Apache Hadoop.
  • Phân loại các mục tiêu chính của thiết kế HDFS
  • Trong một tình huống cụ thể, xác định trường hợp sử dụng phù hợp cho HDFS Federation
  • Xác định các thành phần và daemon của một cụm HDFS HA-Quorum
  • Phân tích vai trò của bảo mật HDFS (Kerberos)
  • Xác định lựa chọn tuần tự hóa dữ liệu tốt nhất cho một tình huống cụ thể
  • Mô tả đường dẫn đọc và ghi tệp
  • Xác định các lệnh để thao tác tệp trong Shell Hệ thống Tệp Hadoop

2: YARN và MapReduce phiên bản 2 (MRv2) (17%)

  • Hiểu cách nâng cấp một cụm từ Hadoop 1 lên Hadoop 2 ảnh hưởng đến cài đặt cụm
  • Hiểu cách triển khai MapReduce v2 (MRv2 / YARN), bao gồm tất cả các daemon YARN
  • Hiểu chiến lược thiết kế cơ bản cho MapReduce v2 (MRv2)
  • Xác định cách YARN xử lý phân bổ tài nguyên
  • Xác định quy trình công việc của công việc MapReduce chạy trên YARN
  • Xác định các tệp bạn phải thay đổi và cách thay đổi để di chuyển một cụm từ MapReduce phiên bản 1 (MRv1) sang MapReduce phiên bản 2 (MRv2) chạy trên YARN.

3: Lập kế hoạch cụm Hadoop (16%)

  • Các điểm chính cần xem xét khi chọn phần cứng và hệ điều hành để lưu trữ một cụm Apache Hadoop.
  • Phân tích các lựa chọn khi chọn OS
  • Hiểu về điều chỉnh kernel và trao đổi đĩa
  • Trong một tình huống và mô hình khối lượng công việc cụ thể, xác định cấu hình phần cứng phù hợp với tình huống đó
  • Trong một tình huống cụ thể, xác định các thành phần hệ sinh thái mà cụm của bạn cần chạy để đáp ứng SLA
  • Định kích thước cụm: trong một tình huống và tần suất thực thi cụ thể, xác định các thông số kỹ thuật cho khối lượng công việc, bao gồm CPU, bộ nhớ, lưu trữ, I/O đĩa
  • Định kích thước và cấu hình đĩa, bao gồm JBOD so với RAID, SAN, ảo hóa và yêu cầu định kích thước đĩa trong một cụm
  • Mạng Topology: hiểu việc sử dụng mạng trong Hadoop (cho cả HDFS và MapReduce) và đề xuất hoặc xác định các thành phần thiết kế mạng chính cho một tình huống cụ thể

4: Cài đặt và quản trị cụm Hadoop (25%)

  • Trong một tình huống cụ thể, xác định cách cụm sẽ xử lý lỗi đĩa và máy
  • Phân tích cấu hình ghi nhật ký và định dạng tệp cấu hình ghi nhật ký
  • Hiểu các khái niệm cơ bản về số liệu Hadoop và giám sát sức khỏe cụm
  • Xác định chức năng và mục đích của các công cụ có sẵn để giám sát cụm
  • Có thể cài đặt tất cả các thành phần hệ sinh thái trong CDH 5, bao gồm (nhưng không giới hạn): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive và Pig
  • Xác định chức năng và mục đích của các công cụ có sẵn để quản lý hệ thống tệp Apache Hadoop

5: Tài nguyên Management (10%)

  • Hiểu các mục tiêu thiết kế tổng thể của mỗi trình lập lịch Hadoop
  • Trong một tình huống cụ thể, xác định cách Trình lập lịch FIFO phân bổ tài nguyên cụm
  • Trong một tình huống cụ thể, xác định cách Trình lập lịch Công bằng phân bổ tài nguyên cụm dưới YARN
  • Trong một tình huống cụ thể, xác định cách Trình lập lịch Dung lượng phân bổ tài nguyên cụm

6: Giám sát và ghi nhật ký (15%)

  • Hiểu các chức năng và tính năng của khả năng thu thập số liệu của Hadoop
  • Phân tích Giao diện người dùng Web NameNode và JobTracker
  • Hiểu cách giám sát các Daemon cụm
  • Xác định và giám sát việc sử dụng CPU trên các nút chính
  • Mô tả cách giám sát trao đổi và phân bổ bộ nhớ trên tất cả các nút
  • Xác định cách xem và quản lý các tệp nhật ký của Hadoop
  • Giải thích một tệp nhật ký

Requirements

  • Kỹ năng quản trị hệ thống cơ bản Linux
  • Kỹ năng lập trình cơ bản
 35 Hours

Number of participants


Price per participant

Testimonials (3)

Provisional Upcoming Courses (Require 5+ participants)

Related Categories