Đề cương khóa học
-
Scala giới thiệu
- Giới thiệu nhanh về Scala
- Thực hành: Làm quen với Scala
-
Cơ bản về Spark
- Nguồn gốc và lịch sử
- Spark và Hadoop
- Khái niệm và kiến trúc Spark
- Hệ sinh thái Spark (core, spark sql, mlib, streaming)
- Thực hành: Cài đặt và chạy Spark
-
Cái nhìn đầu tiên về Spark
- Chạy Spark ở chế độ cục bộ
- Giao diện web Spark
- Spark shell
- Phân tích bộ dữ liệu – phần 1
- Kiểm tra RDD
- Thực hành: Khám phá Spark shell
-
RDD
- Khái niệm RDD
- Phân vùng
- Các phép toán / biến đổi RDD
- Các loại RDD
- RDD cặp khóa-giá trị
- MapReduce trên RDD
- Bộ nhớ đệm và lưu trữ
- Thực hành: Tạo & kiểm tra RDD; Bộ nhớ đệm RDD
-
Lập trình API Spark
- Giới thiệu API Spark / API RDD
- Chạy chương trình đầu tiên trên Spark
- Gỡ lỗi / ghi nhật ký
- Thuộc tính cấu hình
- Thực hành: Programming trong API Spark, Chạy công việc
-
Spark SQL
- Hỗ trợ SQL trong Spark
- Dataframes
- Định nghĩa bảng và nhập bộ dữ liệu
- Truy vấn dataframes bằng SQL
- Định dạng lưu trữ: JSON / Parquet
- Thực hành: Tạo và truy vấn dataframes; đánh giá định dạng dữ liệu
-
MLlib
- Giới thiệu MLlib
- Thuật toán MLlib
- Thực hành: Viết ứng dụng MLib
-
GraphX
- Tổng quan về thư viện GraphX
- API GraphX
- Thực hành: Xử lý dữ liệu đồ thị bằng Spark
-
Spark Streaming
- Tổng quan về Streaming
- Đánh giá các nền tảng Streaming
- Các phép toán Streaming
- Các phép toán cửa sổ trượt
- Thực hành: Viết ứng dụng Spark Streaming
-
Spark và Hadoop
- Giới thiệu Hadoop (HDFS / YARN)
- Kiến trúc Hadoop + Spark
- Chạy Spark trên Hadoop YARN
- Xử lý các tệp HDFS bằng Spark
-
Hiệu suất và điều chỉnh Spark
- Biến broadcast
- Bộ tích lũy
- Quản lý bộ nhớ & bộ nhớ đệm
-
Các hoạt động của Spark
- Triển khai Spark trong môi trường sản xuất
- Các mẫu triển khai
- Cấu hình
- Giám sát
- Khắc phục sự cố
Requirements
YÊU CẦU TIÊN QUYẾT
Có kiến thức cơ bản về một trong các ngôn ngữ Java / Scala / Python (các phòng thí nghiệm của chúng tôi sử dụng Scala và Python).
Hiểu biết cơ bản về môi trường phát triển Linux (điều hướng dòng lệnh / chỉnh sửa tệp bằng VI hoặc nano).
Testimonials (6)
Doing similar exercises different ways really help understanding what each component (Hadoop/Spark, standalone/cluster) can do on its own and together. It gave me ideas on how I should test my application on my local machine when I develop vs when it is deployed on a cluster.
Thomas Carcaud - IT Frankfurt GmbH
Course - Spark for Developers
Ajay was very friendly, helpful and also knowledgable about the topic he was discussing.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Course - Spark for Developers
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Course - Spark for Developers
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Course - Spark for Developers
We know a lot more about the whole environment.
John Kidd
Course - Spark for Developers
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.