Đề cương khóa học

  1. Scala giới thiệu

    • Giới thiệu nhanh về Scala
    • Thực hành: Làm quen với Scala
  2. Cơ bản về Spark

    • Nguồn gốc và lịch sử
    • Spark và Hadoop
    • Khái niệm và kiến trúc Spark
    • Hệ sinh thái Spark (core, spark sql, mlib, streaming)
    • Thực hành: Cài đặt và chạy Spark
  3. Cái nhìn đầu tiên về Spark

    • Chạy Spark ở chế độ cục bộ
    • Giao diện web Spark
    • Spark shell
    • Phân tích bộ dữ liệu – phần 1
    • Kiểm tra RDD
    • Thực hành: Khám phá Spark shell
  4. RDD

    • Khái niệm RDD
    • Phân vùng
    • Các phép toán / biến đổi RDD
    • Các loại RDD
    • RDD cặp khóa-giá trị
    • MapReduce trên RDD
    • Bộ nhớ đệm và lưu trữ
    • Thực hành: Tạo & kiểm tra RDD; Bộ nhớ đệm RDD
  5. Lập trình API Spark

    • Giới thiệu API Spark / API RDD
    • Chạy chương trình đầu tiên trên Spark
    • Gỡ lỗi / ghi nhật ký
    • Thuộc tính cấu hình
    • Thực hành: Programming trong API Spark, Chạy công việc
  6. Spark SQL

    • Hỗ trợ SQL trong Spark
    • Dataframes
    • Định nghĩa bảng và nhập bộ dữ liệu
    • Truy vấn dataframes bằng SQL
    • Định dạng lưu trữ: JSON / Parquet
    • Thực hành: Tạo và truy vấn dataframes; đánh giá định dạng dữ liệu
  7. MLlib

    • Giới thiệu MLlib
    • Thuật toán MLlib
    • Thực hành: Viết ứng dụng MLib
  8. GraphX

    • Tổng quan về thư viện GraphX
    • API GraphX
    • Thực hành: Xử lý dữ liệu đồ thị bằng Spark
  9. Spark Streaming

    • Tổng quan về Streaming
    • Đánh giá các nền tảng Streaming
    • Các phép toán Streaming
    • Các phép toán cửa sổ trượt
    • Thực hành: Viết ứng dụng Spark Streaming
  10. Spark và Hadoop

    • Giới thiệu Hadoop (HDFS / YARN)
    • Kiến trúc Hadoop + Spark
    • Chạy Spark trên Hadoop YARN
    • Xử lý các tệp HDFS bằng Spark
  11. Hiệu suất và điều chỉnh Spark

    • Biến broadcast
    • Bộ tích lũy
    • Quản lý bộ nhớ & bộ nhớ đệm
  12. Các hoạt động của Spark

    • Triển khai Spark trong môi trường sản xuất
    • Các mẫu triển khai
    • Cấu hình
    • Giám sát
    • Khắc phục sự cố

Requirements

YÊU CẦU TIÊN QUYẾT

Có kiến thức cơ bản về một trong các ngôn ngữ Java / Scala / Python (các phòng thí nghiệm của chúng tôi sử dụng Scala và Python).
Hiểu biết cơ bản về môi trường phát triển Linux (điều hướng dòng lệnh / chỉnh sửa tệp bằng VI hoặc nano).

 21 Hours

Number of participants


Price per participant

Testimonials (6)

Provisional Upcoming Courses (Require 5+ participants)

Related Categories