Đề cương khóa học

Giới thiệu

Hiểu Big Data

Tổng quan về Spark

Tổng quan về Python

Tổng quan về PySpark

  • Phân phối Dữ liệu Sử dụng Khung Resilient Distributed Datasets
  • Phân phối Tính toán Sử dụng Toán tử API Spark

Thiết lập Python với Spark

Thiết lập PySpark

Sử dụng các Instance EC2 Amazon Web Services (AWS) cho Spark

Thiết lập Databricks

Thiết lập Cluster AWS EMR

Học các Kiến thức Cơ bản về Python Programming

  • Bắt đầu với Python
  • Sử dụng Jupyter Notebook
  • Sử dụng Biến và Các Kiểu Dữ liệu Đơn giản
  • Làm việc với Danh sách
  • Sử dụng Câu lệnh if
  • Sử dụng Đầu vào của Người dùng
  • Làm việc với Vòng lặp while
  • Triển khai Hàm
  • Làm việc với Lớp
  • Làm việc với Tệp và Ngoại lệ
  • Làm việc với Dự án, Dữ liệu và API

Học các Kiến thức Cơ bản về Spark DataFrame

  • Bắt đầu với Spark DataFrames
  • Triển khai các Thao tác Cơ bản với Spark
  • Sử dụng Thao tác Groupby và Aggregate
  • Làm việc với Dấu thời gian và Ngày tháng

Làm việc trên Bài tập Dự án Spark DataFrame

Hiểu Machine Learning với MLlib

Làm việc với MLlib, Spark và Python cho Machine Learning

Hiểu Hồi quy

  • Học Lý thuyết Hồi quy Tuyến tính
  • Triển khai Mã Đánh giá Hồi quy
  • Làm việc trên Bài tập Hồi quy Tuyến tính Mẫu
  • Học Lý thuyết Hồi quy Logistic
  • Triển khai Mã Hồi quy Logistic
  • Làm việc trên Bài tập Hồi quy Logistic Mẫu

Hiểu Random Forest và Cây Quyết định

  • Học Lý thuyết Phương pháp Cây
  • Triển khai Mã Cây Quyết định và Random Forest
  • Làm việc trên Bài tập Phân loại Random Forest Mẫu

Làm việc với Phân cụm K-means

  • Hiểu Lý thuyết Phân cụm K-means
  • Triển khai Mã Phân cụm K-means
  • Làm việc trên Bài tập Phân cụm Mẫu

Làm việc với Hệ thống Đề xuất

Triển khai Xử lý Ngôn ngữ Tự nhiên

  • Hiểu Natural Language Processing (NLP)
  • Tổng quan về các Công cụ NLP
  • Làm việc trên Bài tập NLP Mẫu

Truyền phát với Spark trên Python

  • Tổng quan về Truyền phát với Spark
  • Bài tập Spark Streaming Mẫu

Lời Kết

Requirements

  • Kỹ năng lập trình tổng quát

Đối tượng

  • Nhà phát triển
  • Chuyên gia IT
  • Nhà khoa học dữ liệu
 21 Hours

Number of participants


Price per participant

Testimonials (6)

Provisional Upcoming Courses (Require 5+ participants)

Related Categories