Đề cương khóa học
Giới thiệu
Hiểu Big Data
Tổng quan về Spark
Tổng quan về Python
Tổng quan về PySpark
- Phân phối Dữ liệu Sử dụng Khung Resilient Distributed Datasets
- Phân phối Tính toán Sử dụng Toán tử API Spark
Thiết lập Python với Spark
Thiết lập PySpark
Sử dụng các Instance EC2 Amazon Web Services (AWS) cho Spark
Thiết lập Databricks
Thiết lập Cluster AWS EMR
Học các Kiến thức Cơ bản về Python Programming
- Bắt đầu với Python
- Sử dụng Jupyter Notebook
- Sử dụng Biến và Các Kiểu Dữ liệu Đơn giản
- Làm việc với Danh sách
- Sử dụng Câu lệnh if
- Sử dụng Đầu vào của Người dùng
- Làm việc với Vòng lặp while
- Triển khai Hàm
- Làm việc với Lớp
- Làm việc với Tệp và Ngoại lệ
- Làm việc với Dự án, Dữ liệu và API
Học các Kiến thức Cơ bản về Spark DataFrame
- Bắt đầu với Spark DataFrames
- Triển khai các Thao tác Cơ bản với Spark
- Sử dụng Thao tác Groupby và Aggregate
- Làm việc với Dấu thời gian và Ngày tháng
Làm việc trên Bài tập Dự án Spark DataFrame
Hiểu Machine Learning với MLlib
Làm việc với MLlib, Spark và Python cho Machine Learning
Hiểu Hồi quy
- Học Lý thuyết Hồi quy Tuyến tính
- Triển khai Mã Đánh giá Hồi quy
- Làm việc trên Bài tập Hồi quy Tuyến tính Mẫu
- Học Lý thuyết Hồi quy Logistic
- Triển khai Mã Hồi quy Logistic
- Làm việc trên Bài tập Hồi quy Logistic Mẫu
Hiểu Random Forest và Cây Quyết định
- Học Lý thuyết Phương pháp Cây
- Triển khai Mã Cây Quyết định và Random Forest
- Làm việc trên Bài tập Phân loại Random Forest Mẫu
Làm việc với Phân cụm K-means
- Hiểu Lý thuyết Phân cụm K-means
- Triển khai Mã Phân cụm K-means
- Làm việc trên Bài tập Phân cụm Mẫu
Làm việc với Hệ thống Đề xuất
Triển khai Xử lý Ngôn ngữ Tự nhiên
- Hiểu Natural Language Processing (NLP)
- Tổng quan về các Công cụ NLP
- Làm việc trên Bài tập NLP Mẫu
Truyền phát với Spark trên Python
- Tổng quan về Truyền phát với Spark
- Bài tập Spark Streaming Mẫu
Lời Kết
Requirements
- Kỹ năng lập trình tổng quát
Đối tượng
- Nhà phát triển
- Chuyên gia IT
- Nhà khoa học dữ liệu
Testimonials (6)
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
Course - Python and Spark for Big Data (PySpark)
The course was about a series of very complex related topics & Pablo has in-depth expertise of each of them. Sometimes nuances were lost in communication and/or due to time pressures and possibly expectations were not quite met due to this. Also there were some UHG/Azure Databricks setup issues however Pablo / UHG resolved these quickly once they became apparent - this to me showed a high level of understanding and professionalism between UHG & Pablo,
Michael Monks - Tech NorthWest Skillnet
Course - Python and Spark for Big Data (PySpark)
Individual attention.
ARCHANA ANILKUMAR - PPL
Course - Python and Spark for Big Data (PySpark)
Hands on Training..
Abraham Thomas - PPL
Course - Python and Spark for Big Data (PySpark)
The lessons were taught in a Jupyter notebook. The topics were structured with a logical sequence and naturally helped develop the session from the easier parts to the more complex. I'm already an advanced user of Python with background in Machine Learning, so found the course easier to follow than, possibly, some of my classmates that took the training course. I appreciate that some of the most elementary concepts were skipped and that he focused on the most substantial matters.
Angela DeLaMora - ADT, LLC
Course - Python and Spark for Big Data (PySpark)
practice tasks