Đề cương khóa học
Giới thiệu
Cài đặt và Cấu hình Dataiku Data Science Studio (DSS)
- Yêu cầu hệ thống cho Dataiku DSS
- Thiết lập tích hợp Apache Hadoop và Apache Spark
- Cấu hình Dataiku DSS với proxy web
- Di chuyển từ các nền tảng khác sang Dataiku DSS
Tổng quan về các Tính năng và Kiến trúc của Dataiku DSS
- Các đối tượng và đồ thị cốt lõi trong Dataiku DSS
- Công thức (Recipe) trong Dataiku DSS là gì?
- Các loại tập dữ liệu được hỗ trợ bởi Dataiku DSS
Tạo một Dự án Dataiku DSS
Định nghĩa Tập dữ liệu để Kết nối với Tài nguyên Dữ liệu trong Dataiku DSS
- Làm việc với các trình kết nối (connectors) và định dạng tệp của DSS
- Định dạng tiêu chuẩn của DSS so với định dạng đặc thù của Hadoop
- Tải lên Tệp cho một Dự án Dataiku DSS
Tổng quan về Hệ thống Tệp Máy chủ trong Dataiku DSS
Tạo và Sử dụng Các Thư mục Được Quản lý
- Công thức DSS để hợp nhất thư mục
- Thư mục được quản lý cục bộ so với phi cục bộ
Xây dựng một Tập dữ liệu Hệ thống Tệp bằng Nội dung Thư mục Được Quản lý
- Thực hiện làm sạch bằng công thức mã DSS
Làm việc với Tập dữ liệu Chỉ số và Tập dữ liệu Thống kê Nội bộ
Triển khai Công thức Tải xuống DSS cho Tập dữ liệu HTTP
Di chuyển Tập dữ liệu SQL và Tập dữ liệu HDFS bằng DSS
Sắp xếp Tập dữ liệu trong Dataiku DSS
- Thứ tự ghi so với thứ tự thời gian đọc
Khám phá và Chuẩn bị Trực quan hóa Dữ liệu cho một Dự án Dataiku DSS
Tổng quan về Sơ đồ Dữ liệu, Loại Lưu trữ và Ý nghĩa của Dataiku
Thực hiện các Tập lệnh Làm sạch, Chuẩn hóa và Làm phong phú Dữ liệu trong Dataiku DSS
Làm việc với Giao diện Biểu đồ Dataiku DSS và Các Loại Tổng hợp Trực quan
Sử dụng Tính năng Tương tác Statistics của DSS
- Phân tích đơn biến so với phân tích song biến
- Sử dụng công cụ Phân tích Thành phần Chính (PCA) của DSS
Tổng quan về Machine Learning với Dataiku DSS
- Học máy có giám sát so với học máy không giám sát
- Tài liệu tham khảo cho các Thuật toán và Xử lý Đặc trưng Học máy DSS
- Deep Learning với Dataiku DSS
Tổng quan về Luồng Dẫn xuất từ Tập dữ liệu và Công thức DSS
Chuyển đổi Tập dữ liệu Hiện có trong DSS bằng Công thức Trực quan
Sử dụng Công thức DSS Dựa trên Mã do Người dùng Xác định
Tối ưu hóa Khám phá và Thử nghiệm Mã bằng Notebook Mã DSS
Viết Trực quan hóa Nâng cao và Các Tính năng Frontend Tùy chỉnh bằng Webapps
Làm việc với Tính năng Báo cáo Mã Dataiku DSS
Chia sẻ Dự án Dữ liệu Element và Làm quen với Dashboard DSS
Thiết kế và Đóng gói một Dự án Dataiku DSS dưới dạng Ứng dụng Có thể Tái sử dụng
Tổng quan về Các Phương pháp Nâng cao trong Dataiku DSS
- Triển khai phân vùng tập dữ liệu được tối ưu hóa bằng DSS
- Thực thi các phần xử lý cụ thể của DSS thông qua các tính toán trong vùng chứa Kubernetes
Tổng quan về Collaboration và Kiểm soát Phiên bản trong Dataiku DSS
Triển khai Kịch bản Tự động hóa, Chỉ số và Kiểm tra cho Kiểm tra Dự án DSS
Triển khai và Cập nhật một Dự án bằng Node Tự động hóa DSS và Bundles
Làm việc với API Thời gian Thực trong Dataiku DSS
- API Bổ sung và API Rest trong DSS
Phân tích và Forecasting Chuỗi Thời gian Dataiku DSS
Bảo mật một Dự án trong Dataiku DSS
- Quản lý Quyền Dự án và Ủy quyền Dashboard
- Triển khai Tùy chọn Bảo mật Nâng cao
Tích hợp Dataiku DSS với Cloud
Khắc phục sự cố
Tóm tắt và Kết luận
Requirements
- Có kinh nghiệm với các ngôn ngữ lập trình Python, SQL và R
- Kiến thức cơ bản về xử lý dữ liệu với Apache Hadoop và Spark
- Hiểu biết về các khái niệm học máy và mô hình dữ liệu
- Có kiến thức nền tảng về phân tích thống kê và các khái niệm khoa học dữ liệu
- Có kinh nghiệm trực quan hóa và truyền đạt dữ liệu
Đối tượng
- Kỹ sư
- Nhà khoa học dữ liệu
- Nhà phân tích dữ liệu