Đề cương khóa học

spark.mllib: các kiểu dữ liệu, thuật toán và tiện ích

  • Các kiểu dữ liệu
  • Thống kê cơ bản
    • Thống kê mô tả
    • Tương quan
    • Lấy mẫu phân tầng
    • Kiểm định giả thuyết
    • Kiểm định ý nghĩa thống kê trực tuyến
    • Tạo dữ liệu ngẫu nhiên
  • Phân loại và hồi quy
    • Mô hình tuyến tính (SVM, hồi quy logistic, hồi quy tuyến tính)
    • Naive Bayes
    • Cây quyết định
    • Tập hợp các cây (Random Forests và Cây Gradient-Boosted)
    • Hồi quy đẳng hướng
  • Lọc cộng tác
    • bình phương tối thiểu xen kẽ (ALS)
  • Phân cụm
    • k-means
    • Hỗn hợp Gaussian
    • phân cụm lặp lại lũy thừa (PIC)
    • phân bổ Dirichlet ẩn (LDA)
    • k-means phân đôi
    • k-means trực tuyến
  • Giảm chiều
    • phân tích giá trị kỳ đơn (SVD)
    • phân tích thành phần chính (PCA)
  • Trích xuất và biến đổi đặc trưng
  • Khai thác mẫu thường xuyên
    • FP-growth
    • quy tắc kết hợp
    • PrefixSpan
  • Đánh giá chỉ số
  • Xuất mô hình PMML
  • Tối ưu hóa (dành cho nhà phát triển)
    • giảm gradient ngẫu nhiên
    • BFGS giới hạn bộ nhớ (L-BFGS)

spark.ml: API cấp cao cho quy trình ML

  • Tổng quan: estimators, transformers và pipelines
  • Trích xuất, biến đổi và chọn đặc trưng
  • Phân loại và hồi quy
  • Phân cụm
  • Các chủ đề nâng cao

Requirements

Có kiến thức về một trong các lựa chọn sau:

  • Java
  • Scala
  • Python
  • SparkR.
 35 Hours

Number of participants


Price per participant

Testimonials (1)

Provisional Upcoming Courses (Require 5+ participants)

Related Categories