Đề cương khóa học

Giới thiệu về Multimodal AI

  • Tổng quan về AI đa phương thức và các ứng dụng thực tế
  • Thách thức trong việc tích hợp dữ liệu văn bản, hình ảnh và âm thanh
  • Nghiên cứu và tiến bộ hiện đại

Xử lý Dữ liệu và Kỹ thuật Trích xuất Đặc trưng

  • Xử lý các tập dữ liệu văn bản, hình ảnh và âm thanh
  • Kỹ thuật tiền xử lý cho học đa phương thức
  • Trích xuất đặc trưng và chiến lược hợp nhất dữ liệu

Xây dựng Mô hình Đa phương thức với PyTorch và Hugging Face

  • Giới thiệu về PyTorch cho học đa phương thức
  • Sử dụng Hugging Face Transformers cho các tác vụ NLP và thị giác máy tính
  • Kết hợp các phương thức khác nhau trong một mô hình AI thống nhất

Triển khai Hợp nhất Giọng nói, Thị giác và Văn bản

  • Tích hợp OpenAI Whisper để nhận dạng giọng nói
  • Áp dụng DeepSeek-Vision để xử lý hình ảnh
  • Kỹ thuật hợp nhất cho học đa phương thức

Huấn luyện và Tối ưu hóa Mô hình Multimodal AI

  • Chiến lược huấn luyện mô hình cho AI đa phương thức
  • Kỹ thuật tối ưu hóa và điều chỉnh siêu tham số
  • Giải quyết vấn đề thiên vị và cải thiện khả năng tổng quát hóa của mô hình

Triển khai Multimodal AI trong các Ứng dụng Thực tế

  • Xuất mô hình để sử dụng trong sản xuất
  • Triển khai mô hình AI trên nền tảng đám mây
  • Giám sát hiệu suất và bảo trì mô hình

Các Chủ đề Nâng cao và Xu hướng Tương lai

  • Học không cần mẫu và học với ít mẫu trong AI đa phương thức
  • Các cân nhắc về đạo đức và phát triển AI có trách nhiệm
  • Xu hướng mới nổi trong nghiên cứu AI đa phương thức

Tóm tắt và Các Bước Tiếp theo

Requirements

  • Hiểu biết vững chắc về các khái niệm học máy và học sâu
  • Có kinh nghiệm với các framework AI như PyTorch hoặc TensorFlow
  • Làm quen với xử lý dữ liệu văn bản, hình ảnh và âm thanh

Đối tượng

  • Nhà phát triển AI
  • Kỹ sư học máy
  • Nghiên cứu viên
 21 Hours

Number of participants


Price per participant

Provisional Upcoming Courses (Require 5+ participants)

Related Categories