Đề cương khóa học

Giới thiệu về Reinforcement Learning từ Phản Hồi của Con Người (RLHF)

  • RLHF là gì và tại sao nó quan trọng
  • Sự so sánh với phương pháp tinh chỉnh giám sát
  • Các ứng dụng của RLHF trong hệ thống AI hiện đại

Tạo Mô Hình Thưởng với Phản Hồi của Con Người

  • Thu thập và cấu trúc hóa phản hồi của con người
  • Xây dựng và đào tạo mô hình thưởng
  • Đánh giá hiệu quả của mô hình thưởng

Đào Tạo với Proximal Policy Optimization (PPO)

  • Tổng quan về các thuật toán PPO cho RLHF
  • Triển khai PPO với mô hình thưởng
  • Tinh chỉnh mô hình một cách lặp lại và an toàn

Các Ứng Dụng Thực Tế của Mô Hình Ngôn Ngữ

  • Sắp xếp dữ liệu cho quy trình làm việc RLHF
  • Thực hành tinh chỉnh một mô hình ngôn ngữ nhỏ sử dụng RLHF
  • Thách thức và các chiến lược giảm thiểu

Mở Rộng RLHF đến Hệ Thống Sản Xuất

  • Các yếu tố về cơ sở hạ tầng và tính toán
  • Bảo đảm chất lượng và vòng lặp phản hồi liên tục
  • Tốt nhất để triển khai và duy trì

Xem Xét Đạo Đức và Giảm Thiểu Sai Phân Biệt

  • Đối phó với rủi ro đạo đức trong phản hồi của con người
  • Các chiến lược phát hiện và sửa chữa sai phân biệt
  • Bảo đảm sự phù hợp và đầu ra an toàn

Ví Dụ Trường Hợp và Ví Dụ Thực Tế

  • Trường hợp nghiên cứu: Tinh chỉnh ChatGPT với RLHF
  • Các triển khai thành công khác của RLHF
  • Học hỏi từ kinh nghiệm và hiểu biết về ngành

Tóm Tắt và Bước Tiếp Theo

Requirements

  • Sự hiểu biết về các nguyên tắc của học có giám sát và học tăng cường
  • Kinh nghiệm với việc điều chỉnh mô hình và kiến trúc mạng thần kinh
  • Thành thạo lập trình Python và khung làm việc học sâu (ví dụ: TensorFlow, PyTorch)

Đối tượng

  • Nhân viên kỹ thuật Machine Learning
  • Nghiên cứu viên AI
 14 Hours

Number of participants


Price per participant

Provisional Upcoming Courses (Require 5+ participants)

Related Categories