Đề cương khóa học

Giới thiệu về Apache Airflow

  • Điều phối quy trình làm việc là gì
  • Các tính năng và lợi ích chính của Apache Airflow
  • Cải tiến của Airflow 2.x và tổng quan về hệ sinh thái

Kiến trúc và các khái niệm cốt lõi

  • Scheduler, web server, và worker processes
  • DAGs, tasks, và operators
  • Executors và backends (Local, Celery, Kubernetes)

Cài đặt và thiết lập

  • Cài đặt Airflow trong môi trường local và đám mây
  • Cấu hình Airflow với các executors khác nhau
  • Thiết lập cơ sở dữ liệu metadata và kết nối

Điều hướng giao diện người dùng và dòng lệnh của Airflow

  • Khám phá giao diện web của Airflow
  • Theo dõi các phiên chạy DAG, tasks, và logs
  • Sử dụng dòng lệnh Airflow cho quản trị

Viết và quản lý DAGs

  • Tạo DAGs bằng TaskFlow API
  • Sử dụng operators, sensors, và hooks
  • Quản lý các phụ thuộc và khoảng thời gian lên lịch

Tích hợp Airflow với dữ liệu và dịch vụ đám mây

  • Kết nối với cơ sở dữ liệu, API, và hàng đợi tin nhắn
  • Chạy các đường ống ETL bằng Airflow
  • Tích hợp đám mây: AWS, GCP, Azure operators

Giám sát và quan sát

  • Nhật ký task và giám sát thời gian thực
  • Các chỉ số với Prometheus và Grafana
  • Báo cáo và thông báo qua email hoặc Slack

Bảo mật Apache Airflow

  • Điều khiển truy cập dựa trên vai trò (RBAC)
  • Xác thực với LDAP, OAuth, và SSO
  • Quản lý bí mật với Vault và các kho bí mật đám mây

Mở rộng Apache Airflow

  • Đồng thời, đồng bộ hóa, và hàng đợi task
  • Sử dụng CeleryExecutor và KubernetesExecutor
  • Triển khai Airflow trên Kubernetes với Helm

Các thực hành tốt nhất cho sản xuất

  • Kiểm soát phiên bản và CI/CD cho DAGs
  • Kiểm thử và gỡ lỗi DAGs
  • Duy trì độ tin cậy và hiệu suất ở quy mô lớn

Khắc phục sự cố và tối ưu hóa

  • Gỡ lỗi DAGs và tasks bị thất bại
  • Tối ưu hóa hiệu suất DAG
  • Các bẫy thông thường và cách tránh chúng

Tổng kết và các bước tiếp theo

Yêu cầu

  • Kinh nghiệm lập trình Python
  • Hiểu biết về khái niệm kỹ thuật dữ liệu hoặc DevOps
  • Hiểu rõ về ETL hoặc điều phối quy trình làm việc

Đối tượng học viên

  • Khoa học dữ liệu
  • Kỹ sư dữ liệu
  • Kỹ sư DevOps và hạ tầng
  • Lập trình viên phần mềm
 21 Giờ học

Số người tham gia


Giá cho mỗi học viên

Đánh giá (7)

Các khóa học sắp tới

Các danh mục liên quan