SMACK Stack for Data Science Training Course
Smack là một tập hợp các phần mềm nền tảng dữ liệu, cụ thể là Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra và Apache Kafka. Bằng cách sử dụng bộ công cụ Smack, người dùng có thể tạo và mở rộng quy mô các nền tảng xử lý dữ liệu.
Khóa đào tạo trực tiếp, trực tuyến hoặc tại chỗ này dành cho các nhà khoa học dữ liệu muốn sử dụng bộ công cụ Smack để xây dựng các nền tảng xử lý dữ liệu cho các giải pháp dữ liệu lớn.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Triển khai kiến trúc đường ống dữ liệu để xử lý dữ liệu lớn.
- Phát triển cơ sở hạ tầng cụm với Apache Mesos và Docker.
- Phân tích dữ liệu với Spark và Scala.
- Quản lý dữ liệu phi cấu trúc với Apache Cassandra.
Định dạng khóa học
- Bài giảng và thảo luận tương tác.
- Nhiều bài tập và thực hành.
- Thực hiện trực tiếp trong môi trường phòng thí nghiệm trực tiếp.
Tùy chọn tùy chỉnh khóa học
- Để yêu cầu một khóa đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Đề cương khóa học
Giới thiệu
Tổng quan về SMACK Stack
- Sự khác biệt giữa Apache Spark là gì? Các tính năng của Apache Spark
- Sự khác biệt giữa Apache Mesos là gì? Các tính năng của Apache Mesos
- Apache Akka là gì? Các tính năng của Apache Akka
- Apache Cassandra là gì? Các tính năng của Apache Cassandra
- Sự khác biệt giữa Apache Kafka là gì? Các tính năng của Apache Kafka
Ngôn ngữ Scala
- Cú pháp và cấu trúc của Scala
- Luồng điều khiển của Scala
Chuẩn bị Môi trường Phát triển
- Cài đặt và cấu hình SMACK stack
- Cài đặt và cấu hình Docker
Apache Akka
- Sử dụng actors
Apache Cassandra
- Tạo cơ sở dữ liệu cho các thao tác đọc
- Làm việc với sao lưu và phục hồi
Connectors
- Tạo một stream
- Xây dựng một ứng dụng Akka
- Lưu trữ dữ liệu với Cassandra
- Xem xét connectors
Apache Kafka
- Làm việc với clusters
- Tạo, xuất bản và tiêu thụ messages
Apache Mesos
- Phân bổ resources
- Chạy clusters
- Làm việc với Apache Aurora và Docker
- Chạy services và jobs
- Triển khai Spark, Cassandra và Kafka trên Mesos
Apache Spark
- Quản lý data flows
- Làm việc với RDDs và dataframes
- Thực hiện phân tích dữ liệu
Khắc phục sự cố
- Xử lý lỗi của services và errors
Tóm tắt và Kết luận
Requirements
- Sự hiểu biết về hệ thống xử lý dữ liệu
Đối tượng
- Nhà khoa học dữ liệu
Open Training Courses require 5+ participants.
SMACK Stack for Data Science Training Course - Booking
SMACK Stack for Data Science Training Course - Enquiry
SMACK Stack for Data Science - Consultancy Enquiry
Consultancy Enquiry
Testimonials (1)
very interactive...
Richard Langford
Course - SMACK Stack for Data Science
Provisional Upcoming Courses (Require 5+ participants)
Related Courses
Introduction to Data Science and AI using Python
35 HoursĐây là khóa học giới thiệu 5 ngày về Data Science và Artificial Intelligence (AI).
Khóa học được trình bày với các ví dụ và bài tập thực hành sử dụng Python.
Apache Airflow for Data Science: Automating Machine Learning Pipelines
21 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam (trực tuyến hoặc tại chỗ) dành cho những người tham gia ở trình độ trung cấp, những người muốn tự động hóa và quản lý quy trình làm việc học máy, bao gồm huấn luyện, xác thực và triển khai mô hình bằng Apache Airflow.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập Apache Airflow để điều phối quy trình làm việc học máy.
- Tự động hóa các tác vụ tiền xử lý dữ liệu, huấn luyện mô hình và xác thực.
- Tích hợp Airflow với các khung và công cụ học máy.
- Triển khai các mô hình học máy bằng cách sử dụng quy trình tự động.
- Giám sát và tối ưu hóa quy trình làm việc học máy trong môi trường sản xuất.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 HoursKhóa học này dành cho các nhà phát triển và nhà khoa học dữ liệu mong muốn hiểu và triển khai trí tuệ nhân tạo trong ứng dụng của họ. Tập trung đặc biệt vào phân tích dữ liệu, trí tuệ nhân tạo phân tán và xử lý ngôn ngữ tự nhiên.
Anaconda Ecosystem for Data Scientists
14 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu muốn sử dụng hệ sinh thái Anaconda để thu thập, quản lý và triển khai các gói và quy trình phân tích dữ liệu trên một nền tảng duy nhất.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Cài đặt và cấu hình các thành phần và thư viện Anaconda.
- Hiểu các khái niệm, tính năng và lợi ích cốt lõi của Anaconda.
- Quản lý các gói, môi trường và kênh bằng Anaconda Navigator.
- Sử dụng các gói Conda, R và Python cho khoa học dữ liệu và học máy.
- Tìm hiểu một số trường hợp sử dụng thực tế và kỹ thuật quản lý nhiều môi trường dữ liệu.
AWS Cloud9 for Data Science
28 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học và nhà phân tích dữ liệu ở trình độ trung cấp, những người muốn sử dụng AWS Cloud9 để tối ưu hóa quy trình làm việc khoa học dữ liệu.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường khoa học dữ liệu trong AWS Cloud9.
- Thực hiện phân tích dữ liệu bằng Python, R và Jupyter Notebook trong Cloud9.
- Tích hợp AWS Cloud9 với các dịch vụ dữ liệu của AWS như S3, RDS và Redshift.
- Sử dụng AWS Cloud9 để phát triển và triển khai mô hình học máy.
- Tối ưu hóa quy trình làm việc dựa trên đám mây cho phân tích và xử lý dữ liệu.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 HoursTổng quan
Các nhà cung cấp dịch vụ Communications (CSP) đang phải đối mặt với áp lực giảm chi phí và tối đa hóa doanh thu trung bình trên mỗi người dùng (ARPU), đồng thời đảm bảo trải nghiệm khách hàng tuyệt vời, nhưng khối lượng dữ liệu vẫn tiếp tục tăng. Lưu lượng dữ liệu di động toàn cầu sẽ tăng trưởng với tốc độ tăng trưởng hàng năm gộp (CAGR) là 78% đến năm 2016, đạt 10,8 exabyte mỗi tháng.
Trong khi đó, các CSP đang tạo ra lượng lớn dữ liệu, bao gồm hồ sơ chi tiết cuộc gọi (CDR), dữ liệu mạng và dữ liệu khách hàng. Các công ty khai thác đầy đủ dữ liệu này sẽ có lợi thế cạnh tranh. Theo một khảo sát gần đây của The Economist Intelligence Unit, các công ty sử dụng việc ra quyết định dựa trên dữ liệu có mức tăng trưởng năng suất từ 5-6%. Tuy nhiên, 53% các công ty chỉ khai thác một nửa dữ liệu có giá trị của họ, và một phần tư số người được hỏi nhận thấy rằng một lượng lớn dữ liệu hữu ích vẫn chưa được khai thác. Khối lượng dữ liệu quá lớn khiến việc phân tích thủ công là bất khả thi, và hầu hết các hệ thống phần mềm cũ không thể đáp ứng được, dẫn đến việc dữ liệu có giá trị bị loại bỏ hoặc bỏ qua.
Với phần mềm big data có tốc độ cao, khả năng mở rộng của Big Data & Analytics, các CSP có thể khai thác tất cả dữ liệu của họ để đưa ra quyết định tốt hơn trong thời gian ngắn hơn. Các sản phẩm và kỹ thuật khác nhau của Big Data cung cấp một nền tảng phần mềm hoàn chỉnh để thu thập, chuẩn bị, phân tích và trình bày thông tin chi tiết từ big data. Các lĩnh vực ứng dụng bao gồm giám sát hiệu suất mạng, phát hiện gian lận, phát hiện khách hàng rời bỏ và phân tích rủi ro tín dụng. Các sản phẩm của Big Data & Analytics có thể mở rộng để xử lý terabyte dữ liệu, nhưng việc triển khai các công cụ này đòi hỏi một hệ thống cơ sở dữ liệu dựa trên đám mây mới như Hadoop hoặc bộ xử lý tính toán song song quy mô lớn (KPU, v.v.).
Khóa học này về BI Big Data cho Telco bao gồm tất cả các lĩnh vực mới nổi mà các CSP đang đầu tư để tăng năng suất và mở ra các nguồn doanh thu mới. Khóa học sẽ cung cấp một cái nhìn toàn diện 360 độ về BI Big Data trong Telco để các nhà quản lý và người ra quyết định có thể có một cái nhìn tổng quan rộng rãi và toàn diện về các khả năng của BI Big Data trong Telco để tăng năng suất và doanh thu.
Mục tiêu khóa học
Mục tiêu chính của khóa học là giới thiệu các kỹ thuật tình báo nghiệp vụ Big Data mới trong 4 lĩnh vực của Telecom Business (Marketing/Bán hàng, Vận hành Mạng, Vận hành Tài chính và Quan hệ Khách hàng Management). Sinh viên sẽ được giới thiệu những điều sau:
- Giới thiệu về Big Data - 4Vs (khối lượng, tốc độ, sự đa dạng và tính xác thực) trong Big Data - Tạo, trích xuất và quản lý từ góc độ Telco
- Phân tích Big Data khác với phân tích dữ liệu cũ như thế nào
- Chứng minh tính hợp lý của Big Data trong nội bộ - Góc độ Telco
- Giới thiệu về Hệ sinh thái Hadoop - làm quen với tất cả các công cụ Hadoop như Hive, Pig, SPARC - khi nào và làm thế nào chúng được sử dụng để giải quyết các vấn đề Big Data
- Cách trích xuất Big Data để phân tích cho các công cụ phân tích - cách Business Analysis có thể giảm bớt các điểm khó khăn của họ trong việc thu thập và phân tích dữ liệu thông qua cách tiếp cận bảng điều khiển Hadoop tích hợp
- Giới thiệu cơ bản về phân tích thông tin chi tiết, phân tích trực quan và phân tích dự đoán cho Telco
- Phân tích rời bỏ khách hàng và Big Data - cách phân tích Big Data có thể giảm thiểu tình trạng rời bỏ khách hàng và sự không hài lòng của khách hàng trong Telco - các nghiên cứu điển hình
- Phân tích lỗi mạng và lỗi dịch vụ từ siêu dữ liệu mạng và IPDR
- Phân tích tài chính - gian lận, lãng phí và ước tính ROI từ dữ liệu bán hàng và vận hành
- Vấn đề thu hút khách hàng - Tiếp thị mục tiêu, phân khúc khách hàng và bán chéo từ dữ liệu bán hàng
- Giới thiệu và tóm tắt tất cả các sản phẩm phân tích Big Data và vị trí của chúng trong không gian phân tích Telco
- Kết luận - cách tiếp cận từng bước để giới thiệu Big Data Business Intelligence trong tổ chức của bạn
Đối tượng mục tiêu
- Nhà vận hành mạng, Quản lý tài chính, Quản lý CRM và các nhà quản lý IT hàng đầu trong văn phòng CIO của Telco.
- Nhà phân tích Business trong Telco
- Quản lý/Nhà phân tích văn phòng CFO
- Quản lý vận hành
- Quản lý QA
Introduction to Google Colab for Data Science
14 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu và chuyên gia IT ở trình độ mới bắt đầu, những người muốn học các kiến thức cơ bản về khoa học dữ liệu bằng Google Colab.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập và điều hướng Google Colab.
- Viết và thực thi Python code cơ bản.
- Nhập và xử lý các tập dữ liệu.
- Tạo hình ảnh trực quan bằng các thư viện Python.
A Practical Introduction to Data Science
35 HoursNhững người tham gia hoàn thành khóa đào tạo này sẽ có được sự hiểu biết thực tế và ứng dụng cao về Data Science và các công nghệ, phương pháp luận và công cụ liên quan.
Người tham gia sẽ có cơ hội áp dụng kiến thức này vào thực tế thông qua các bài tập thực hành. Tương tác nhóm và phản hồi từ giảng viên là một phần quan trọng của lớp học.
Khóa học bắt đầu với phần giới thiệu về các khái niệm cơ bản của Data Science, sau đó đi sâu vào các công cụ và phương pháp luận được sử dụng trong Data Science.
Đối tượng
- Nhà phát triển
- Chuyên viên phân tích kỹ thuật
- Tư vấn viên IT
Hình thức của Khóa học
- Kết hợp giảng lý, thảo luận, bài tập và thực hành chuyên sâu
Lưu ý
- Để yêu cầu một khóa đào tạo tùy chỉnh cho khóa học này, vui lòng liên hệ với chúng tôi để sắp xếp.
Data Science Programme
245 HoursThe explosion of information and data in today’s world is un-paralleled, our ability to innovate and push the boundaries of the possible is growing faster than it ever has. The role of Data Scientist is one of the highest in-demand skills across industry today.
We offer much more than learning through theory; we deliver practical, marketable skills that bridge the gap between the world of academia and the demands of industry.
This 7 week curriculum can be tailored to your specific Industry requirements, please contact us for further information or visit the Nobleprog Institute website
Audience:
This programme is aimed post level graduates as well as anyone with the required pre-requisite skills which will be determined by an assessment and interview.
Delivery:
Delivery of the course will be a mixture of Instructor Led Classroom and Instructor Led Online; typically the 1st week will be 'classroom led', weeks 2 - 6 'virtual classroom' and week 7 back to 'classroom led'.
Introduction to Graph Computing
28 HoursTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ tìm hiểu về các công nghệ và phương pháp triển khai để xử lý dữ liệu đồ thị. Mục tiêu là xác định các đối tượng trong thế giới thực, đặc điểm và mối quan hệ của chúng, sau đó mô hình hóa các mối quan hệ này và xử lý chúng như dữ liệu bằng cách tiếp cận Graph Computing (còn được gọi là Phân tích Đồ thị). Chúng ta bắt đầu với một cái nhìn tổng quan rộng rãi và thu hẹp phạm vi vào các công cụ cụ thể khi chúng ta thực hiện một loạt các nghiên cứu điển hình, bài tập thực hành và triển khai trực tiếp.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Hiểu cách dữ liệu đồ thị được lưu trữ và duyệt.
- Chọn khung làm việc tốt nhất cho một nhiệm vụ cụ thể (từ cơ sở dữ liệu đồ thị đến các khung xử lý hàng loạt).
- Triển khai Hadoop, Spark, GraphX và Pregel để thực hiện tính toán đồ thị trên nhiều máy song song.
- Xem các vấn đề dữ liệu lớn trong thế giới thực dưới dạng đồ thị, quy trình và duyệt.
Kaggle
14 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu và nhà phát triển muốn học hỏi và xây dựng sự nghiệp của họ trong Data Science bằng cách sử dụng Kaggle.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Tìm hiểu về khoa học dữ liệu và học máy.
- Khám phá phân tích dữ liệu.
- Tìm hiểu về Kaggle và cách thức hoạt động của nó.
Accelerating Python Pandas Workflows with Modin
14 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu và nhà phát triển muốn sử dụng Modin để xây dựng và triển khai các phép tính song song với Pandas để phân tích dữ liệu nhanh hơn.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường cần thiết để bắt đầu phát triển các quy trình làm việc Pandas quy mô lớn với Modin.
- Hiểu các tính năng, kiến trúc và lợi thế của Modin.
- Nắm vững sự khác biệt giữa Modin, Dask và Ray.
- Thực hiện các thao tác Pandas nhanh hơn với Modin.
- Triển khai toàn bộ API và các hàm Pandas.
GPU Data Science with NVIDIA RAPIDS
14 HoursKhóa đào tạo trực tiếp, do giảng viên hướng dẫn này (trực tuyến hoặc tại chỗ) dành cho các nhà khoa học dữ liệu và nhà phát triển muốn sử dụng RAPIDS để xây dựng các quy trình dữ liệu, quy trình làm việc và hình ảnh hóa dữ liệu được tăng tốc bởi GPU, áp dụng các thuật toán học máy như XGBoost, cuML, v.v.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Thiết lập môi trường phát triển cần thiết để xây dựng các mô hình dữ liệu với NVIDIA RAPIDS.
- Hiểu các tính năng, thành phần và lợi thế của RAPIDS.
- Tận dụng GPU để tăng tốc các quy trình dữ liệu và phân tích từ đầu đến cuối.
- Triển khai chuẩn bị dữ liệu và ETL được tăng tốc bởi GPU với cuDF và Apache Arrow.
- Tìm hiểu cách thực hiện các tác vụ học máy với các thuật toán XGBoost và cuML.
- Xây dựng hình ảnh hóa dữ liệu và thực hiện phân tích đồ thị với cuXfilter và cuGraph.
Python and Spark for Big Data (PySpark)
21 HoursTrong khóa đào tạo trực tiếp, do giảng viên hướng dẫn này tại Việt Nam, người tham gia sẽ học cách sử dụng Python và Spark cùng nhau để phân tích dữ liệu lớn thông qua các bài tập thực hành.
Khi kết thúc khóa đào tạo này, người tham gia sẽ có thể:
- Học cách sử dụng Spark với Python để phân tích Big Data.
- Thực hành các bài tập mô phỏng các trường hợp thực tế.
- Sử dụng các công cụ và kỹ thuật khác nhau để phân tích dữ liệu lớn bằng PySpark.
Apache Spark MLlib
35 HoursMLlib là thư viện học máy (ML) của Spark. Mục tiêu của nó là làm cho việc học máy thực tế có thể mở rộng và dễ dàng. Nó bao gồm các thuật toán và tiện ích học tập phổ biến, bao gồm phân loại, hồi quy, phân cụm, lọc cộng tác, giảm chiều, cũng như các nguyên thủy tối ưu hóa cấp thấp và API pipeline cấp cao.
Nó được chia thành hai gói:
-
spark.mllib chứa API ban đầu được xây dựng trên RDD.
-
spark.ml cung cấp API cấp cao được xây dựng trên DataFrames để xây dựng pipeline ML.
Đối tượng
Khóa học này dành cho các kỹ sư và nhà phát triển muốn sử dụng Thư viện Máy học tích hợp cho Apache Spark