Đề cương khóa học

Mỗi buổi học kéo dài 2 giờ

Ngày 1: Buổi 1: Business Tổng quan về lý do Big Data trong Govt.

  • Các nghiên cứu điển hình từ NIH, DoE
  • Tốc độ thích ứng Big Data trong các cơ quan Govt. Và cách họ đang điều chỉnh hoạt động trong tương lai xung quanh Big Data Predictive Analytics
  • Lĩnh vực ứng dụng rộng rãi trong DoD, NSA, IRS, USDA, v.v.
  • Kết nối Big Data với dữ liệu cũ
  • Hiểu biết cơ bản về các công nghệ hỗ trợ trong phân tích dự đoán
  • Data Integration & Trực quan hóa Bảng điều khiển
  • Quản lý gian lận
  • Business Tạo quy tắc/ phát hiện gian lận
  • Phát hiện và lập hồ sơ mối đe dọa
  • Phân tích chi phí lợi ích cho việc triển khai Big Data

Ngày 1: Buổi 2: Giới thiệu về Big Data-1

  • Các đặc điểm chính của Big Data - khối lượng, sự đa dạng, tốc độ và độ xác thực. Kiến trúc MPP cho khối lượng.
  • Data Warehouse - lược đồ tĩnh, tập dữ liệu phát triển chậm
  • MPP Database như Greenplum, Exadata, Teradata, Netezza, Vertica, v.v.
  • Hadoop Giải pháp dựa trên - không có điều kiện về cấu trúc tập dữ liệu.
  • Mẫu điển hình: HDFS, MapReduce (crunch), truy xuất từ HDFS
  • Xử lý hàng loạt - phù hợp cho phân tích/không tương tác
  • Khối lượng: Dữ liệu phát trực tuyến CEP
  • Lựa chọn điển hình - các sản phẩm CEP (ví dụ: Infostreams, Apama, MarkLogic, v.v.)
  • Chưa sẵn sàng để sản xuất - Storm/S4
  • NoSQL Database - (cột và khóa-giá trị): Phù hợp nhất như một phần bổ sung phân tích cho kho dữ liệu/cơ sở dữ liệu

Ngày 1: Buổi 3: Giới thiệu về Big Data-2

NoSQL giải pháp

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Phân cấp) - GT.m, Cache
  • KV Store (Được sắp xếp) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Database, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Sự đa dạng của dữ liệu: Giới thiệu về Data Cleaning vấn đề trong Big Data

  • RDBMS - cấu trúc/lược đồ tĩnh, không thúc đẩy môi trường linh hoạt, khám phá.
  • NoSQL - bán cấu trúc, đủ cấu trúc để lưu trữ dữ liệu mà không cần lược đồ chính xác trước khi lưu trữ dữ liệu
  • Các vấn đề về làm sạch dữ liệu

Ngày 1: Buổi 4: Big Data Giới thiệu-3: Hadoop

  • Khi nào nên chọn Hadoop?
  • CẤU TRÚC - Kho dữ liệu/cơ sở dữ liệu doanh nghiệp có thể lưu trữ một lượng lớn dữ liệu (với chi phí) nhưng áp đặt cấu trúc (không tốt cho việc khám phá tích cực)
  • DỮ LIỆU BÁN CẤU TRÚC - khó thực hiện với các giải pháp truyền thống (DW/DB)
  • Lưu trữ dữ liệu = nỗ lực lớn và tĩnh ngay cả sau khi triển khai
  • Để có sự đa dạng & khối lượng dữ liệu, được xử lý trên phần cứng thông thường - HADOOP
  • Phần cứng thông thường cần thiết để tạo một cụm Hadoop

Giới thiệu về Map Reduce /HDFS

  • MapReduce - phân phối tính toán trên nhiều máy chủ
  • HDFS - làm cho dữ liệu có sẵn cục bộ cho quá trình tính toán (với tính dự phòng)
  • Dữ liệu - có thể không có cấu trúc/không có lược đồ (không giống như RDBMS)
  • Trách nhiệm của nhà phát triển là tạo ý nghĩa cho dữ liệu
  • Programming MapReduce = làm việc với Java (ưu điểm/nhược điểm), tải dữ liệu thủ công vào HDFS

Ngày 2: Buổi 1: Big Data Hệ sinh thái - Xây dựng Big Data ETL: vũ trụ của Big Data Công cụ - nên sử dụng công cụ nào và khi nào?

  • Hadoop so với các giải pháp NoSQL khác
  • Để truy cập dữ liệu tương tác, ngẫu nhiên
  • Hbase (cơ sở dữ liệu hướng cột) trên Hadoop
  • Truy cập ngẫu nhiên vào dữ liệu nhưng có những hạn chế (tối đa 1 PB)
  • Không tốt cho phân tích ad-hoc, tốt cho ghi nhật ký, đếm, chuỗi thời gian
  • Sqoop - Nhập từ cơ sở dữ liệu vào Hive hoặc HDFS (truy cập JDBC/ODBC)
  • Flume - Truyền dữ liệu (ví dụ: nhật ký) vào HDFS

Ngày 2: Buổi 2: Hệ thống Big Data Management

  • Các bộ phận chuyển động, các nút tính toán bắt đầu/thất bại: ZooKeeper - Dịch vụ định cấu hình/điều phối/đặt tên
  • Quy trình/dòng công việc phức tạp: Oozie - quản lý quy trình công việc, các phần phụ thuộc, chuỗi daisy
  • Triển khai, định cấu hình, quản lý cụm, nâng cấp, v.v. (quản trị viên hệ thống): Ambari
  • Trên Cloud: Whirr

Ngày 2: Buổi 3: Phân tích dự đoán trong Business Intelligence -1: Kỹ thuật cơ bản & BI dựa trên học máy:

  • Giới thiệu về Học máy
  • Học các kỹ thuật phân loại
  • Dự đoán Bayesian - chuẩn bị tệp đào tạo
  • Máy vectơ hỗ trợ
  • KNN P-Tree Algebra & khai thác dọc
  • Mạng nơ-ron
  • Big Data vấn đề biến lớn - Rừng ngẫu nhiên (RF)
  • Big Data Vấn đề tự động hóa - Tập hợp đa mô hình RF
  • Tự động hóa thông qua Soft10-M
  • Công cụ phân tích văn bản - Treeminer
  • Agile học
  • Học dựa trên tác nhân
  • Học phân tán
  • Giới thiệu về các công cụ mã nguồn mở để phân tích dự đoán: R, Rapidminer, Mahut

Ngày 2: Buổi 4: Hệ sinh thái phân tích dự đoán-2: Các vấn đề phân tích dự đoán phổ biến trong Govt.

  • Phân tích thông tin chi tiết
  • Phân tích trực quan
  • Phân tích dự đoán có cấu trúc
  • Phân tích dự đoán phi cấu trúc
  • Lập hồ sơ nhà cung cấp/gian lận/mối đe dọa
  • Công cụ đề xuất
  • Phát hiện mẫu
  • Khám phá quy tắc/kịch bản - thất bại, gian lận, tối ưu hóa
  • Khám phá nguyên nhân gốc
  • Phân tích tình cảm
  • Phân tích CRM
  • Phân tích mạng
  • Phân tích văn bản
  • Xem xét hỗ trợ công nghệ
  • Phân tích gian lận
  • Phân tích thời gian thực

Ngày 3: Buổi 1: Big Data Phân tích thời gian thực và có thể mở rộng trên Hadoop

  • Tại sao các thuật toán phân tích phổ biến lại thất bại trên Hadoop/HDFS
  • Apache Hama - cho tính toán đồng bộ phân tán
  • Apache SPARK - cho tính toán cụm cho phân tích thời gian thực
  • Phòng thí nghiệm đồ họa CMU2 - cách tiếp cận không đồng bộ dựa trên đồ thị để tính toán phân tán
  • Cách tiếp cận dựa trên P-Algebra của KNN từ Treeminer để giảm chi phí phần cứng hoạt động

Ngày 3: Buổi 2: Công cụ eDiscovery và Pháp y

  • eDiscovery trên Big Data so với dữ liệu cũ - so sánh chi phí và hiệu suất
  • Mã hóa dự đoán và xem xét hỗ trợ công nghệ (TAR)
  • Demo trực tiếp về sản phẩm Tar (vMiner) để hiểu cách TAR hoạt động để khám phá nhanh hơn
  • Lập chỉ mục nhanh hơn thông qua HDFS - tốc độ dữ liệu
  • Xử lý ngôn ngữ tự nhiên (NLP) - các kỹ thuật và sản phẩm mã nguồn mở khác nhau
  • eDiscovery bằng các ngôn ngữ nước ngoài - công nghệ để xử lý ngôn ngữ nước ngoài

Ngày 3: Buổi 3: Big Data Phân tích trong xử lý hình ảnh và nguồn cấp video

  • Kỹ thuật lưu trữ hình ảnh trong Big Data - Giải pháp lưu trữ cho dữ liệu vượt quá petabyte
  • LTFS và LTO
  • GPFS-LTFS (Giải pháp lưu trữ phân tầng cho dữ liệu hình ảnh lớn)
  • Nguyên tắc cơ bản của phân tích hình ảnh
  • Nhận dạng đối tượng
  • Phân đoạn hình ảnh
  • Theo dõi chuyển động
  • Tái tạo hình ảnh 3D

Ngày 4: Buổi 4: Big Data ứng dụng tại NIH:

  • Các lĩnh vực mới nổi của Bio - tin học
  • Vấn đề metagenomics và khai thác Big Data
  • Big Data Phân tích dự đoán cho Pharmacogenomics, Metabolomics và Proteomics
  • Big Data trong quy trình Genomics hạ nguồn
  • Ứng dụng của phân tích dữ liệu lớn dự đoán trong y tế công cộng

Big Data Bảng điều khiển để truy cập nhanh vào dữ liệu đa dạng và hiển thị:

  • Tích hợp nền tảng ứng dụng hiện có với Big Data Bảng điều khiển
  • Big Data quản lý
  • Nghiên cứu điển hình về Big Data Bảng điều khiển: Tableau và Pentaho
  • Sử dụng ứng dụng Big Data để đẩy các dịch vụ dựa trên vị trí tại Govt.
  • Hệ thống theo dõi và quản lý

Ngày 5: Buổi 1: Cách biện minh cho việc triển khai Big Data BI trong một tổ chức:

  • Xác định ROI cho việc triển khai Big Data
  • Nghiên cứu điển hình về việc tiết kiệm thời gian cho nhà phân tích để thu thập và chuẩn bị dữ liệu - tăng năng suất
  • Nghiên cứu điển hình về lợi nhuận thu được từ việc tiết kiệm chi phí cơ sở dữ liệu được cấp phép
  • Lợi nhuận từ các dịch vụ dựa trên vị trí
  • Tiết kiệm từ việc ngăn chặn gian lận
  • Cách tiếp cận bảng tính tích hợp để tính toán chi phí gần đúng so với lợi nhuận/tiết kiệm từ việc triển khai Big Data.

Ngày 5: Buổi 2: Quy trình từng bước để thay thế hệ thống dữ liệu cũ bằng Hệ thống Big Data:

  • Hiểu lộ trình di chuyển Big Data thực tế
  • Những thông tin quan trọng cần thiết trước khi thiết kế việc triển khai Big Data
  • Cách tính toán khối lượng, tốc độ, sự đa dạng và độ xác thực của dữ liệu
  • Cách ước tính sự phát triển của dữ liệu
  • Nghiên cứu điển hình

Ngày 5: Buổi 4: Đánh giá các nhà cung cấp Big Data và đánh giá sản phẩm của họ. Phiên hỏi đáp:

  • Accenture
  • APTEAN (Trước đây là CDC Software)
  • Cisco Hệ thống
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Trước đây là 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Viện
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Phần mềm
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Một phần của EMC)

Requirements

  • Kiến thức cơ bản về vận hành doanh nghiệp và hệ thống dữ liệu trong Govt. thuộc lĩnh vực của họ
  • Hiểu biết cơ bản về SQL/Oracle hoặc cơ sở dữ liệu quan hệ
  • Hiểu biết cơ bản về Statistics (ở cấp độ Bảng tính)
 35 Hours

Number of participants


Price per participant

Testimonials (1)

Provisional Upcoming Courses (Require 5+ participants)

Related Categories