Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Đề cương khóa học
Mỗi buổi học kéo dài 2 giờ
Ngày 1: Buổi 1: Business Tổng quan về lý do Big Data trong Govt.
- Các nghiên cứu điển hình từ NIH, DoE
- Tốc độ thích ứng Big Data trong các cơ quan Govt. Và cách họ đang điều chỉnh hoạt động trong tương lai xung quanh Big Data Predictive Analytics
- Lĩnh vực ứng dụng rộng rãi trong DoD, NSA, IRS, USDA, v.v.
- Kết nối Big Data với dữ liệu cũ
- Hiểu biết cơ bản về các công nghệ hỗ trợ trong phân tích dự đoán
- Data Integration & Trực quan hóa Bảng điều khiển
- Quản lý gian lận
- Business Tạo quy tắc/ phát hiện gian lận
- Phát hiện và lập hồ sơ mối đe dọa
- Phân tích chi phí lợi ích cho việc triển khai Big Data
Ngày 1: Buổi 2: Giới thiệu về Big Data-1
- Các đặc điểm chính của Big Data - khối lượng, sự đa dạng, tốc độ và độ xác thực. Kiến trúc MPP cho khối lượng.
- Data Warehouse - lược đồ tĩnh, tập dữ liệu phát triển chậm
- MPP Database như Greenplum, Exadata, Teradata, Netezza, Vertica, v.v.
- Hadoop Giải pháp dựa trên - không có điều kiện về cấu trúc tập dữ liệu.
- Mẫu điển hình: HDFS, MapReduce (crunch), truy xuất từ HDFS
- Xử lý hàng loạt - phù hợp cho phân tích/không tương tác
- Khối lượng: Dữ liệu phát trực tuyến CEP
- Lựa chọn điển hình - các sản phẩm CEP (ví dụ: Infostreams, Apama, MarkLogic, v.v.)
- Chưa sẵn sàng để sản xuất - Storm/S4
- NoSQL Database - (cột và khóa-giá trị): Phù hợp nhất như một phần bổ sung phân tích cho kho dữ liệu/cơ sở dữ liệu
Ngày 1: Buổi 3: Giới thiệu về Big Data-2
NoSQL giải pháp
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Phân cấp) - GT.m, Cache
- KV Store (Được sắp xếp) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Database, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Sự đa dạng của dữ liệu: Giới thiệu về Data Cleaning vấn đề trong Big Data
- RDBMS - cấu trúc/lược đồ tĩnh, không thúc đẩy môi trường linh hoạt, khám phá.
- NoSQL - bán cấu trúc, đủ cấu trúc để lưu trữ dữ liệu mà không cần lược đồ chính xác trước khi lưu trữ dữ liệu
- Các vấn đề về làm sạch dữ liệu
Ngày 1: Buổi 4: Big Data Giới thiệu-3: Hadoop
- Khi nào nên chọn Hadoop?
- CẤU TRÚC - Kho dữ liệu/cơ sở dữ liệu doanh nghiệp có thể lưu trữ một lượng lớn dữ liệu (với chi phí) nhưng áp đặt cấu trúc (không tốt cho việc khám phá tích cực)
- DỮ LIỆU BÁN CẤU TRÚC - khó thực hiện với các giải pháp truyền thống (DW/DB)
- Lưu trữ dữ liệu = nỗ lực lớn và tĩnh ngay cả sau khi triển khai
- Để có sự đa dạng & khối lượng dữ liệu, được xử lý trên phần cứng thông thường - HADOOP
- Phần cứng thông thường cần thiết để tạo một cụm Hadoop
Giới thiệu về Map Reduce /HDFS
- MapReduce - phân phối tính toán trên nhiều máy chủ
- HDFS - làm cho dữ liệu có sẵn cục bộ cho quá trình tính toán (với tính dự phòng)
- Dữ liệu - có thể không có cấu trúc/không có lược đồ (không giống như RDBMS)
- Trách nhiệm của nhà phát triển là tạo ý nghĩa cho dữ liệu
- Programming MapReduce = làm việc với Java (ưu điểm/nhược điểm), tải dữ liệu thủ công vào HDFS
Ngày 2: Buổi 1: Big Data Hệ sinh thái - Xây dựng Big Data ETL: vũ trụ của Big Data Công cụ - nên sử dụng công cụ nào và khi nào?
- Hadoop so với các giải pháp NoSQL khác
- Để truy cập dữ liệu tương tác, ngẫu nhiên
- Hbase (cơ sở dữ liệu hướng cột) trên Hadoop
- Truy cập ngẫu nhiên vào dữ liệu nhưng có những hạn chế (tối đa 1 PB)
- Không tốt cho phân tích ad-hoc, tốt cho ghi nhật ký, đếm, chuỗi thời gian
- Sqoop - Nhập từ cơ sở dữ liệu vào Hive hoặc HDFS (truy cập JDBC/ODBC)
- Flume - Truyền dữ liệu (ví dụ: nhật ký) vào HDFS
Ngày 2: Buổi 2: Hệ thống Big Data Management
- Các bộ phận chuyển động, các nút tính toán bắt đầu/thất bại: ZooKeeper - Dịch vụ định cấu hình/điều phối/đặt tên
- Quy trình/dòng công việc phức tạp: Oozie - quản lý quy trình công việc, các phần phụ thuộc, chuỗi daisy
- Triển khai, định cấu hình, quản lý cụm, nâng cấp, v.v. (quản trị viên hệ thống): Ambari
- Trên Cloud: Whirr
Ngày 2: Buổi 3: Phân tích dự đoán trong Business Intelligence -1: Kỹ thuật cơ bản & BI dựa trên học máy:
- Giới thiệu về Học máy
- Học các kỹ thuật phân loại
- Dự đoán Bayesian - chuẩn bị tệp đào tạo
- Máy vectơ hỗ trợ
- KNN P-Tree Algebra & khai thác dọc
- Mạng nơ-ron
- Big Data vấn đề biến lớn - Rừng ngẫu nhiên (RF)
- Big Data Vấn đề tự động hóa - Tập hợp đa mô hình RF
- Tự động hóa thông qua Soft10-M
- Công cụ phân tích văn bản - Treeminer
- Agile học
- Học dựa trên tác nhân
- Học phân tán
- Giới thiệu về các công cụ mã nguồn mở để phân tích dự đoán: R, Rapidminer, Mahut
Ngày 2: Buổi 4: Hệ sinh thái phân tích dự đoán-2: Các vấn đề phân tích dự đoán phổ biến trong Govt.
- Phân tích thông tin chi tiết
- Phân tích trực quan
- Phân tích dự đoán có cấu trúc
- Phân tích dự đoán phi cấu trúc
- Lập hồ sơ nhà cung cấp/gian lận/mối đe dọa
- Công cụ đề xuất
- Phát hiện mẫu
- Khám phá quy tắc/kịch bản - thất bại, gian lận, tối ưu hóa
- Khám phá nguyên nhân gốc
- Phân tích tình cảm
- Phân tích CRM
- Phân tích mạng
- Phân tích văn bản
- Xem xét hỗ trợ công nghệ
- Phân tích gian lận
- Phân tích thời gian thực
Ngày 3: Buổi 1: Big Data Phân tích thời gian thực và có thể mở rộng trên Hadoop
- Tại sao các thuật toán phân tích phổ biến lại thất bại trên Hadoop/HDFS
- Apache Hama - cho tính toán đồng bộ phân tán
- Apache SPARK - cho tính toán cụm cho phân tích thời gian thực
- Phòng thí nghiệm đồ họa CMU2 - cách tiếp cận không đồng bộ dựa trên đồ thị để tính toán phân tán
- Cách tiếp cận dựa trên P-Algebra của KNN từ Treeminer để giảm chi phí phần cứng hoạt động
Ngày 3: Buổi 2: Công cụ eDiscovery và Pháp y
- eDiscovery trên Big Data so với dữ liệu cũ - so sánh chi phí và hiệu suất
- Mã hóa dự đoán và xem xét hỗ trợ công nghệ (TAR)
- Demo trực tiếp về sản phẩm Tar (vMiner) để hiểu cách TAR hoạt động để khám phá nhanh hơn
- Lập chỉ mục nhanh hơn thông qua HDFS - tốc độ dữ liệu
- Xử lý ngôn ngữ tự nhiên (NLP) - các kỹ thuật và sản phẩm mã nguồn mở khác nhau
- eDiscovery bằng các ngôn ngữ nước ngoài - công nghệ để xử lý ngôn ngữ nước ngoài
Ngày 3: Buổi 3: Big Data Phân tích trong xử lý hình ảnh và nguồn cấp video
- Kỹ thuật lưu trữ hình ảnh trong Big Data - Giải pháp lưu trữ cho dữ liệu vượt quá petabyte
- LTFS và LTO
- GPFS-LTFS (Giải pháp lưu trữ phân tầng cho dữ liệu hình ảnh lớn)
- Nguyên tắc cơ bản của phân tích hình ảnh
- Nhận dạng đối tượng
- Phân đoạn hình ảnh
- Theo dõi chuyển động
- Tái tạo hình ảnh 3D
Ngày 4: Buổi 4: Big Data ứng dụng tại NIH:
- Các lĩnh vực mới nổi của Bio - tin học
- Vấn đề metagenomics và khai thác Big Data
- Big Data Phân tích dự đoán cho Pharmacogenomics, Metabolomics và Proteomics
- Big Data trong quy trình Genomics hạ nguồn
- Ứng dụng của phân tích dữ liệu lớn dự đoán trong y tế công cộng
Big Data Bảng điều khiển để truy cập nhanh vào dữ liệu đa dạng và hiển thị:
- Tích hợp nền tảng ứng dụng hiện có với Big Data Bảng điều khiển
- Big Data quản lý
- Nghiên cứu điển hình về Big Data Bảng điều khiển: Tableau và Pentaho
- Sử dụng ứng dụng Big Data để đẩy các dịch vụ dựa trên vị trí tại Govt.
- Hệ thống theo dõi và quản lý
Ngày 5: Buổi 1: Cách biện minh cho việc triển khai Big Data BI trong một tổ chức:
- Xác định ROI cho việc triển khai Big Data
- Nghiên cứu điển hình về việc tiết kiệm thời gian cho nhà phân tích để thu thập và chuẩn bị dữ liệu - tăng năng suất
- Nghiên cứu điển hình về lợi nhuận thu được từ việc tiết kiệm chi phí cơ sở dữ liệu được cấp phép
- Lợi nhuận từ các dịch vụ dựa trên vị trí
- Tiết kiệm từ việc ngăn chặn gian lận
- Cách tiếp cận bảng tính tích hợp để tính toán chi phí gần đúng so với lợi nhuận/tiết kiệm từ việc triển khai Big Data.
Ngày 5: Buổi 2: Quy trình từng bước để thay thế hệ thống dữ liệu cũ bằng Hệ thống Big Data:
- Hiểu lộ trình di chuyển Big Data thực tế
- Những thông tin quan trọng cần thiết trước khi thiết kế việc triển khai Big Data
- Cách tính toán khối lượng, tốc độ, sự đa dạng và độ xác thực của dữ liệu
- Cách ước tính sự phát triển của dữ liệu
- Nghiên cứu điển hình
Ngày 5: Buổi 4: Đánh giá các nhà cung cấp Big Data và đánh giá sản phẩm của họ. Phiên hỏi đáp:
- Accenture
- APTEAN (Trước đây là CDC Software)
- Cisco Hệ thống
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Trước đây là 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Viện
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Phần mềm
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Một phần của EMC)
- Hadoop so với các giải pháp NoSQL khác
- Để truy cập dữ liệu tương tác, ngẫu nhiên
- Hbase (cơ sở dữ liệu hướng cột) trên Hadoop
- Truy cập ngẫu nhiên vào dữ liệu nhưng có những hạn chế (tối đa 1 PB)
- Không tốt cho phân tích ad-hoc, tốt cho ghi nhật ký, đếm, chuỗi thời gian
- Sqoop - Nhập từ cơ sở dữ liệu vào Hive hoặc HDFS (truy cập JDBC/ODBC)
- Flume - Truyền dữ liệu (ví dụ: nhật ký) vào HDFS
Ngày 2: Buổi 2: Hệ thống Big Data Management
- Các bộ phận chuyển động, các nút tính toán bắt đầu/thất bại: ZooKeeper - Dịch vụ định cấu hình/điều phối/đặt tên
- Quy trình/dòng công việc phức tạp: Oozie - quản lý quy trình công việc, các phần phụ thuộc, chuỗi daisy
- Triển khai, định cấu hình, quản lý cụm, nâng cấp, v.v. (quản trị viên hệ thống): Ambari
- Trên Cloud: Whirr
Ngày 2: Buổi 3: Phân tích dự đoán trong Business Intelligence -1: Kỹ thuật cơ bản & BI dựa trên học máy:
- Giới thiệu về Học máy
- Học các kỹ thuật phân loại
- Dự đoán Bayesian - chuẩn bị tệp đào tạo
- Máy vectơ hỗ trợ
- KNN P-Tree Algebra & khai thác dọc
- Mạng nơ-ron
- Big Data vấn đề biến lớn - Rừng ngẫu nhiên (RF)
- Big Data Vấn đề tự động hóa - Tập hợp đa mô hình RF
- Tự động hóa thông qua Soft10-M
- Công cụ phân tích văn bản - Treeminer
- Agile học
- Học dựa trên tác nhân
- Học phân tán
- Giới thiệu về các công cụ mã nguồn mở để phân tích dự đoán: R, Rapidminer, Mahut
Ngày 2: Buổi 4: Hệ sinh thái phân tích dự đoán-2: Các vấn đề phân tích dự đoán phổ biến trong Govt.
- Phân tích thông tin chi tiết
- Phân tích trực quan
- Phân tích dự đoán có cấu trúc
- Phân tích dự đoán phi cấu trúc
- Lập hồ sơ nhà cung cấp/gian lận/mối đe dọa
- Công cụ đề xuất
- Phát hiện mẫu
- Khám phá quy tắc/kịch bản - thất bại, gian lận, tối ưu hóa
- Khám phá nguyên nhân gốc
- Phân tích tình cảm
- Phân tích CRM
- Phân tích mạng
- Phân tích văn bản
- Xem xét hỗ trợ công nghệ
- Phân tích gian lận
- Phân tích thời gian thực
Ngày 3: Buổi 1: Big Data Phân tích thời gian thực và có thể mở rộng trên Hadoop
- Tại sao các thuật toán phân tích phổ biến lại thất bại trên Hadoop/HDFS
- Apache Hama - cho tính toán đồng bộ phân tán
- Apache SPARK - cho tính toán cụm cho phân tích thời gian thực
- Phòng thí nghiệm đồ họa CMU2 - cách tiếp cận không đồng bộ dựa trên đồ thị để tính toán phân tán
- Cách tiếp cận dựa trên P-Algebra của KNN từ Treeminer để giảm chi phí phần cứng hoạt động
Ngày 3: Buổi 2: Công cụ eDiscovery và Pháp y
- eDiscovery trên Big Data so với dữ liệu cũ - so sánh chi phí và hiệu suất
- Mã hóa dự đoán và xem xét hỗ trợ công nghệ (TAR)
- Demo trực tiếp về sản phẩm Tar (vMiner) để hiểu cách TAR hoạt động để khám phá nhanh hơn
- Lập chỉ mục nhanh hơn thông qua HDFS - tốc độ dữ liệu
- Xử lý ngôn ngữ tự nhiên (NLP) - các kỹ thuật và sản phẩm mã nguồn mở khác nhau
- eDiscovery bằng các ngôn ngữ nước ngoài - công nghệ để xử lý ngôn ngữ nước ngoài
Ngày 3: Buổi 3: Big Data Phân tích trong xử lý hình ảnh và nguồn cấp video
- Kỹ thuật lưu trữ hình ảnh trong Big Data - Giải pháp lưu trữ cho dữ liệu vượt quá petabyte
- LTFS và LTO
- GPFS-LTFS (Giải pháp lưu trữ phân tầng cho dữ liệu hình ảnh lớn)
- Nguyên tắc cơ bản của phân tích hình ảnh
- Nhận dạng đối tượng
- Phân đoạn hình ảnh
- Theo dõi chuyển động
- Tái tạo hình ảnh 3D
Ngày 4: Buổi 4: Big Data ứng dụng tại NIH:
- Các lĩnh vực mới nổi của Bio - tin học
- Vấn đề metagenomics và khai thác Big Data
- Big Data Phân tích dự đoán cho Pharmacogenomics, Metabolomics và Proteomics
- Big Data trong quy trình Genomics hạ nguồn
- Ứng dụng của phân tích dữ liệu lớn dự đoán trong y tế công cộng
Big Data Bảng điều khiển để truy cập nhanh vào dữ liệu đa dạng và hiển thị:
- Tích hợp nền tảng ứng dụng hiện có với Big Data Bảng điều khiển
- Big Data quản lý
- Nghiên cứu điển hình về Big Data Bảng điều khiển: Tableau và Pentaho
- Sử dụng ứng dụng Big Data để đẩy các dịch vụ dựa trên vị trí tại Govt.
- Hệ thống theo dõi và quản lý
Ngày 5: Buổi 1: Cách biện minh cho việc triển khai Big Data BI trong một tổ chức:
- Xác định ROI cho việc triển khai Big Data
- Nghiên cứu điển hình về việc tiết kiệm thời gian cho nhà phân tích để thu thập và chuẩn bị dữ liệu - tăng năng suất
- Nghiên cứu điển hình về lợi nhuận thu được từ việc tiết kiệm chi phí cơ sở dữ liệu được cấp phép
- Lợi nhuận từ các dịch vụ dựa trên vị trí
- Tiết kiệm từ việc ngăn chặn gian lận
- Cách tiếp cận bảng tính tích hợp để tính toán chi phí gần đúng so với lợi nhuận/tiết kiệm từ việc triển khai Big Data.
Ngày 5: Buổi 2: Quy trình từng bước để thay thế hệ thống dữ liệu cũ bằng Hệ thống Big Data:
- Hiểu lộ trình di chuyển Big Data thực tế
- Những thông tin quan trọng cần thiết trước khi thiết kế việc triển khai Big Data
- Cách tính toán khối lượng, tốc độ, sự đa dạng và độ xác thực của dữ liệu
- Cách ước tính sự phát triển của dữ liệu
- Nghiên cứu điển hình
Ngày 5: Buổi 4: Đánh giá các nhà cung cấp Big Data và đánh giá sản phẩm của họ. Phiên hỏi đáp:
- Accenture
- APTEAN (Trước đây là CDC Software)
- Cisco Hệ thống
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Trước đây là 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Viện
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Phần mềm
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Một phần của EMC)
- Giới thiệu về Học máy
- Học các kỹ thuật phân loại
- Dự đoán Bayesian - chuẩn bị tệp đào tạo
- Máy vectơ hỗ trợ
- KNN P-Tree Algebra & khai thác dọc
- Mạng nơ-ron
- Big Data vấn đề biến lớn - Rừng ngẫu nhiên (RF)
- Big Data Vấn đề tự động hóa - Tập hợp đa mô hình RF
- Tự động hóa thông qua Soft10-M
- Công cụ phân tích văn bản - Treeminer
- Agile học
- Học dựa trên tác nhân
- Học phân tán
- Giới thiệu về các công cụ mã nguồn mở để phân tích dự đoán: R, Rapidminer, Mahut
Ngày 2: Buổi 4: Hệ sinh thái phân tích dự đoán-2: Các vấn đề phân tích dự đoán phổ biến trong Govt.
- Phân tích thông tin chi tiết
- Phân tích trực quan
- Phân tích dự đoán có cấu trúc
- Phân tích dự đoán phi cấu trúc
- Lập hồ sơ nhà cung cấp/gian lận/mối đe dọa
- Công cụ đề xuất
- Phát hiện mẫu
- Khám phá quy tắc/kịch bản - thất bại, gian lận, tối ưu hóa
- Khám phá nguyên nhân gốc
- Phân tích tình cảm
- Phân tích CRM
- Phân tích mạng
- Phân tích văn bản
- Xem xét hỗ trợ công nghệ
- Phân tích gian lận
- Phân tích thời gian thực
Ngày 3: Buổi 1: Big Data Phân tích thời gian thực và có thể mở rộng trên Hadoop
- Tại sao các thuật toán phân tích phổ biến lại thất bại trên Hadoop/HDFS
- Apache Hama - cho tính toán đồng bộ phân tán
- Apache SPARK - cho tính toán cụm cho phân tích thời gian thực
- Phòng thí nghiệm đồ họa CMU2 - cách tiếp cận không đồng bộ dựa trên đồ thị để tính toán phân tán
- Cách tiếp cận dựa trên P-Algebra của KNN từ Treeminer để giảm chi phí phần cứng hoạt động
Ngày 3: Buổi 2: Công cụ eDiscovery và Pháp y
- eDiscovery trên Big Data so với dữ liệu cũ - so sánh chi phí và hiệu suất
- Mã hóa dự đoán và xem xét hỗ trợ công nghệ (TAR)
- Demo trực tiếp về sản phẩm Tar (vMiner) để hiểu cách TAR hoạt động để khám phá nhanh hơn
- Lập chỉ mục nhanh hơn thông qua HDFS - tốc độ dữ liệu
- Xử lý ngôn ngữ tự nhiên (NLP) - các kỹ thuật và sản phẩm mã nguồn mở khác nhau
- eDiscovery bằng các ngôn ngữ nước ngoài - công nghệ để xử lý ngôn ngữ nước ngoài
Ngày 3: Buổi 3: Big Data Phân tích trong xử lý hình ảnh và nguồn cấp video
- Kỹ thuật lưu trữ hình ảnh trong Big Data - Giải pháp lưu trữ cho dữ liệu vượt quá petabyte
- LTFS và LTO
- GPFS-LTFS (Giải pháp lưu trữ phân tầng cho dữ liệu hình ảnh lớn)
- Nguyên tắc cơ bản của phân tích hình ảnh
- Nhận dạng đối tượng
- Phân đoạn hình ảnh
- Theo dõi chuyển động
- Tái tạo hình ảnh 3D
Ngày 4: Buổi 4: Big Data ứng dụng tại NIH:
- Các lĩnh vực mới nổi của Bio - tin học
- Vấn đề metagenomics và khai thác Big Data
- Big Data Phân tích dự đoán cho Pharmacogenomics, Metabolomics và Proteomics
- Big Data trong quy trình Genomics hạ nguồn
- Ứng dụng của phân tích dữ liệu lớn dự đoán trong y tế công cộng
Big Data Bảng điều khiển để truy cập nhanh vào dữ liệu đa dạng và hiển thị:
- Tích hợp nền tảng ứng dụng hiện có với Big Data Bảng điều khiển
- Big Data quản lý
- Nghiên cứu điển hình về Big Data Bảng điều khiển: Tableau và Pentaho
- Sử dụng ứng dụng Big Data để đẩy các dịch vụ dựa trên vị trí tại Govt.
- Hệ thống theo dõi và quản lý
Ngày 5: Buổi 1: Cách biện minh cho việc triển khai Big Data BI trong một tổ chức:
- Xác định ROI cho việc triển khai Big Data
- Nghiên cứu điển hình về việc tiết kiệm thời gian cho nhà phân tích để thu thập và chuẩn bị dữ liệu - tăng năng suất
- Nghiên cứu điển hình về lợi nhuận thu được từ việc tiết kiệm chi phí cơ sở dữ liệu được cấp phép
- Lợi nhuận từ các dịch vụ dựa trên vị trí
- Tiết kiệm từ việc ngăn chặn gian lận
- Cách tiếp cận bảng tính tích hợp để tính toán chi phí gần đúng so với lợi nhuận/tiết kiệm từ việc triển khai Big Data.
Ngày 5: Buổi 2: Quy trình từng bước để thay thế hệ thống dữ liệu cũ bằng Hệ thống Big Data:
- Hiểu lộ trình di chuyển Big Data thực tế
- Những thông tin quan trọng cần thiết trước khi thiết kế việc triển khai Big Data
- Cách tính toán khối lượng, tốc độ, sự đa dạng và độ xác thực của dữ liệu
- Cách ước tính sự phát triển của dữ liệu
- Nghiên cứu điển hình
Ngày 5: Buổi 4: Đánh giá các nhà cung cấp Big Data và đánh giá sản phẩm của họ. Phiên hỏi đáp:
- Accenture
- APTEAN (Trước đây là CDC Software)
- Cisco Hệ thống
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Trước đây là 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Viện
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Phần mềm
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Một phần của EMC)
- Tại sao các thuật toán phân tích phổ biến lại thất bại trên Hadoop/HDFS
- Apache Hama - cho tính toán đồng bộ phân tán
- Apache SPARK - cho tính toán cụm cho phân tích thời gian thực
- Phòng thí nghiệm đồ họa CMU2 - cách tiếp cận không đồng bộ dựa trên đồ thị để tính toán phân tán
- Cách tiếp cận dựa trên P-Algebra của KNN từ Treeminer để giảm chi phí phần cứng hoạt động
Ngày 3: Buổi 2: Công cụ eDiscovery và Pháp y
- eDiscovery trên Big Data so với dữ liệu cũ - so sánh chi phí và hiệu suất
- Mã hóa dự đoán và xem xét hỗ trợ công nghệ (TAR)
- Demo trực tiếp về sản phẩm Tar (vMiner) để hiểu cách TAR hoạt động để khám phá nhanh hơn
- Lập chỉ mục nhanh hơn thông qua HDFS - tốc độ dữ liệu
- Xử lý ngôn ngữ tự nhiên (NLP) - các kỹ thuật và sản phẩm mã nguồn mở khác nhau
- eDiscovery bằng các ngôn ngữ nước ngoài - công nghệ để xử lý ngôn ngữ nước ngoài
Ngày 3: Buổi 3: Big Data Phân tích trong xử lý hình ảnh và nguồn cấp video
- Kỹ thuật lưu trữ hình ảnh trong Big Data - Giải pháp lưu trữ cho dữ liệu vượt quá petabyte
- LTFS và LTO
- GPFS-LTFS (Giải pháp lưu trữ phân tầng cho dữ liệu hình ảnh lớn)
- Nguyên tắc cơ bản của phân tích hình ảnh
- Nhận dạng đối tượng
- Phân đoạn hình ảnh
- Theo dõi chuyển động
- Tái tạo hình ảnh 3D
Ngày 4: Buổi 4: Big Data ứng dụng tại NIH:
- Các lĩnh vực mới nổi của Bio - tin học
- Vấn đề metagenomics và khai thác Big Data
- Big Data Phân tích dự đoán cho Pharmacogenomics, Metabolomics và Proteomics
- Big Data trong quy trình Genomics hạ nguồn
- Ứng dụng của phân tích dữ liệu lớn dự đoán trong y tế công cộng
Big Data Bảng điều khiển để truy cập nhanh vào dữ liệu đa dạng và hiển thị:
- Tích hợp nền tảng ứng dụng hiện có với Big Data Bảng điều khiển
- Big Data quản lý
- Nghiên cứu điển hình về Big Data Bảng điều khiển: Tableau và Pentaho
- Sử dụng ứng dụng Big Data để đẩy các dịch vụ dựa trên vị trí tại Govt.
- Hệ thống theo dõi và quản lý
Ngày 5: Buổi 1: Cách biện minh cho việc triển khai Big Data BI trong một tổ chức:
- Xác định ROI cho việc triển khai Big Data
- Nghiên cứu điển hình về việc tiết kiệm thời gian cho nhà phân tích để thu thập và chuẩn bị dữ liệu - tăng năng suất
- Nghiên cứu điển hình về lợi nhuận thu được từ việc tiết kiệm chi phí cơ sở dữ liệu được cấp phép
- Lợi nhuận từ các dịch vụ dựa trên vị trí
- Tiết kiệm từ việc ngăn chặn gian lận
- Cách tiếp cận bảng tính tích hợp để tính toán chi phí gần đúng so với lợi nhuận/tiết kiệm từ việc triển khai Big Data.
Ngày 5: Buổi 2: Quy trình từng bước để thay thế hệ thống dữ liệu cũ bằng Hệ thống Big Data:
- Hiểu lộ trình di chuyển Big Data thực tế
- Những thông tin quan trọng cần thiết trước khi thiết kế việc triển khai Big Data
- Cách tính toán khối lượng, tốc độ, sự đa dạng và độ xác thực của dữ liệu
- Cách ước tính sự phát triển của dữ liệu
- Nghiên cứu điển hình
Ngày 5: Buổi 4: Đánh giá các nhà cung cấp Big Data và đánh giá sản phẩm của họ. Phiên hỏi đáp:
- Accenture
- APTEAN (Trước đây là CDC Software)
- Cisco Hệ thống
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Trước đây là 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Viện
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Phần mềm
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Một phần của EMC)
- Kỹ thuật lưu trữ hình ảnh trong Big Data - Giải pháp lưu trữ cho dữ liệu vượt quá petabyte
- LTFS và LTO
- GPFS-LTFS (Giải pháp lưu trữ phân tầng cho dữ liệu hình ảnh lớn)
- Nguyên tắc cơ bản của phân tích hình ảnh
- Nhận dạng đối tượng
- Phân đoạn hình ảnh
- Theo dõi chuyển động
- Tái tạo hình ảnh 3D
Ngày 4: Buổi 4: Big Data ứng dụng tại NIH:
- Các lĩnh vực mới nổi của Bio - tin học
- Vấn đề metagenomics và khai thác Big Data
- Big Data Phân tích dự đoán cho Pharmacogenomics, Metabolomics và Proteomics
- Big Data trong quy trình Genomics hạ nguồn
- Ứng dụng của phân tích dữ liệu lớn dự đoán trong y tế công cộng
Big Data Bảng điều khiển để truy cập nhanh vào dữ liệu đa dạng và hiển thị:
- Tích hợp nền tảng ứng dụng hiện có với Big Data Bảng điều khiển
- Big Data quản lý
- Nghiên cứu điển hình về Big Data Bảng điều khiển: Tableau và Pentaho
- Sử dụng ứng dụng Big Data để đẩy các dịch vụ dựa trên vị trí tại Govt.
- Hệ thống theo dõi và quản lý
Ngày 5: Buổi 1: Cách biện minh cho việc triển khai Big Data BI trong một tổ chức:
- Xác định ROI cho việc triển khai Big Data
- Nghiên cứu điển hình về việc tiết kiệm thời gian cho nhà phân tích để thu thập và chuẩn bị dữ liệu - tăng năng suất
- Nghiên cứu điển hình về lợi nhuận thu được từ việc tiết kiệm chi phí cơ sở dữ liệu được cấp phép
- Lợi nhuận từ các dịch vụ dựa trên vị trí
- Tiết kiệm từ việc ngăn chặn gian lận
- Cách tiếp cận bảng tính tích hợp để tính toán chi phí gần đúng so với lợi nhuận/tiết kiệm từ việc triển khai Big Data.
Ngày 5: Buổi 2: Quy trình từng bước để thay thế hệ thống dữ liệu cũ bằng Hệ thống Big Data:
- Hiểu lộ trình di chuyển Big Data thực tế
- Những thông tin quan trọng cần thiết trước khi thiết kế việc triển khai Big Data
- Cách tính toán khối lượng, tốc độ, sự đa dạng và độ xác thực của dữ liệu
- Cách ước tính sự phát triển của dữ liệu
- Nghiên cứu điển hình
Ngày 5: Buổi 4: Đánh giá các nhà cung cấp Big Data và đánh giá sản phẩm của họ. Phiên hỏi đáp:
- Accenture
- APTEAN (Trước đây là CDC Software)
- Cisco Hệ thống
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Trước đây là 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Viện
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Phần mềm
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Một phần của EMC)
- Xác định ROI cho việc triển khai Big Data
- Nghiên cứu điển hình về việc tiết kiệm thời gian cho nhà phân tích để thu thập và chuẩn bị dữ liệu - tăng năng suất
- Nghiên cứu điển hình về lợi nhuận thu được từ việc tiết kiệm chi phí cơ sở dữ liệu được cấp phép
- Lợi nhuận từ các dịch vụ dựa trên vị trí
- Tiết kiệm từ việc ngăn chặn gian lận
- Cách tiếp cận bảng tính tích hợp để tính toán chi phí gần đúng so với lợi nhuận/tiết kiệm từ việc triển khai Big Data.
Ngày 5: Buổi 2: Quy trình từng bước để thay thế hệ thống dữ liệu cũ bằng Hệ thống Big Data:
- Hiểu lộ trình di chuyển Big Data thực tế
- Những thông tin quan trọng cần thiết trước khi thiết kế việc triển khai Big Data
- Cách tính toán khối lượng, tốc độ, sự đa dạng và độ xác thực của dữ liệu
- Cách ước tính sự phát triển của dữ liệu
- Nghiên cứu điển hình
Ngày 5: Buổi 4: Đánh giá các nhà cung cấp Big Data và đánh giá sản phẩm của họ. Phiên hỏi đáp:
- Accenture
- APTEAN (Trước đây là CDC Software)
- Cisco Hệ thống
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Trước đây là 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Viện
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Phần mềm
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Một phần của EMC)
- Accenture
- APTEAN (Trước đây là CDC Software)
- Cisco Hệ thống
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Trước đây là 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Viện
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Phần mềm
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Một phần của EMC)
Requirements
- Kiến thức cơ bản về vận hành doanh nghiệp và hệ thống dữ liệu trong Govt. thuộc lĩnh vực của họ
- Hiểu biết cơ bản về SQL/Oracle hoặc cơ sở dữ liệu quan hệ
- Hiểu biết cơ bản về Statistics (ở cấp độ Bảng tính)
35 Hours
Testimonials (1)
The ability of the trainer to align the course with the requirements of the organization other than just providing the course for the sake of delivering it.