Đề cương khóa học
Ngày 01
Tổng quan về Big Data Business Intelligence để Phân tích tình báo tội phạm
- Các nghiên cứu tình huống từ cơ quan thực thi pháp luật - Cảnh sát dự đoán
- Big Data tỷ lệ áp dụng trong các Cơ quan thực thi pháp luật và cách họ sắp xếp hoạt động tương lai của mình xung quanh Big Data Predictive Analytics
- Các giải pháp công nghệ mới nổi như cảm biến phát súng, video giám sát và phương tiện truyền thông xã hội
- Sử dụng công nghệ Big Data để giảm thiểu tình trạng quá tải thông tin
- Giao diện Big Data với dữ liệu Legacy
- Hiểu biết cơ bản về các công nghệ hỗ trợ trong phân tích dự đoán
- Data Integration & Hình ảnh bảng điều khiển
- Quản lý gian lận
- Business Rules và Phát hiện gian lận
- Phát hiện và lập hồ sơ mối đe dọa
- Phân tích chi phí lợi ích cho việc thực hiện Big Data
Giới thiệu về Big Data
- Các đặc điểm chính của Big Data -- Khối lượng, Sự đa dạng, Tốc độ và Độ tin cậy.
- Kiến trúc MPP (Xử lý song song hàng loạt)
- Data Warehouses – lược đồ tĩnh, tập dữ liệu phát triển chậm
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica, v.v.
- Hadoop Các giải pháp dựa trên – không có điều kiện về cấu trúc của tập dữ liệu.
- Mẫu điển hình: HDFS, MapReduce (crunch), lấy từ HDFS
- Apache Spark để xử lý luồng
- Lô- thích hợp cho phân tích/không tương tác
- Khối lượng: Dữ liệu phát trực tuyến CEP
- Lựa chọn tiêu biểu – Sản phẩm CEP (ví dụ Infostreams, Apama, MarkLogic, v.v.)
- Chưa sẵn sàng sản xuất – Storm/S4
- NoSQL Databases – (cột và khóa-giá trị): Phù hợp nhất làm phần bổ trợ phân tích cho kho dữ liệu/cơ sở dữ liệu
NoSQL giải pháp
- Cửa hàng KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Cửa hàng KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Phân cấp) - GT.m, Bộ nhớ đệm
- Cửa hàng KV (Đã đặt hàng) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Bộ nhớ đệm KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossBộ nhớ đệm, Velocity, Terracoqua
- Cửa hàng Tuple - Gigaspaces, Coord, Apache River
- Đối tượng Database - ZopeDB, DB40, Shoal
- Kho lưu trữ tài liệu - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Cửa hàng cột rộng - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Các loại dữ liệu: Giới thiệu về các vấn đề Data Cleaning trong Big Data
- RDBMS – cấu trúc/sơ đồ tĩnh, không thúc đẩy môi trường khám phá, nhanh nhẹn.
- NoSQL – bán cấu trúc, đủ cấu trúc để lưu trữ dữ liệu mà không cần lược đồ chính xác trước khi lưu trữ dữ liệu
- Các vấn đề về dọn dẹp dữ liệu
Hadoop
- Khi nào chọn Hadoop?
- CÓ CẤU TRÚC - Kho dữ liệu/cơ sở dữ liệu doanh nghiệp có thể lưu trữ dữ liệu lớn (có tính phí) nhưng áp đặt cấu trúc (không tốt cho việc khám phá chủ động)
- Dữ liệu BÁN CẤU TRÚC – khó thực hiện bằng các giải pháp truyền thống (DW/DB)
- Lưu trữ dữ liệu = Nỗ lực LỚN và tĩnh ngay cả sau khi triển khai
- Đối với sự đa dạng và khối lượng dữ liệu, được xử lý trên phần cứng thông dụng – HADOOP
- Hàng hóa H/W cần thiết để tạo ra một cụm Hadoop
Giới thiệu về Map Reduce /HDFS
- MapReduce – phân phối điện toán trên nhiều máy chủ
- HDFS – cung cấp dữ liệu cục bộ cho quá trình tính toán (có dự phòng)
- Dữ liệu – có thể không có cấu trúc/không có lược đồ (không giống như RDBMS)
- Trách nhiệm của nhà phát triển là làm cho dữ liệu có ý nghĩa
- Programming MapReduce = làm việc với Java (ưu/nhược điểm), tải dữ liệu thủ công vào HDFS
Ngày 02
Big Data Hệ sinh thái -- Xây dựng Big Data ETL (Trích xuất, Chuyển đổi, Tải) -- Công cụ nào Big Data nên sử dụng và khi nào?
- Hadoop so với Các giải pháp khác NoSQL
- Để truy cập dữ liệu tương tác, ngẫu nhiên
- Hbase (cơ sở dữ liệu hướng cột) trên đầu trang của Hadoop
- Truy cập ngẫu nhiên vào dữ liệu nhưng bị hạn chế (tối đa 1 PB)
- Không tốt cho phân tích ad-hoc, tốt cho việc ghi nhật ký, đếm, chuỗi thời gian
- Sqoop - Nhập từ cơ sở dữ liệu vào Hive hoặc HDFS (truy cập JDBC/ODBC)
- Flume – Truyền dữ liệu (ví dụ dữ liệu nhật ký) vào HDFS
Hệ thống lớn Data Management
- Các bộ phận chuyển động, các nút tính toán bắt đầu/thất bại: ZooKeeper - Dành cho các dịch vụ cấu hình/phối hợp/đặt tên
- Đường ống/quy trình làm việc phức tạp: Oozie – quản lý quy trình làm việc, các phụ thuộc, chuỗi liên kết
- Triển khai, cấu hình, quản lý cụm, nâng cấp, v.v. (quản trị hệ thống): Ambari
- Trong Đám Mây: Whirr
Predictive Analytics -- Kỹ thuật cơ bản và Machine Learning dựa trên Business Intelligence
- Giới thiệu về Machine Learning
- Học kỹ thuật phân loại
- Dự đoán Bayesian -- chuẩn bị một tập tin đào tạo
- Máy hỗ trợ vector
- KNN p-Tree Algebra & khai thác theo chiều dọc
- Neural Networks
- Big Data vấn đề biến lớn -- Rừng ngẫu nhiên (RF)
- Big Data Vấn đề tự động hóa – RF tổng hợp đa mô hình
- Tự động hóa thông qua Soft10-M
- Công cụ phân tích văn bản-Treeminer
- Agile học tập
- Học tập dựa trên tác nhân
- Học tập phân tán
- Giới thiệu về Công cụ nguồn mở cho phân tích dự đoán: R, Python, Rapidminer, Mahut
Predictive Analytics Hệ sinh thái và ứng dụng của nó trong Phân tích tình báo tội phạm
- Công nghệ và quá trình điều tra
- Phân tích thông tin chi tiết
- Phân tích trực quan
- Phân tích dự đoán có cấu trúc
- Phân tích dự đoán phi cấu trúc
- Hồ sơ đe dọa/gian lận/nhà cung cấp
- Công cụ đề xuất
- Phát hiện mẫu
- Khám phá quy tắc/kịch bản – thất bại, gian lận, tối ưu hóa
- Phát hiện nguyên nhân gốc rễ
- Phân tích tình cảm
- Phân tích CRM
- Phân tích mạng
- Phân tích văn bản để thu thập thông tin chi tiết từ bản ghi chép, lời khai của nhân chứng, thảo luận trên internet, v.v.
- Đánh giá hỗ trợ công nghệ
- Phân tích gian lận
- Phân tích thời gian thực
Ngày 03
Phân tích thời gian thực và Scalable trên Hadoop
- Tại sao các thuật toán phân tích phổ biến lại thất bại trong Hadoop/HDFS
- Apache Hama- cho máy tính phân tán đồng bộ hàng loạt
- Apache SPARK- cho tính toán cụm và phân tích thời gian thực
- Phòng thí nghiệm đồ họa CMU 2 - Phương pháp tiếp cận không đồng bộ dựa trên đồ thị để tính toán phân tán
- KNN p -- Phương pháp tiếp cận dựa trên đại số từ Treeminer để giảm chi phí phần cứng cho hoạt động
Công cụ cho eDiscovery và Forensics
- eDiscovery trên Big Data so với dữ liệu cũ – so sánh chi phí và hiệu suất
- Mã hóa dự đoán và Đánh giá hỗ trợ công nghệ (TAR)
- Bản demo trực tiếp của vMiner để hiểu cách TAR cho phép khám phá nhanh hơn
- Lập chỉ mục nhanh hơn thông qua HDFS – Tốc độ dữ liệu
- NLP (Xử lý ngôn ngữ tự nhiên) – các sản phẩm và kỹ thuật nguồn mở
- eDiscovery bằng ngoại ngữ -- công nghệ xử lý ngoại ngữ
Big Data BI cho Cyber Security – Có được góc nhìn 360 độ, thu thập dữ liệu nhanh chóng và xác định mối đe dọa
- Hiểu những điều cơ bản về phân tích bảo mật -- bề mặt tấn công, cấu hình bảo mật sai, phòng thủ máy chủ
- Cơ sở hạ tầng mạng / Đường ống dữ liệu lớn / ETL phản hồi để phân tích thời gian thực
- Quy định so với dự đoán – Quy tắc cố định dựa trên so với tự động phát hiện các quy tắc đe dọa từ Siêu dữ liệu
Thu thập dữ liệu khác nhau để Phân tích tình báo tội phạm
- Sử dụng IoT (Internet vạn vật) làm cảm biến để thu thập dữ liệu
- Sử dụng hình ảnh vệ tinh để giám sát trong nước
- Sử dụng dữ liệu giám sát và hình ảnh để nhận dạng tội phạm
- Các công nghệ thu thập dữ liệu khác -- máy bay không người lái, camera đeo người, hệ thống gắn thẻ GPS và công nghệ hình ảnh nhiệt
- Kết hợp việc truy xuất dữ liệu tự động với dữ liệu thu được từ người cung cấp thông tin, thẩm vấn và nghiên cứu
- Forecasting hoạt động tội phạm
Ngày 04
BI phòng ngừa gian lận từ Big Data trong Phân tích gian lận
- Phân loại cơ bản của Phân tích gian lận -- phân tích dựa trên quy tắc so với phân tích dự đoán
- Học máy có giám sát so với không giám sát để phát hiện mẫu gian lận
- Business gian lận kinh doanh, gian lận yêu cầu bồi thường y tế, gian lận bảo hiểm, trốn thuế và rửa tiền
Social Media Phân tích -- Thu thập và phân tích thông tin tình báo
- Tội phạm sử dụng Social Media để tổ chức, tuyển dụng và lập kế hoạch như thế nào
- Big Data API ETL để trích xuất dữ liệu phương tiện truyền thông xã hội
- Văn bản, hình ảnh, siêu dữ liệu và video
- Phân tích tình cảm từ nguồn cấp dữ liệu truyền thông xã hội
- Lọc theo ngữ cảnh và không theo ngữ cảnh của nguồn cấp dữ liệu truyền thông xã hội
- Social Media Bảng điều khiển để tích hợp nhiều phương tiện truyền thông xã hội
- Tự động lập hồ sơ cá nhân trên mạng xã hội
- Bản demo trực tiếp của từng phân tích sẽ được cung cấp thông qua Công cụ Treeminer
Big Data Phân tích trong xử lý hình ảnh và nguồn cấp dữ liệu video
- Kỹ thuật lưu trữ hình ảnh trong Big Data -- Giải pháp lưu trữ cho dữ liệu vượt quá petabyte
- LTFS (Hệ thống tập tin băng tuyến tính) và LTO (Mở băng tuyến tính)
- GPFS-LTFS (Hệ thống tệp song song chung - Hệ thống tệp băng tuyến tính) -- giải pháp lưu trữ nhiều lớp cho dữ liệu hình ảnh lớn
- Cơ sở phân tích hình ảnh
- Nhận dạng đối tượng
- Phân đoạn hình ảnh
- Theo dõi chuyển động
- Tái tạo hình ảnh 3 chiều
Biosố liệu, DNA và Chương trình nhận dạng thế hệ tiếp theo
- Ngoài dấu vân tay và nhận dạng khuôn mặt
- Nhận dạng giọng nói, gõ phím (phân tích kiểu gõ của người dùng) và CODIS (Hệ thống chỉ mục DNA kết hợp)
- Vượt ra ngoài việc khớp DNA: sử dụng kiểu hình DNA pháp y để xây dựng khuôn mặt từ các mẫu DNA
Big Data Bảng điều khiển để truy cập nhanh vào dữ liệu đa dạng và hiển thị:
- Tích hợp nền tảng ứng dụng hiện có với Big Data Bảng điều khiển
- Big Data quản lý
- Nghiên cứu tình huống về Big Data Bảng điều khiển: Tableau và Pentaho
- Sử dụng ứng dụng Big Data để đẩy các dịch vụ dựa trên vị trí trong Govt.
- Hệ thống theo dõi và quản lý
Ngày 05
Làm thế nào để chứng minh việc triển khai Big Data BI trong một tổ chức:
- Xác định ROI (Lợi nhuận trên Investment) để triển khai Big Data
- Các nghiên cứu điển hình về việc tiết kiệm thời gian cho nhà phân tích trong việc thu thập và chuẩn bị dữ liệu – tăng năng suất
- Tăng doanh thu từ chi phí cấp phép cơ sở dữ liệu thấp hơn
- Lợi nhuận từ dịch vụ dựa trên vị trí
- Tiết kiệm chi phí từ việc phòng ngừa gian lận
- Một phương pháp bảng tính tích hợp để tính toán chi phí gần đúng so với doanh thu tăng/tiết kiệm từ việc triển khai Big Data.
Quy trình từng bước để thay thế hệ thống dữ liệu cũ bằng Hệ thống Big Data
- Big Data Lộ trình di cư
- Thông tin quan trọng nào là cần thiết trước khi thiết kế hệ thống Big Data?
- Có những cách nào khác nhau để tính Khối lượng, Tốc độ, Sự đa dạng và Độ chính xác của dữ liệu?
- Cách ước tính sự tăng trưởng dữ liệu
- Các nghiên cứu điển hình
Đánh giá Big Data Nhà cung cấp và đánh giá sản phẩm của họ.
- Accenture
- APTEAN (Trước đây là CDC Software)
- Cisco Hệ thống
- Mây Trời
- Dell
- EMC
- GoTập đoàn odData
- Ổi
- Hệ thống dữ liệu Hitachi
- Hortonworks
- Mã lực
- IBM
- Tin học
- Trí tuệ
- Jaspersoft
- Microsoft
- MongoDB (Trước đây là 10Gen)
- MU Sigma
- Ứng dụng Netapp
- Giải pháp Opera
- Oracle
- Pentaho
- Nền tảng
- Công nghệ Qliktech
- Lượng tử
- Không gian giá đỡ
- Phân tích cách mạng
- Salesforce
- SAP
- SAS Viện
- Sisense
- Phần mềm AG/Terracotta
- Tự động hóa Soft10
- Splunk
- Số vuông
- Siêu vi mô
- Tableau Phần mềm
- Teradata
- Nghĩ lớn Phân tích
- Hệ thống Tidemark
- Người đào cây
- VMware (Một phần của EMC)
Phiên hỏi đáp
Requirements
- Kiến thức về quy trình thực thi pháp luật và hệ thống dữ liệu
- Hiểu biết cơ bản về SQL/Oracle hoặc cơ sở dữ liệu quan hệ
- Hiểu biết cơ bản về thống kê (ở cấp độ Bảng tính)
Khán giả
- Chuyên gia thực thi pháp luật có nền tảng kỹ thuật
Testimonials (1)
Deepthi was super attuned to my needs, she could tell when to add layers of complexity and when to hold back and take a more structured approach. Deepthi truly worked at my pace and ensured I was able to use the new functions /tools myself by first showing then letting me recreate the items myself which really helped embed the training. I could not be happier with the results of this training and with the level of expertise of Deepthi!