Tài nguyên: https://drive.google.com/drive/folders/1hD19CSJ8I6F9Gbc5sOp4w9KY8U71UrBa?usp=sharing
- Mục tiêu 01: Giới thiệu BigData, các khái niệm
- Mục tiêu 02: Học Scala trong 1 giờ, hiểu lớp, hàm, biến, lệnh; hiểu RDD trong scala
- Mục tiêu 03: Hiểu cơ chế streaming data - thực hành: Streaming data với Spark Streaming
- Mục tiêu 04: Hiểu mapreduce trong Spark: Thực hành: MapReduce với Spark
- Mục tiêu 05: Cài cắm Hadoop, 1-1 slave, 1-nhiều slave
- Mục tiêu 06: Hiểu kiến trúc BigData với Hadoop, khái niệm cluster, node, worker, yarn, app Spark chạy trên đâu?
- Thực hành phân tích: Ai là hoa hậu Hoàn Vũ Việt Nam 2017
- Thực hành: Từ bài toán dữ liệu khách hàng tới cửa hàng xe máy, phân tích ra dự đoán xu hướng mua xe, dùng AWS
- Thực hành: Đếm từ trong quyển sách; Phân tích xu hướng mua xe máy Honda.
- Mục tiêu 07: Hiểu cách lưu data. Kinh nghiệm làm Data với các loại dữ liệu data cho BigData: áp dụng cho AWS
- Thực hành: Phân tích dữ liệu để dự đoán ung thư vú
- Thực hành: cách crawling data, lấy dữ liệu từ nguồn bất kỳ qua web
- Mục tiêu 08: Hiểu cụ thể phương thức áp dụng phân tích Logistic Regression
- Mục tiêu 09: Hiểu các làm sạch data trước khi đưa vào phân tích
- Thực hành: làm sạch data cho phân tích logistic regression
- Mục tiêu 10: Deploy app bigdata trên server gồm: app crawling data, app phân tích data, lấy kết quả
- Thực hành vẽ graph/chart kết hợp Spark với Zeppelin
Mục tiêu 01: Giới thiệu BigData, các khái niệm
- First view
- Overview Bigdata
Mục tiêu 02: Học Scala trong 1 giờ, hiểu lớp, hàm, biến, lệnh; hiểu RDD trong scala
Mục tiêu 03: Hiểu cơ chế streaming data - thực hành: Streaming data với Spark Streaming
- With flume vs Sqoop
- With Spark
Mục tiêu 04: Hiểu mapreduce trong Spark: Thực hành: MapReduce với Spark
- RDD
- Transform
Mục tiêu 05: Cài cắm Hadoop, 1-1 slave, 1-nhiều slave
Xem doc: dathoc.net/ss.md (phan bigdata) OR, follow this clip
Mục tiêu 06: Hiểu kiến trúc BigData với Hadoop, khái niệm cluster, node, worker, yarn, app Spark chạy trên đâu?
- Deploy Spark on clusters
- Thực hành: Từ bài toán dữ liệu khách hàng tới cửa hàng xe máy, phân tích ra dự đoán xu hướng mua xe, dùng AWS
- (Xem data CSV trong TAI NGUYEN)
- Thực hành: Đếm từ trong quyển sách
Mục tiêu 07: Hiểu cách lưu data. Kinh nghiệm làm Data với các loại dữ liệu data cho BigData: áp dụng cho AWS
- Thực hành: Phân tích dữ liệu để dự đoán ung thư vú
- Lay source code tai day, build va lam theo clip: https://github.com/abhinavsagar/Breast-cancer-classification
- Thực hành: cách crawling data, lấy dữ liệu từ nguồn bất kỳ qua web
- All clips:
- Overview tools, the how-tos
- Lay source ve tu thuc hanh: https://github.com/koolj/heraforweb
Mục tiêu 08: Hiểu cụ thể phương thức áp dụng phân tích Logistic Regression
Mục tiêu 09: Hiểu các làm sạch data trước khi đưa vào phân tích
Mục tiêu 10: Deploy app bigdata trên server gồm: app crawling data, app phân tích data, lấy kết quả
- Thực hành vẽ graph/chart kết hợp HTML JS, Spark với Zeppelin
- Setup Zeppelin, view data