Kiến trúc và xây dựng BigData

Tài nguyên: https://drive.google.com/drive/folders/1hD19CSJ8I6F9Gbc5sOp4w9KY8U71UrBa?usp=sharing

  1. Mục tiêu 01: Giới thiệu BigData, các khái niệm
  2. Mục tiêu 02: Học Scala trong 1 giờ, hiểu lớp, hàm, biến, lệnh; hiểu RDD trong scala
  3. Mục tiêu 03: Hiểu cơ chế streaming data - thực hành: Streaming data với Spark Streaming
  4. Mục tiêu 04: Hiểu mapreduce trong Spark: Thực hành: MapReduce với Spark
  5. Mục tiêu 05: Cài cắm Hadoop, 1-1 slave, 1-nhiều slave
  6. Mục tiêu 06: Hiểu kiến trúc BigData với Hadoop, khái niệm cluster, node, worker, yarn, app Spark chạy trên đâu?
  7. Thực hành phân tích: Ai là hoa hậu Hoàn Vũ Việt Nam 2017
  8. Thực hành: Từ bài toán dữ liệu khách hàng tới cửa hàng xe máy, phân tích ra dự đoán xu hướng mua xe, dùng AWS
  9. Thực hành: Đếm từ trong quyển sách; Phân tích xu hướng mua xe máy Honda.
  10. Mục tiêu 07: Hiểu cách lưu data. Kinh nghiệm làm Data với các loại dữ liệu data cho BigData: áp dụng cho AWS
  11. Thực hành: Phân tích dữ liệu để dự đoán ung thư vú
  12. Thực hành: cách crawling data, lấy dữ liệu từ nguồn bất kỳ qua web
  13. Mục tiêu 08: Hiểu cụ thể phương thức áp dụng phân tích Logistic Regression
  14. Mục tiêu 09: Hiểu các làm sạch data trước khi đưa vào phân tích
  15. Thực hành: làm sạch data cho phân tích logistic regression
  16. Mục tiêu 10: Deploy app bigdata trên server gồm: app crawling data, app phân tích data, lấy kết quả
  17. Thực hành vẽ graph/chart kết hợp Spark với Zeppelin

 


Mục tiêu 01: Giới thiệu BigData, các khái niệm

  • First view
  • Overview Bigdata

Mục tiêu 02: Học Scala trong 1 giờ, hiểu lớp, hàm, biến, lệnh; hiểu RDD trong scala


Mục tiêu 03: Hiểu cơ chế streaming data - thực hành: Streaming data với Spark Streaming

  • With flume vs Sqoop
  • With Spark

Mục tiêu 04: Hiểu mapreduce trong Spark: Thực hành: MapReduce với Spark

  • RDD
  • Transform

 


Mục tiêu 05: Cài cắm Hadoop, 1-1 slave, 1-nhiều slave

Xem doc: dathoc.net/ss.md (phan bigdata) OR, follow this clip

 


Mục tiêu 06: Hiểu kiến trúc BigData với Hadoop, khái niệm cluster, node, worker, yarn, app Spark chạy trên đâu?

  • Deploy Spark on clusters
  • Thực hành: Từ bài toán dữ liệu khách hàng tới cửa hàng xe máy, phân tích ra dự đoán xu hướng mua xe, dùng AWS
  • (Xem data CSV trong TAI NGUYEN)
  • Thực hành: Đếm từ trong quyển sách

 


Mục tiêu 07: Hiểu cách lưu data. Kinh nghiệm làm Data với các loại dữ liệu data cho BigData: áp dụng cho AWS

 


Mục tiêu 08: Hiểu cụ thể phương thức áp dụng phân tích Logistic Regression

 


Mục tiêu 09: Hiểu các làm sạch data trước khi đưa vào phân tích

 


Mục tiêu 10: Deploy app bigdata trên server gồm: app crawling data, app phân tích data, lấy kết quả

  • Thực hành vẽ graph/chart kết hợp HTML JS, Spark với Zeppelin
  • Setup Zeppelin, view data