Kiến trúc và xây dựng BigData

Tài nguyên: https://drive.google.com/drive/folders/1hD19CSJ8I6F9Gbc5sOp4w9KY8U71UrBa?usp=sharing

Mục tiêu 01: Giới thiệu BigData, các khái niệm
Mục tiêu 02: Học Scala trong 1 giờ, hiểu lớp, hàm, biến, lệnh; hiểu RDD trong scala
Mục tiêu 03: Hiểu cơ chế streaming data - thực hành: Streaming data với Spark Streaming
Mục tiêu 04: Hiểu mapreduce trong Spark: Thực hành: MapReduce với Spark
Mục tiêu 05: Cài cắm Hadoop, 1-1 slave, 1-nhiều slave
Mục tiêu 06: Hiểu kiến trúc BigData với Hadoop, khái niệm cluster, node, worker, yarn, app Spark chạy trên đâu?
Thực hành phân tích: Ai là hoa hậu Hoàn Vũ Việt Nam 2017
Thực hành: Từ bài toán dữ liệu khách hàng tới cửa hàng xe máy, phân tích ra dự đoán xu hướng mua xe, dùng AWS
Thực hành: Đếm từ trong quyển sách; Phân tích xu hướng mua xe máy Honda.
Mục tiêu 07: Hiểu cách lưu data. Kinh nghiệm làm Data với các loại dữ liệu data cho BigData: áp dụng cho AWS
Thực hành: Phân tích dữ liệu để dự đoán ung thư vú
Thực hành: cách crawling data, lấy dữ liệu từ nguồn bất kỳ qua web
Mục tiêu 08: Hiểu cụ thể phương thức áp dụng phân tích Logistic Regression
Mục tiêu 09: Hiểu các làm sạch data trước khi đưa vào phân tích
Thực hành: làm sạch data cho phân tích logistic regression
Mục tiêu 10: Deploy app bigdata trên server gồm: app crawling data, app phân tích data, lấy kết quả
Thực hành vẽ graph/chart kết hợp Spark với Zeppelin

Mục tiêu 01: Giới thiệu BigData, các khái niệm

First view
Overview Bigdata

Mục tiêu 02: Học Scala trong 1 giờ, hiểu lớp, hàm, biến, lệnh; hiểu RDD trong scala

Mục tiêu 03: Hiểu cơ chế streaming data - thực hành: Streaming data với Spark Streaming

With flume vs Sqoop
With Spark

Mục tiêu 04: Hiểu mapreduce trong Spark: Thực hành: MapReduce với Spark

RDD
Transform

Mục tiêu 05: Cài cắm Hadoop, 1-1 slave, 1-nhiều slave

Xem doc: dathoc.net/ss.md (phan bigdata) OR, follow this clip

Mục tiêu 06: Hiểu kiến trúc BigData với Hadoop, khái niệm cluster, node, worker, yarn, app Spark chạy trên đâu?

Deploy Spark on clusters
Thực hành: Từ bài toán dữ liệu khách hàng tới cửa hàng xe máy, phân tích ra dự đoán xu hướng mua xe, dùng AWS
(Xem data CSV trong TAI NGUYEN)
Thực hành: Đếm từ trong quyển sách

Mục tiêu 07: Hiểu cách lưu data. Kinh nghiệm làm Data với các loại dữ liệu data cho BigData: áp dụng cho AWS

Thực hành: Phân tích dữ liệu để dự đoán ung thư vú
Lay source code tai day, build va lam theo clip: https://github.com/abhinavsagar/Breast-cancer-classification
Thực hành: cách crawling data, lấy dữ liệu từ nguồn bất kỳ qua web
All clips:
Overview tools, the how-tos
Lay source ve tu thuc hanh: https://github.com/koolj/heraforweb

Mục tiêu 08: Hiểu cụ thể phương thức áp dụng phân tích Logistic Regression

Mục tiêu 09: Hiểu các làm sạch data trước khi đưa vào phân tích

Mục tiêu 10: Deploy app bigdata trên server gồm: app crawling data, app phân tích data, lấy kết quả

Thực hành vẽ graph/chart kết hợp HTML JS, Spark với Zeppelin
Setup Zeppelin, view data