Xây dựng một Realtime Dashboard sử dụng Spark Streaming, Kafka, Nodejs và MongoDB

Hello! Sau mấy ngày cuối tuần vật vả với coding, không đi đâu cả (lý do là có bão thoai!) thì tui cũng đã thử nghiệm xong với cái việc đã đề ra ở bài trước đó là dùng Spark Streaming để lấy dữ liệu từ Kafka. Không chỉ dừng lại ở đó, tui cũng đã làm luôn cái Real-time Dashboard để hiển thị cái dữ liệu mà Spark đã lấy về và xử lý.

Kịch bản của tui cho bài tutorial này là như sau:

Giả sử tui có một website bán xe đạp vô cùng lớn đi ha (ví dụ là http://xedapnhat.vn Happy-Grin ), bán các nhãn hiệu xe đạp bao gồm: Trek, Giant, Jett, Cannondale, Surly. Do bán số lượng lớn mà, cho nên tui muốn xem coi là cứ 30s thì có bao nhiêu chiếc xe của từng nhãn hiệu này được bán và nó sẽ hiển thị thông tin đã được xử lý lên cái Dashboard. (more…)

Read More

Truy vấn dữ liệu từ MongoDB với Apache Spark

Chào các bạn. Đã nói là dân lập trình, viết chương trình thì dù là Application độc lập hay là Web thì điều đầu tiên là phải nghĩ ngay đến cái framework hay cái platform mình sử dụng nó có làm việc được với các hệ Database hay không bao gồm cả có quan hệ hay không có quan hệ. Đây cũng chính là câu hỏi tui tự đặt ra khi tìm hiểu Apache Spark.

Như trong bài đầu tiên tui có nói là đối với Big Data thì tui chọn 2 cái Database đó là MongoDB và Elasticsearch vậy nên trong bài hôm nay, tui sẽ thử dùng Apache Spark để kết nối và truy vấn data từ MongoDB (còn Elasticsearch thì sẽ viết một bài riêng sau). May mắn thay, MongoDB có tạo một thư viện để cho Spark nó “nói chuyện” được với MongoDB tên là MongoDB Spark Connector. Kịch bản của hôm nay cũng đơn giản thôi: đó là save một mớ document từ file json vào MongoDB, sau đó dùng câu SQL để lấy dữ liệu lên lại, sau đó hiển thị các record ra. (more…)

Read More