Xây dựng một Realtime Dashboard sử dụng Spark Streaming, Kafka, Nodejs và MongoDB

Hello! Sau mấy ngày cuối tuần vật vả với coding, không đi đâu cả (lý do là có bão thoai!) thì tui cũng đã thử nghiệm xong với cái việc đã đề ra ở bài trước đó là dùng Spark Streaming để lấy dữ liệu từ Kafka. Không chỉ dừng lại ở đó, tui cũng đã làm luôn cái Real-time Dashboard để hiển thị cái dữ liệu mà Spark đã lấy về và xử lý.

Kịch bản của tui cho bài tutorial này là như sau:

Giả sử tui có một website bán xe đạp vô cùng lớn đi ha (ví dụ là http://xedapnhat.vn Happy-Grin ), bán các nhãn hiệu xe đạp bao gồm: Trek, Giant, Jett, Cannondale, Surly. Do bán số lượng lớn mà, cho nên tui muốn xem coi là cứ 30s thì có bao nhiêu chiếc xe của từng nhãn hiệu này được bán và nó sẽ hiển thị thông tin đã được xử lý lên cái Dashboard. (more…)

Read More

Tìm hiểu và cài đặt Apache Kafka Single Node/Single Broker trên Windows 10

Chào các bạn! Khi tìm hiểu về các công cụ để làm việc với Big Data, tui thấy càng tìm hiểu, càng thú vị các bạn ạ. Đáng lẽ bài tiếp theo này phải là Spark Streaming, nhưng khi tìm hiểu Spark Streaming, tui được dẫn tới cái anh Apache Kafka này và tui thấy cái này cũng cần thiết để làm một system hoàn chỉnh cho nên tui sẽ làm bài tutorial về cái này luôn để sau này chuyển qua Spark Streaming nó sẽ có hệ thống hơn.

Nếu muốn sử dụng Spark Streaming để xử lý data real-time, chúng ta cần có một cái nguồn data Streaming để tạo data liên tục thì mới thấy được cái hay của Spark Streaming. (more…)

Read More