Cài đặt Apache Spark cluster trên hệ điều hành Linux/Ubuntu

Chào các bạn, qua các bài tutorial trước, tui đã cài đặt Apache Spark lên HĐH Windows 10, sau đó viết thử một vài cái ứng dụng rồi submit lên Spark để chạy thử nhưng chỉ là chạy trên 1 máy thôi, còn gọi là Standalone Local mode. Theo tài liệu của Spark thì ngoài cách chạy trên một máy, Spark còn hổ trợ chạy trên nhiều máy thông qua cơ chế Cluster Manager.

Spark có 3 dạng Cluster Manager:

  • Standalone (có sẵn của Spark luôn)
  • Apache Mesos.
  • Hadoop YARN.

Đối với người mới tìm hiểu như tui thì tui sẽ chọn cái Standalone Cluster cho dễ hiểu, hai cái còn lại thì khi nào hiểu rõ hơn về Spark rồi thì tính sau. (more…)

Read More