Đại thể là nhiều data thôi cụ, như mỗi sáng có vài chục TB dữ liệu (chủ yếu là log), phân tích trên 1 cluster 8 node, mỗi node 64 GB RAM làm sao cho ra cái báo cáo trước 9h sáng là được :) hay trong ngày lúc log phun về phải phát hiện abnormal pattern để xử lý real time.
Khi làm nhiều data thế...