Apache Spark là con đẻ của việc xử lý Big Data. Tăng tốc các ứng dụng Big Data là dự án ưu tiên hàng đầu tại phòng thí nghiệm của trường đại học Đại học West-Flanders, vì vậy họ đã tạo ra một bài benchmark sử dụng nhiều tính năng của Spark và dựa trên việc sử dụng trong thế giới thực . Bài kiểm tra được mô tả trong biểu đồ trên. Đầu tiên bài benchmark sẽ bắt đầu với 300 GB dữ liệu nén được thu thập từ Common Crawl. Những tập tin nén này là một số lượng lớn tài liệu lưu trữ web. Nó giải nén dữ liệu một cách nhanh chóng để tránh phải chờ đợi lâu mà chủ yếu liên quan đến lưu trữ. Sau đó, bài benchmark sẽ trích xuất dữ liệu văn bản có ý nghĩa ra khỏi kho lưu trữ bằng cách sử dụng thư viện Java "Boiler Pipe". Sử dụng Bộ công cụ xử lý ngôn ngữ tự nhiên Stanford Core NLP, chúng tôi trích xuất các thực thể ("từ có nghĩa là gì đó") ra khỏi văn bản và sau đó đếm xem URL nào có sự xuất hiện cao nhất của các thực thể này. Thuật toán Alternating Least Square sau đó được sử dụng để đề xuất URL nào thú vị nhất cho một chủ đề nhất định. Các máy chủ mới nhất của chúng tôi chia thành các cụm ảo để sử dụng tốt hơn tất cả các lõi đó. Chúng tôi chạy với 8 manager. Nhà nghiên cứu Esli Heyvaert cũng đã nâng cấp bài benchamark Spark để nó có thể chạy trên Apache Spark 2.1.1. Đây là kết quả: Bài benchmark Spark của chúng tôi cần khoảng 120 GB RAM để chạy. Thời gian dành cho I/O lưu trữ là không đáng kể. Xử lý dữ liệu rất song song, nhưng các pha xáo trộn đòi hỏi nhiều tương tác bộ nhớ. Pha ALS không mở rộng tốt trên nhiều luồng, nhưng nó ít hơn 4% tổng thời gian thử nghiệm. Như trên bảng kết quả các bạn có thể thấy vi xử lý Xeon Platinum 8280 mới nhất có hiệu năng xử lý Big Data rất tốt, tốt hơn một chút so với thế hệ trước đó 8176 và mạnh hơn rất nhiều so với thế hệ cũ Xeon E5 2699 v4. Còn khi so sáng với vi xử lý Epyc 7601 mới nhất của AMD thì 8280 vẫn mạnh hơn đáng kể, mặc dù số lượng nhân xử lý của nó là ít hơn. Thế nên khi các bạn đang quan tâm đến các hệ thống server cho Big Data thì hãy quan tâm đến vẫn đề này.