Danh mục sản phẩm
Danh mục sản phẩm
Bán chạy nhất
Bán chạy nhất
Bán chạy nhất
Bán chạy nhất
Bán chạy nhất
Apache Spark là con đẻ của việc xử lý Big Data. Tăng tốc các ứng dụng Big Data là dự án ưu tiên hàng đầu tại phòng thí nghiệm của trường đại học Đại học West-Flanders, vì vậy họ đã tạo ra một bài benchmark sử dụng nhiều tính năng của Spark và dựa trên việc sử dụng trong thế giới thực .
Bài kiểm tra được mô tả trong biểu đồ trên. Đầu tiên bài benchmark sẽ bắt đầu với 300 GB dữ liệu nén được thu thập từ Common Crawl. Những tập tin nén này là một số lượng lớn tài liệu lưu trữ web. Nó giải nén dữ liệu một cách nhanh chóng để tránh phải chờ đợi lâu mà chủ yếu liên quan đến lưu trữ.
Sau đó, bài benchmark sẽ trích xuất dữ liệu văn bản có ý nghĩa ra khỏi kho lưu trữ bằng cách sử dụng thư viện Java "Boiler Pipe". Sử dụng Bộ công cụ xử lý ngôn ngữ tự nhiên Stanford Core NLP, chúng tôi trích xuất các thực thể ("từ có nghĩa là gì đó") ra khỏi văn bản và sau đó đếm xem URL nào có sự xuất hiện cao nhất của các thực thể này.
Thuật toán Alternating Least Square sau đó được sử dụng để đề xuất URL nào thú vị nhất cho một chủ đề nhất định. Các máy chủ mới nhất của chúng tôi chia thành các cụm ảo để sử dụng tốt hơn tất cả các lõi đó. Chúng tôi chạy với 8 manager. Nhà nghiên cứu Esli Heyvaert cũng đã nâng cấp bài benchamark Spark để nó có thể chạy trên Apache Spark 2.1.1.
Đây là kết quả:
Bài benchmark Spark của chúng tôi cần khoảng 120 GB RAM để chạy. Thời gian dành cho I/O lưu trữ là không đáng kể. Xử lý dữ liệu rất song song, nhưng các pha xáo trộn đòi hỏi nhiều tương tác bộ nhớ. Pha ALS không mở rộng tốt trên nhiều luồng, nhưng nó ít hơn 4% tổng thời gian thử nghiệm.
Như trên bảng kết quả các bạn có thể thấy vi xử lý Xeon Platinum 8280 mới nhất có hiệu năng xử lý Big Data rất tốt, tốt hơn một chút so với thế hệ trước đó 8176 và mạnh hơn rất nhiều so với thế hệ cũ Xeon E5 2699 v4.
Còn khi so sáng với vi xử lý Epyc 7601 mới nhất của AMD thì 8280 vẫn mạnh hơn đáng kể, mặc dù số lượng nhân xử lý của nó là ít hơn. Thế nên khi các bạn đang quan tâm đến các hệ thống server cho Big Data thì hãy quan tâm đến vẫn đề này.
Bài viết liên quan
17-07-2021, 8:08 am
Hướng dẫn cách gỡ windows 11 và cách khắc phục Windows muốn update lên Windows 11
08-07-2021, 7:26 am
Nếu bạn muốn dùng thử Windows 11 trên PC nhưng không muốn mạo hiểm thay thế phiên bản Windows 10 ổn định bằng hệ điều hành beta mới có thể có lỗi, bạn có thể sử dụng máy ảo VMware Workstation
15-05-2021, 3:37 am
Trước khi bắt đầu các bạn cần chú ý rằng mỗi loại card sẽ cho ra một hiệu năng đào khác nhau, ngay cả với những con card cũng đời cùng mã cùng nhà sản xuất
27-04-2021, 9:52 am
Sau đây Nguyencongpc sẽ hướng dẫn các bạn cách tự cài đặt bộ nhớ (RAM) DDR4 lên trên bo mạch chủ kênh đôi có 4 khe cắm thông dụng nhất hiện nay.
27-04-2021, 7:24 am
Cách tự cài đặt bộ xử lý Intel. Cách này áp dụng cho tất cả các Socket Intel. Các bạn chỉ cần thực hiện tuần tự theo hướng dẫn được liệt kê dưới đây
27-04-2021, 3:45 am
Hướng dẫn này áp dụng cho tất cả các giải pháp nhiệt đi kèm với bộ xử lý Intel, bao gồm các loại Socket LGA1150, LGA1151, LGA1155, LGA1156 và LGA1200.
16-07-2019, 2:40 am
12-07-2019, 2:05 am
01-07-2019, 7:14 pm
Trong bài viết này Nguyễn Công PC sẽ hướng dẫn bạn cách bạn có thể chọn một bộ nguồn thích hợp cho card đồ họa của bạn.
27-06-2019, 8:48 pm
Quạt GPU không quay là một trong những vấn đề rất nghiêm trọng mà một số người dùng card đồ họa gặp phải. Quạt GPU được sử dụng để làm mát tản nhiệt của card đồ họa và ngăn không cho nó quá nóng. Gần như tất cả các card đồ họa hiện nay đều đi kèm với tản nhiệt và quạt để làm mát.
24-05-2019, 5:18 pm
10-05-2019, 1:05 am
Thêm sản phẩm vào giỏ hàng thành công!
Khách cá nhân
Khách doanh nghiệp
HỆ THỐNG SHOWROOM
1. Thanh Xuân - Hà Nội
17 Hà Kế Tấn, Phương Liệt, Thanh Xuân, Hà Nội.
Giờ làm việc: 08:00 - 19:00
2. Quận 11 - Hồ Chí Minh
Số 249 Lý Thường Kiệt, P. 15, Q. 11, TP Hồ Chí Minh
Giờ làm việc: 08:00 - 19:00