nang2911
Thành viên
- Tham gia
- 12/10/2017
- Bài viết
- 4
Trong vài năm qua, Dell Technologies và NVIDIA đã giúp những người dùng chung của chúng tôi theo dõi nhanh các sáng kiến Trí tuệ nhân tạo và Học sâu của họ. Đối sở hữu những người muốn tận dụng ngăn xếp phần cứng và phần mềm đã được chuẩn xác trước cho DL, chúng tôi cung cấp Giải pháp sẵn sàng cho AI: Học sâu với NVIDIA của Dell EMC , cũng sở hữu tính năng lưu trữ Dell EMC Isilon All-Flash. Đối mang những doanh nghiệp thích xây dựng giải pháp của riêng họ, chúng tôi sản xuất dòng Dell EMC PowerEdge C siêu dày đặc , sở hữu GPU NVIDIA V100 Tensor Core, cho phép mở mang các giải pháp AI từ bốn tới hàng trăm GPU trên mỗi cụm. Chúng tôi cũng cung cấp máy chủ Dell EMC DSS 8440 , tương trợ tối đa 10 NVIDIAV100 GPU hoặc 16 NVIDIA T4 tensor lõi GPU . Sự hiệp tác của chúng tôi được xây dựng dựa trên triết lý cung ứng sự linh hoạt và sự lựa chọn sáng láng trên 1 danh mục đầu tư rộng lớn, hài hòa giữa máy tính nâng cao tốc GPU tốt nhất, bộ nhớ mở rộng và mạng.
Để sản xuất cho các doanh nghiệp sự linh hoạt hơn nữa trong phương pháp họ triển khai AI từ hộp cát đến sản xuất mang hiệu suất đột phá cho AI quy mô lớn, Dell Technologies và NVIDIA sắp đây đã hợp tác trên một kiến trúc tham chiếu mới cho khối lượng công việc AI và DL hài hòa Dell EMC Isilon F800 tất cả- flash mở mang quy mô NAS, công tắc Dell EMC PowerSwitch S5232F-ON và hệ thống NVIDIA DGX-2.
Các thành phần chính của kiến trúc tham chiếu bao gồm:
Phương pháp điểm chuẩn
Để chính xác kiến trúc tham chiếu mới, chúng tôi đã chạy các điểm chuẩn phân mẫu hình ảnh theo tiêu chuẩn ngành bằng cách dùng tập dữ liệu 22 TB để mô phỏng khối lượng công tác tập huấn trong thế giới thực. Chúng tôi đã dùng ba hệ thống DGX-2 (tổng số 48 GPU) và tám nút Isilon F800 được kết nối phê chuẩn 1 cặp công tắc PowerSwitch S5232F-ON. Các điểm chuẩn khác nhau từ TensorFlow Benchmarkskho lưu trữ đã được thực thi. Bộ tiêu chuẩn này thực hiện tập huấn mạng nơ-ron tích hợp phân chiếc hình ảnh (CNN) trên những hình ảnh được gắn nhãn. Về cơ bản, hệ thống tậu hiểu xem 1 hình ảnh với chứa mèo, chó, ô tô, xe lửa, v.v. Tập dữ liệu hình ảnh ILSVRC2012 nổi danh (thường được gọi là ImageNet) đã được tiêu dùng hay không. Tập dữ liệu này chứa khoảng 1,3 triệu hình ảnh huấn luyện trong 148 GB. Bộ dữ liệu này thường được các nhà nghiên cứu DL sử dụng cho những nghiên cứu so sánh và đo điểm chuẩn. Để ước tính hiệu suất của kiến trúc tham chiếu này cho các tập dữ liệu to hơn rộng rãi 148 GB, tập dữ liệu đã được nhân đôi 150 lần, tạo ra 1 tập dữ liệu 22 TB.
Để xác định xem mạng hoặc bộ nhớ với liên quan đến hiệu suất hay không, chúng tôi đã chạy những điểm chuẩn y sì nhau trên tập dữ liệu gốc 148 GB. Sau kỷ nguyên đầu tiên, hầu hết tập dữ liệu được lưu vào bộ nhớ đệm trong hệ thống DGX-2 và những lần chạy tiếp theo ko mang I / O lưu trữ. Các kết quả này được gắn nhãn Linux Cache trong phần tiếp theo.
>>> Xem thêm: nơi bán ssd sam sung pm883
Kết quả điểm chuẩn
Dựa trên việc dùng mạng nhàng nhàng 15 giây cho các kết liên mạng RoCE, có vẻ như các kết liên đã dùng ít hơn 80 MB / giây (640 Mbps) trong ResNet-50. Tuy nhiên, điều này là vô cộng sai lầm. Chúng tôi đã đo việc dùng mạng có độ xác thực mili giây và vẽ biểu đồ trong hình bên dưới. Điều này cho thấy mức tăng đột biến định kỳ lên đến 60 Gbps trên mỗi kết liên trên mỗi hướng. Đối mang VGG-16, chúng tôi đo được đỉnh là 80 Gbps (không được hiển thị).Điểm chuẩn lưu trữ TensorFlow
Để hiểu các dừng của Isilon lúc được dùng với TensorFlow, 1 vận dụng TensorFlow đã được tạo ( TensorFlow Storage Benchmark ) chỉ đọc những tệp TFRecord (cùng 1 ứng dụng được sử dụng để đào tạo). Không mang tiền xử lý cũng như tính toán GPU được thực hiện. Công việc duy nhất được thực hành là đếm số byte trong mỗi TFRecord. Ứng dụng này cũng có tùy chọn đồng bộ hóa đa số trình đọc sau mỗi đợt ghi, buộc chúng nên đi cộng tốc độ. Tùy tậu này đã được kích hoạt để mô phỏng thấp hơn khối lượng công tác tập huấn DL hoặc ML.
Với khối lượng công tác chỉ lưu trữ này, tốc độ đọc tối đa thu được từ tám nút Isilon là 24,772 MB / giây. Vì Isilon đã được chứng minh là mở mang đến 252 nút, thông lượng bổ sung có thể đạt được chỉ đơn thuần bằng bí quyết thêm các nút Isilon.
Phần kết luận
Dưới đây là một số phát hiện chính từ thí nghiệm của chúng tôi về kiến trúc tham chiếu hệ thống Isilon, PowerSwitch và NVIDIA DGX-2:
>>> Xem thêm: Ram SamSung 32GB DDR4 tại hà nội
Để sản xuất cho các doanh nghiệp sự linh hoạt hơn nữa trong phương pháp họ triển khai AI từ hộp cát đến sản xuất mang hiệu suất đột phá cho AI quy mô lớn, Dell Technologies và NVIDIA sắp đây đã hợp tác trên một kiến trúc tham chiếu mới cho khối lượng công việc AI và DL hài hòa Dell EMC Isilon F800 tất cả- flash mở mang quy mô NAS, công tắc Dell EMC PowerSwitch S5232F-ON và hệ thống NVIDIA DGX-2.
Các thành phần chính của kiến trúc tham chiếu bao gồm:
- Bộ lưu trữ NAS hoàn toàn flash Dell EMC Isilon cung cấp quy mô (lên tới 58 PB), hiệu suất (lên đến 945 GB / s) và song song (lên tới hàng triệu kết nối) để chiếc bỏ nút thắt cổ chai I / O lưu trữ giữ tất cả những lớp tính toán đói dữ liệu được cung ứng để nâng cao tốc khối lượng công việc AI trên quy mô lớn. Một cụm Isilon duy nhất với thể cất 1 tầng toàn flash để có hiệu suất cao và một tầng HDD để với chi phí rẻ hơn và các tệp sở hữu thể được tự động di chuyển qua những tầng để thông minh hóa hiệu suất và mức giá trong suốt vòng đời phát triển AI.
- Các PowerSwitch S5232F-ON là một công tắc có 32 QSFP28 cổng sở hữu thể sản xuất 40 GbE và 100 kết nối GbE 1 RU. Dòng này tương trợ RDMA qua Ethernet hội tụ (RoCE), cho phép GPU giao thiệp mang NIC trực tiếp trên bus PCIe mà không bắt buộc CPU. Cả RoCE v1 và v2 đều được hỗ trợ.
- Hệ thống NVIDIA DGX-2 bao gồm phần cứng và phần mềm tích hợp gần như được xây dựng nhằm mục đích lớn mạnh AI và tập huấn hiệu suất cao trên quy mô lớn. Mỗi hệ thống DGX-2 được chế tạo năng lượng bởi 16 GPU NVIDIA V100 Tensor Core được kết nối mang nhau bằng khoa học NVIDIA NVSwitch, sản xuất kết cấu băng thông cực cao, độ trễ phải chăng cho giao tiếp giữa các GPU.
Phương pháp điểm chuẩn
Để chính xác kiến trúc tham chiếu mới, chúng tôi đã chạy các điểm chuẩn phân mẫu hình ảnh theo tiêu chuẩn ngành bằng cách dùng tập dữ liệu 22 TB để mô phỏng khối lượng công tác tập huấn trong thế giới thực. Chúng tôi đã dùng ba hệ thống DGX-2 (tổng số 48 GPU) và tám nút Isilon F800 được kết nối phê chuẩn 1 cặp công tắc PowerSwitch S5232F-ON. Các điểm chuẩn khác nhau từ TensorFlow Benchmarkskho lưu trữ đã được thực thi. Bộ tiêu chuẩn này thực hiện tập huấn mạng nơ-ron tích hợp phân chiếc hình ảnh (CNN) trên những hình ảnh được gắn nhãn. Về cơ bản, hệ thống tậu hiểu xem 1 hình ảnh với chứa mèo, chó, ô tô, xe lửa, v.v. Tập dữ liệu hình ảnh ILSVRC2012 nổi danh (thường được gọi là ImageNet) đã được tiêu dùng hay không. Tập dữ liệu này chứa khoảng 1,3 triệu hình ảnh huấn luyện trong 148 GB. Bộ dữ liệu này thường được các nhà nghiên cứu DL sử dụng cho những nghiên cứu so sánh và đo điểm chuẩn. Để ước tính hiệu suất của kiến trúc tham chiếu này cho các tập dữ liệu to hơn rộng rãi 148 GB, tập dữ liệu đã được nhân đôi 150 lần, tạo ra 1 tập dữ liệu 22 TB.
Để xác định xem mạng hoặc bộ nhớ với liên quan đến hiệu suất hay không, chúng tôi đã chạy những điểm chuẩn y sì nhau trên tập dữ liệu gốc 148 GB. Sau kỷ nguyên đầu tiên, hầu hết tập dữ liệu được lưu vào bộ nhớ đệm trong hệ thống DGX-2 và những lần chạy tiếp theo ko mang I / O lưu trữ. Các kết quả này được gắn nhãn Linux Cache trong phần tiếp theo.
>>> Xem thêm: nơi bán ssd sam sung pm883
Kết quả điểm chuẩn
Dựa trên việc dùng mạng nhàng nhàng 15 giây cho các kết liên mạng RoCE, có vẻ như các kết liên đã dùng ít hơn 80 MB / giây (640 Mbps) trong ResNet-50. Tuy nhiên, điều này là vô cộng sai lầm. Chúng tôi đã đo việc dùng mạng có độ xác thực mili giây và vẽ biểu đồ trong hình bên dưới. Điều này cho thấy mức tăng đột biến định kỳ lên đến 60 Gbps trên mỗi kết liên trên mỗi hướng. Đối mang VGG-16, chúng tôi đo được đỉnh là 80 Gbps (không được hiển thị).Điểm chuẩn lưu trữ TensorFlow
Để hiểu các dừng của Isilon lúc được dùng với TensorFlow, 1 vận dụng TensorFlow đã được tạo ( TensorFlow Storage Benchmark ) chỉ đọc những tệp TFRecord (cùng 1 ứng dụng được sử dụng để đào tạo). Không mang tiền xử lý cũng như tính toán GPU được thực hiện. Công việc duy nhất được thực hành là đếm số byte trong mỗi TFRecord. Ứng dụng này cũng có tùy chọn đồng bộ hóa đa số trình đọc sau mỗi đợt ghi, buộc chúng nên đi cộng tốc độ. Tùy tậu này đã được kích hoạt để mô phỏng thấp hơn khối lượng công tác tập huấn DL hoặc ML.
Với khối lượng công tác chỉ lưu trữ này, tốc độ đọc tối đa thu được từ tám nút Isilon là 24,772 MB / giây. Vì Isilon đã được chứng minh là mở mang đến 252 nút, thông lượng bổ sung có thể đạt được chỉ đơn thuần bằng bí quyết thêm các nút Isilon.
Phần kết luận
Dưới đây là một số phát hiện chính từ thí nghiệm của chúng tôi về kiến trúc tham chiếu hệ thống Isilon, PowerSwitch và NVIDIA DGX-2:
- Đạt được kết quả hiệu suất quyến rũ trên những điểm chuẩn DL tiêu chuẩn của ngành từ 16 đến 48 GPU mà ko bị suy giảm thông lượng hoặc hiệu suất
- Khả năng mở rộng tuyến tính từ 16 tới 48 GPU trong lúc vẫn giữ những GPU được chốt ở mức sử dụng> 97%
- Hệ thống Isilon F800 mang thể chế tạo hơn 24 GB / giây đọc đồng bộ , đây là tiêu biểu của khối lượng công tác huấn luyện DL hoặc ML
>>> Xem thêm: Ram SamSung 32GB DDR4 tại hà nội