Meta hợp tác với NVIDIA để xây dựng hệ thống siêu máy tính nghiên cứu trí não nhân tạo đồ sộ

nang2911

Thành viên
Tham gia
12/10/2017
Bài viết
6
Siêu máy tính AI của Meta – hệ thống NVIDIA DGX A100 dành cho khách hàng lớn nhất cho đến nay – sẽ cung cấp cho các nhà nghiên cứu của Meta 5 exaflops hiệu suất AI, sở hữu các máy chủ NVIDIA DGX A100 tiền tiến, được kết nối qua mạng InfiniBand và phần mềm cho phép tối ưu hóa trên hàng nghìn GPU A100.

Meta, đơn vị mẹ của Facebook, đã chọn công nghệ của NVIDIA cho một hệ thống mà họ tin rằng sẽ là hệ thống nghiên cứu mạnh mẽ nhất cho đến nay.

AI Research SuperCluster (RSC), được ban bố bữa nay, trên thực tế đã được sử dụng để tập huấn các mô hình mới để phát triển AI.

Sau khi được khai triển đầy đủ, hệ thống RSC của Meta dự định sẽ là khách hàng lớn nhất lắp đặt hệ thống NVIDIA DGX A100.

“Chúng tôi hy vọng RSC sẽ giúp chúng tôi xây dựng các hệ thống AI hoàn toàn mới, chả hạn như cung cấp khả năng dịch giọng nói theo thời kì thực cho nhiều nhóm người, mỗi người nói một tiếng nói khác nhau, để họ có thể hiệp tác liền mạch trong một dự án nghiên cứu hoặc chơi một trò chơi AR cùng nhau”, tổ chức cho biết trong một bài blog.

đào tạo các mô hình lớn nhất của AI

Khi RSC được xây dựng hoàn chỉnh, dự kiến vào cuối năm nay, Meta đặt mục tiêu sử dụng nó để tập huấn các mô hình AI với hơn một nghìn tỷ thông số. Điều đó có thể thúc đẩy các lĩnh vực như xử lý tiếng nói tự nhiên (NLP) cho các công việc như xác định nội dung vi phạm theo thời gian thực.

Ngoài hiệu suất trên quy mô lớn, Meta cho biết độ tin cậy cao, tính bảo mật, quyền riêng tây và tính linh hoạt để xử lý hàng loạt các mô hình AI làm các tiêu chí chính cho RSC.

>>> Xem thêm: Dell R750



Thành phần hệ thống bên trong

Hệ siêu máy tính AI mới sử dụng 760 máy chủ NVIDIA DGX A100 làm các node xử lý (compute node). Chúng chứa tổng cộng 6.080 GPU NVIDIA A100 được kết liên trên mạng NVIDIA Quantum 200Gb/s HDR InfiniBand, cung cấp 1.895 petaflop hiệu suất TF32 tổng thể.

Về mặt thiết kế, hệ thống có một bộ CDU (Cooling Distribution Unit) và phân phối làm mát bằng chất lỏng được bố trí trong các rack mạng. Ở đây các ống màu đỏ ở bên trái là chất lỏng ấm trong khi màu xanh lam ở bên phải là chất lỏng lạnh hơn:

mặc dù đây là thời đoạn đầu, Meta có kế hoạch mở rộng hơn gấp 2 lần diện tích thời đoạn 1 này trong tương lai.

Bất chấp những thách thức từ COVID-19, RSC chỉ mất 18 tháng để đi từ một ý tưởng trên giấy thành một siêu máy tính AI hoạt động (được hiển thị trong video bên dưới) một phần nhờ vào công nghệ NVIDIA DGX A100 trên nền móng của Meta RSC.

Penguin Computing là đối tác NPN của NVIDIA trong việc triển khai RSC. Ngoài 760 node DGX A100 và mạng InfiniBand, Penguin cung cấp các dịch vụ được quản lý và cơ sở hạ tầng được tối ưu hóa bằng AI cho Meta bao gồm 46 petabyte bộ nhớ đệm lưu trữ duyệt y các hệ thống Altus.

Tăng hiệu suất gấp 20 lần

Đây là lần thứ hai Meta chọn công nghệ NVIDIA làm nền móng cho cơ sở hạ tầng nghiên cứu của mình. Vào năm 2017, Meta đã xây dựng thế hệ trước nhất của cơ sở hạ tầng này cho nghiên cứu AI với 22.000 GPU NVIDIA V100 Tensor Core xử lý 35.000 công tác tập huấn AI mỗi ngày.

Các điểm benchmark ban đầu của Meta cho thấy RSC có thể huấn luyện các mô hình NLP lớn nhanh hơn gấp 3 lần và chạy các công việc về thị giác máy tính nhanh hơn 20 lần so với hệ thống trước đó.

Trong thời đoạn thứ hai vào cuối năm nay, RSC sẽ mở mang lên 16.000 GPU mà Meta tin rằng sẽ cung cấp 5 exaflop hiệu suất AI mixed precision. Và Meta đặt mục tiêu mở mang hệ thống lưu trữ của RSC để cung cấp tới một exabyte dữ liệu với tốc độ 16 terabyte mỗi giây.

>>> Xem thêm: máy chủ dell r6515
 
×
Top Bottom