Lưu trữ cho AI: Machine Learning, Deep Learning và các nhu cầu về lưu trữ

nang2911

Thành viên
Tham gia
12/10/2017
Bài viết
3
Facebook đạt xấp xỉ 2,4 tỷ active user và có 350 triệu lượt upload ảnh lên mỗi ngày, cộng với hơn 500.000 bình luận được đăng mỗi phút. Làm thế nào họ theo dõi, giám sát và thu được giá trị từ lượng thông báo này?

Chirag Dekate, giám đốc nghiên cứu về trí tuệ nhân tạo (AI), Machine Learning và Deep Learning tại Gartner cho biết: “Có hàng tỷ người dùng và không có cách nào để bàn tay con người có thể mở mang quy mô để thực hiện phân tách .

cho nên, Facebook sử dụng hệ thống học tập và AI để quét các bài đăng. Dekate nói: “Không viên chức nào có thể phân tích mọi video hoặc hình ảnh để tìm những câu nói bị cấm hoặc tài liệu khích động, hoặc các tag có chủ ý bán hàng sai mục đích”.

Các trang mạng xã hội chỉ là một ví dụ về số lượng vận dụng ngày một tăng của AI, đã chuyển từ nghiên cứu ở giai đoạn học thuật sang các lĩnh vực đa dạng như y học, thực thi pháp luật , bảo hiểm và bán lẻ.

Sự tăng trưởng của nó có ý nghĩa sâu rộng đối với các hệ thống CNTT tổ chức, bao gồm cả lưu trữ dữ liệu.

AI là một thuật ngữ rộng bao gồm nhiều trường hợp sử dụng và vận dụng, cũng như các cách xử lý dữ liệu khác nhau. Machine Learning, Deep Learning và mạng nơ-ron đều có các đề nghị phần cứng và phần mềm riêng và sử dụng dữ liệu theo những cách khác nhau.

Mike Leone, nhà phân tách cấp cao của ESG cho biết: “Machine Learning là một tập con của AI và Deep Learning là một tập con của Machine Learning”.

Machine Learning đơn giản hơn và dựa vào các thuật toán do con người viết và đào tạo với dữ liệu đã biết để phát triển khả năng đưa ra dự đoán. Nếu kết quả không chính xác, các nhà khoa học dữ liệu sẽ thay đổi các thuật toán và đào tạo lại mô hình.

Một áp dụng Machine Learning có thể lấy dữ liệu từ hàng nghìn điểm dữ liệu. Một tập dữ liệu vận dụng Deep Learning sẽ là một yêu cầu lớn hơn, dễ dàng đến với hàng triệu điểm dữ liệu.

Leone cho biết: “Deep Learning hoạt động na ná như não người ở chỗ nó bao gồm nhiều lớp liên kết với nhau na ná như các tế bào thần kinh trong não. Dựa trên độ chuẩn xác hoặc không chuẩn xác của các dự đoán, nó có thể tự động học lại hoặc tự điều chỉnh cách học từ dữ liệu .”

>>> Xem thêm: r450 dell



Lưu trữ cho AI có thể khác nhau

đề nghị lưu trữ dữ liệu cho AI rất khác nhau tùy theo vận dụng và tài liệu nguồn. Dekate nói: “Tùy thuộc vào từng trường hợp sử dụng, tập dữ liệu đổi thay khá nhiều. Trong lĩnh vực hình ảnh, nó phát triển gần như theo cấp số nhân khi các file có xu hướng rất lớn”.

“Bất cứ khi nào bạn thực hiện nhận hình dáng ảnh hoặc nhận dạng video hoặc hệ thống thần kinh, bạn sẽ cần kiến trúc mới và khả năng mới. Nhưng trong một trường hợp sử dụng như phát hiện ăn lận, bạn có thể sử dụng “infrastructure stack” mà không cần phần cứng mới để có kết quả đáng kỳ diệu”.

Dữ liệu y tế, khoa học và địa chất, cũng như các tập dữ liệu hình ảnh được sử dụng trong lĩnh vực tình báo và quốc phòng, thường phối hợp khối lượng lưu trữ quy mô petabyte với kích tấc file riêng lẻ trong khuôn khổ gigabyte.

trái lại, dữ liệu được sử dụng trong các lĩnh vực như phân tích chuỗi cung ứng hoặc bảo trì, tu bổ và đại tu trong hàng không – hai lĩnh vực đang phát triển của AI – thì nhỏ hơn nhiều.

Theo Dekate của Gartner, một tập dữ liệu point-of-sale, được sử dụng để dự đoán phân loại bán lẻ, thường đạt tới 100MB đến 200MB, trong khi một tàu bay đương đại, được trang bị cảm biến sẽ tạo ra 50GB đến 100GB dữ liệu vận hành và bảo trì trên mỗi chuyến bay.

CPU, GPU và I/O

Vấn đề đối với các hệ thống AI là chúng cần xử lý dữ liệu nhanh như thế nào. Trong lĩnh vực hàng không, dữ liệu bảo trì dự đoán phải được phân tích khi máy bay đang ở trên mặt đất, với thời gian quay vòng từ vài giờ đối với chuyến bay đường dài đến chỉ vài phút đối với hãng hàng không giá rẻ.

Trong khi đó, một hệ thống nhận dạng khuôn mặt hoặc biển số thì nhu cầu cần một câu giải đáp trong tích tắc và một hệ thống bồi thường bảo hiểm tự động thì trong vài phút.

Điều này đã thúc đẩy các nhà phát triển AI xây dựng các cụm tích hợp GPU, đây là cách hiệu quả nhất để xử lý dữ liệu và chạy các thuật toán phức tạp với tốc độ nhanh. Nhưng các cụm GPU này – thường dựa trên phần cứng điện toán GPU NVidia DGX – đắt tiền và chỉ có sẵn với số lượng nhỏ.

Như Alastair McAulay, một chuyên gia CNTT tại PA Consulting, chỉ ra rằng, các hệ thống máy tính hiệu suất cao (HPC) trong học tập và công nghiệp thường chạy với tỷ lệ sử dụng rất cao vì sự khan thảng hoặc và phí tổn của chúng.

Các viện nghiên cứu tuyển dụng các chuyên gia để giảm hiệu suất rốt cuộc từ phần cứng. Trong doanh nghiệp, việc tích hợp với các hệ thống dữ liệu hiện có có thể quan yếu hơn.

NVMe là công cụ được tuyển lựa

McAulay cho biết: “Chúng tôi thấy việc vận dụng hợp lý loại lưu trữ thể rắn mang lại lợi ích to lớn. Nhưng nó thiên về việc sử dụng file system nào, cách tối ưu hóa hệ thống đó và liệu có cần bất kỳ bộ tăng tốc nào để khẩn hoang tối đa phần cứng lưu trữ [có sẵn] hay không. Họ đang nỗ lực nhiều nhất vào file system và quản lý dữ liệu ”.

Lưu trữ flash hiện đã phổ quát, trong khi flash NVMe đang nổi lên như một dụng cụ được chọn lựa cho các ứng dụng đề xuất tầm nã cập nhanh nhất cho dữ liệu được lưu trữ gần GPU. Ổ cứng quay cơ học vẫn còn đó, nhưng đang ngày càng bị xếp vào vùng lưu trữ dung lượng lớn ở các cấp thấp hơn.

Josh Goldenhar, phó chủ tịch của nhà cung cấp lưu trữ hội tụ NVMe Excelero, cho biết PCIe bus của hệ thống và dung lượng lưu trữ hạn chế trong các máy chủ có GPU dày đặc có thể là một hạn chế lớn hơn so với vấn đề tốc độ lưu trữ.

bên cạnh đó, một quan niệm sai trái phổ quát là các hệ thống AI cần lưu trữ với hiệu suất IOPS cao, trong khi trên thực tại, khả năng xử lý các I/O ngẫu nhiên mới là điều quan trọng.

Dekate của Gartner nói: “Nếu bạn phân tích deep learning, nó sẽ được đọc ngẫu nhiên nhiều hơn trong khi kết quả đầu ra không đáng kể – nó có thể chỉ ở vài kilobyte. Không nhất quyết phải cần đến IOPS cao, mà là kiến trúc được tối ưu hóa đọc ngẫu nhiên.”

>>> Xem thêm: dell r550
 
×
Quay lại
Top