minhduongpro
Thành viên
- Tham gia
- 21/7/2017
- Bài viết
- 4
Có rất nhiều cách AI có thể tăng cường hỗ trợ các chuyên gia dữ liệu trong suốt quy trình thao tác dữ liệu, từ việc gạn lọc ưng chuẩn các tập dữ liệu lớn để tìm các trùng lặp, cho đến việc giảm bớt quá trình chuẩn bị dữ liệu.
Khoa học viễn tưởng từ lâu đã đoán trước ngày trí óc Nhân tạo sẽ được tạo ra, thường là với các kết cuộc tiêu cực. Thực tại đã chứng minh cho đến nay vẫn cho thấy còn nhiều điều viễn vông, với những hẹn ban sơ về các “hệ thống chuyên gia” có thể thay tất yếu cả các “chuyên gia con người” bằng xương bằng làm thịt, hóa ra vẫn chưa hiện thực.
ngoài ra, đã có nhiều tiến bộ về AI trong những năm gần đây, đem đến những hy vọng về khả năng vận dụng nó trong các lĩnh vực như y học, phát hiện gian lận và thậm chí tự động sinh các dòng tiêu đề tiếp thị qua email – một vận dụng mà eBay đã sử dụng. Làm thế nào để thế giới AI mới này vận dụng vào quản lý dữ liệu?
Có rất nhiều áp dụng cho AI trong quản lý dữ liệu để hợp lý hóa toàn bộ quy trình. Dưới đây là ba vận dụng chính cho các công nghệ đang phát triển.
AI trong quản lý dữ liệu tổng thể
Một ví dụ rõ ràng về AI trong quản lý dữ liệu là đối chiếu dữ liệu, đây là nguyên tố cốt lõi của chất lượng dữ liệu và các phương tiện quản lý dữ liệu tổng thể.
Điều khá phổ biến là tìm thấy sự trùng lặp 20% – 30% trong các file tài liệu gốc (master) và các nguồn dữ liệu khác được xem là bản gốc. Trong các đơn vị lớn, dữ liệu ảnh hưởng đến các đối tượng chính như khách hàng hoặc sản phẩm thường bị trùng lặp trên nhiều hệ thống. Các phiên bản khác nhau của bản ghi địa chỉ và tên khách hàng có thể không đầy đủ, lỗi thời hoặc lệch lạc. Và nhân viên có thể nhập dữ liệu vào các hệ thống tiếp thị và bán hàng khác nhau mà không nhận ra rằng giấy tờ khách hàng đã tồn tại.
Việc loại bỏ các bản trùng lặp đã dẫn đến nhiều phương tiện khác nhau áp dụng các thuật toán để phát hiện các lỗi chính tả phổ thông, xác minh mã bưu điện và nhận ra rằng Robert và Bob có thể là cùng một người. Ngoài ra, chỉ một tỷ lệ nhất quyết các bản ghi là bản sao rõ ràng và một phần đông các bản ghi có khả năng trùng lặp cần được chuyên gia (là con người) phê chuẩn.
Một hệ thống chuyên gia bằng máy có thể được huấn luyện bằng cách phê duyệt cách một chuyên gia con người xem xét hàng trăm giấy tờ như vậy và đưa ra các quy tắc cho phép phần mềm càng ngày càng hoàn thiện hơn trong việc bắt chước hành vi của chuyên gia con người. Bằng cách này, phần mềm có thể tự động khớp các bản ghi một cách đáng tin cậy ở một tỷ lệ số trường hợp cao hơn nhiều.
>>> Xem thêm: T550 dell
AI trong các catalog dữ liệu
Một lĩnh vực khác mà AI hứa hẹn là trong các catalog (danh mục) dữ liệu hoặc các kho dữ liệu metadata, vốn từ lâu đã bị lỗi thời do bối cảnh của các áp dụng trong doanh nghiệp đổi thay.
Việc gắn thẻ các từ khóa kinh doanh duyệt học máy có thể chủ động học hỏi từ thông tin nhập của người dùng chuyên nghiệp và đề xuất từ khóa dựa trên các hành động trước đó của con người. Hệ thống có thể nhận ra sự giống nhau giữa các mục trong danh mục dữ liệu và đưa ra yêu cầu về các điều khoản kinh doanh sẽ được gán.
AI trong công việc chuẩn bị dữ liệu (data preparation)
Một lĩnh vực khác mà AI trong quản lý dữ liệu có ích lợi là chuẩn bị dữ liệu, quá trình lấy dữ liệu thô và chuẩn bị cho quá trình xử lý, phân tích tiếp theo.
Chuẩn bị dữ liệu là một thực hành cấp thiết khi bạn xác định các nguồn dữ liệu của mình, có thể trùng lặp; tìm ra nơi dữ liệu đang được sử dụng và liệu nó có đáng tin cậy hay không; quyết định xem nó có cần được liên kết với các nguồn dữ liệu khác hay không; và có thể làm phong phú nó với các thuộc tính bổ sung.
Các công cụ AI rất thích hợp để phân tách mối quan hệ giữa các nguồn dữ liệu và áp dụng các luật lệ sống sót để quyết định nguồn nào đáng tin cậy nhất . Ví dụ, các chương trình AI có thể xác định rằng một địa chỉ được cập nhật vào tháng trước có thể đáng tin cậy hơn địa chỉ được cập nhật 10 năm trước.
Cũng giống như đối chiếu dữ liệu, trong nhiều trường hợp, mọi thứ không rõ ràng và đòi hỏi sự đánh giá của con người. Bằng cách theo dõi hành động của các chuyên gia trong lĩnh vực, một chương trình AI có thể dần dần học cách bắt chước phán đoán của một chuyên gia.
Những thách thức với AI trong quản lý dữ liệu
mặc dầu có rất nhiều lợi ích đối với việc quản lý dữ liệu dựa trên AI, nhưng công nghệ này vẫn đang phát triển và đã được chứng minh là đầy thách thức trong một số môi trường. Nhiều mô hình AI là chiếc hộp đen, nghĩa là chúng phải vật lộn để giảng giải lý do của mình theo cách mà con người có thể tiếp cận được. Điều này khiến niềm tin trở thành một vấn đề, đặc biệt là khi có những thí dụ được công bố rộng rãi trong đó AI không mang lại hiệu quả như trông chờ.
Năm 2013, IBM cộng tác với trung tâm ung bứu MD Anderson của Đại học Texas để sử dụng IBM Watson để rà soát dữ liệu bệnh nhân và nghiên cứu nhằm phát hiện ra các hình mẫu có thể giúp bác sĩ chống lại bệnh ung thư. Một mục đích đáng mến mộ, nhưng sau năm năm xem xét lại hệ thống đã tìm thấy “nhiều thí dụ về các khuyến nghị điều trị không an toàn và không chính xác”, theo các chuyên gia y tế của dự án.
Một cuộc khảo sát năm 2018 với 200 CIO của Databricks đã tìm thấy một số thách thức lớn trong việc khai triển các chương trình AI. 98% Người giải đáp khảo sát thể hiện việc chuẩn bị các data set lớn là một thách thức, 96% cho biết điều rưa rứa đối với việc khám phá dữ liệu và đào tạo mô hình lặp lại và 90% nhận thấy việc khai triển các mô hình AI vào thực tế là một thách thức.
tuy nhiên, trong các lĩnh vực được xác định rõ ràng như đối chiếu dữ liệu và danh mục dữ liệu, rõ ràng có tiềm năng tự động hóa các nhiệm vụ mà con người lâu nay cảm thấy cực kỳ tẻ nhạt. Trong nhiều trường hợp, áp dụng hợp lý của AI trong quản lý dữ liệu – mà không cường điệu khả năng của chúng – có thể mang lại lợi ích thực sự cho đơn vị.
>>> Xem thêm: R250 Dell
Khoa học viễn tưởng từ lâu đã đoán trước ngày trí óc Nhân tạo sẽ được tạo ra, thường là với các kết cuộc tiêu cực. Thực tại đã chứng minh cho đến nay vẫn cho thấy còn nhiều điều viễn vông, với những hẹn ban sơ về các “hệ thống chuyên gia” có thể thay tất yếu cả các “chuyên gia con người” bằng xương bằng làm thịt, hóa ra vẫn chưa hiện thực.
ngoài ra, đã có nhiều tiến bộ về AI trong những năm gần đây, đem đến những hy vọng về khả năng vận dụng nó trong các lĩnh vực như y học, phát hiện gian lận và thậm chí tự động sinh các dòng tiêu đề tiếp thị qua email – một vận dụng mà eBay đã sử dụng. Làm thế nào để thế giới AI mới này vận dụng vào quản lý dữ liệu?
Có rất nhiều áp dụng cho AI trong quản lý dữ liệu để hợp lý hóa toàn bộ quy trình. Dưới đây là ba vận dụng chính cho các công nghệ đang phát triển.
AI trong quản lý dữ liệu tổng thể
Một ví dụ rõ ràng về AI trong quản lý dữ liệu là đối chiếu dữ liệu, đây là nguyên tố cốt lõi của chất lượng dữ liệu và các phương tiện quản lý dữ liệu tổng thể.
Điều khá phổ biến là tìm thấy sự trùng lặp 20% – 30% trong các file tài liệu gốc (master) và các nguồn dữ liệu khác được xem là bản gốc. Trong các đơn vị lớn, dữ liệu ảnh hưởng đến các đối tượng chính như khách hàng hoặc sản phẩm thường bị trùng lặp trên nhiều hệ thống. Các phiên bản khác nhau của bản ghi địa chỉ và tên khách hàng có thể không đầy đủ, lỗi thời hoặc lệch lạc. Và nhân viên có thể nhập dữ liệu vào các hệ thống tiếp thị và bán hàng khác nhau mà không nhận ra rằng giấy tờ khách hàng đã tồn tại.
Việc loại bỏ các bản trùng lặp đã dẫn đến nhiều phương tiện khác nhau áp dụng các thuật toán để phát hiện các lỗi chính tả phổ thông, xác minh mã bưu điện và nhận ra rằng Robert và Bob có thể là cùng một người. Ngoài ra, chỉ một tỷ lệ nhất quyết các bản ghi là bản sao rõ ràng và một phần đông các bản ghi có khả năng trùng lặp cần được chuyên gia (là con người) phê chuẩn.
Một hệ thống chuyên gia bằng máy có thể được huấn luyện bằng cách phê duyệt cách một chuyên gia con người xem xét hàng trăm giấy tờ như vậy và đưa ra các quy tắc cho phép phần mềm càng ngày càng hoàn thiện hơn trong việc bắt chước hành vi của chuyên gia con người. Bằng cách này, phần mềm có thể tự động khớp các bản ghi một cách đáng tin cậy ở một tỷ lệ số trường hợp cao hơn nhiều.
>>> Xem thêm: T550 dell
AI trong các catalog dữ liệu
Một lĩnh vực khác mà AI hứa hẹn là trong các catalog (danh mục) dữ liệu hoặc các kho dữ liệu metadata, vốn từ lâu đã bị lỗi thời do bối cảnh của các áp dụng trong doanh nghiệp đổi thay.
Việc gắn thẻ các từ khóa kinh doanh duyệt học máy có thể chủ động học hỏi từ thông tin nhập của người dùng chuyên nghiệp và đề xuất từ khóa dựa trên các hành động trước đó của con người. Hệ thống có thể nhận ra sự giống nhau giữa các mục trong danh mục dữ liệu và đưa ra yêu cầu về các điều khoản kinh doanh sẽ được gán.
AI trong công việc chuẩn bị dữ liệu (data preparation)
Một lĩnh vực khác mà AI trong quản lý dữ liệu có ích lợi là chuẩn bị dữ liệu, quá trình lấy dữ liệu thô và chuẩn bị cho quá trình xử lý, phân tích tiếp theo.
Chuẩn bị dữ liệu là một thực hành cấp thiết khi bạn xác định các nguồn dữ liệu của mình, có thể trùng lặp; tìm ra nơi dữ liệu đang được sử dụng và liệu nó có đáng tin cậy hay không; quyết định xem nó có cần được liên kết với các nguồn dữ liệu khác hay không; và có thể làm phong phú nó với các thuộc tính bổ sung.
Các công cụ AI rất thích hợp để phân tách mối quan hệ giữa các nguồn dữ liệu và áp dụng các luật lệ sống sót để quyết định nguồn nào đáng tin cậy nhất . Ví dụ, các chương trình AI có thể xác định rằng một địa chỉ được cập nhật vào tháng trước có thể đáng tin cậy hơn địa chỉ được cập nhật 10 năm trước.
Cũng giống như đối chiếu dữ liệu, trong nhiều trường hợp, mọi thứ không rõ ràng và đòi hỏi sự đánh giá của con người. Bằng cách theo dõi hành động của các chuyên gia trong lĩnh vực, một chương trình AI có thể dần dần học cách bắt chước phán đoán của một chuyên gia.
Những thách thức với AI trong quản lý dữ liệu
mặc dầu có rất nhiều lợi ích đối với việc quản lý dữ liệu dựa trên AI, nhưng công nghệ này vẫn đang phát triển và đã được chứng minh là đầy thách thức trong một số môi trường. Nhiều mô hình AI là chiếc hộp đen, nghĩa là chúng phải vật lộn để giảng giải lý do của mình theo cách mà con người có thể tiếp cận được. Điều này khiến niềm tin trở thành một vấn đề, đặc biệt là khi có những thí dụ được công bố rộng rãi trong đó AI không mang lại hiệu quả như trông chờ.
Năm 2013, IBM cộng tác với trung tâm ung bứu MD Anderson của Đại học Texas để sử dụng IBM Watson để rà soát dữ liệu bệnh nhân và nghiên cứu nhằm phát hiện ra các hình mẫu có thể giúp bác sĩ chống lại bệnh ung thư. Một mục đích đáng mến mộ, nhưng sau năm năm xem xét lại hệ thống đã tìm thấy “nhiều thí dụ về các khuyến nghị điều trị không an toàn và không chính xác”, theo các chuyên gia y tế của dự án.
Một cuộc khảo sát năm 2018 với 200 CIO của Databricks đã tìm thấy một số thách thức lớn trong việc khai triển các chương trình AI. 98% Người giải đáp khảo sát thể hiện việc chuẩn bị các data set lớn là một thách thức, 96% cho biết điều rưa rứa đối với việc khám phá dữ liệu và đào tạo mô hình lặp lại và 90% nhận thấy việc khai triển các mô hình AI vào thực tế là một thách thức.
tuy nhiên, trong các lĩnh vực được xác định rõ ràng như đối chiếu dữ liệu và danh mục dữ liệu, rõ ràng có tiềm năng tự động hóa các nhiệm vụ mà con người lâu nay cảm thấy cực kỳ tẻ nhạt. Trong nhiều trường hợp, áp dụng hợp lý của AI trong quản lý dữ liệu – mà không cường điệu khả năng của chúng – có thể mang lại lợi ích thực sự cho đơn vị.
>>> Xem thêm: R250 Dell