tienchiase
Thành viên
- Tham gia
- 20/9/2019
- Bài viết
- 1
Khái niệm cơ bản về Big Data
Vào năm 2001, nhà phân tách Doug Laney của hãng META Group (giờ là nhà hàng nghiên cứu Gartner) đã kể rằng các thách thức và thời cơ nằm trong việc nâng cao trưởng dữ liệu sở hữu thể được biểu hiện bằng ba chiều “3V”
- Tăng về số lượng lưu trữ (volume)
- Tăng về tốc độ xử lý (velocity)
- Tăng về chủng chiếc (variety)
Giờ đây, Gartner cộng có rộng rãi công ty và đơn vị khác trong lĩnh vực kỹ thuật thông tin tiếp tục tiêu dùng mô hình “3V” này để định nghĩa bắt buộc Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data không tính ba thuộc tính trên thì còn phải “cần tới những dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/ sự việc và tuyệt vời hóa các quy trình làm việc”.
Sau đây là khái niệm mới về Big Data 2014 của Gartner về mô hình “5Vs” – năm thuộc tính quan yếu kể lên Big Data:
1. Volume (Số lượng lưu trữ)
Big Data (“dữ liệu lớn”) là tụ tập dữ liệu với dung lượng lưu trữ vượt mức cáng đáng của những ứng dụng và dụng cụ truyền thống. Kích cỡ của Big Data đang từng ngày nâng cao lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho tới phổ biến petabyte (1 petabyte = 1024 terabyte) chỉ cho 1 hội tụ dữ liệu mà thôi.
2. Velocity (Tốc độ xử lý)
Dung lượng gia nâng cao của dữ liệu siêu nhanh và tốc độ xử lý đang tiến tới real-time. Các vận dụng đa dạng trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe ngày hôm nay số đông dữ liệu to đc xử lý real-time. Công nghệ xử lý dữ liệu lớn ngày 1 tiên tiến cho phép chúng ta xử lý tức tốc trước lúc chúng được lưu trữ vào cơ sở dữ liệu.
3. Variety (Đa dạng chủng loại)
Hình thức lưu trữ và chủng cái dữ liệu ngày một nhiều hơn. Trước đây chúng ta hay đề cập tới dữ liệu mang cấu trúc thì hiện tại hơn 80% dữ liệu trên thế giới được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, voice...). Công nghệ Big Data cho phép chúng ta ngày nay kết liên và phân tích nhiều chủng chiếc dữ liệu với nhau như comments/ post của 1 nhóm người sử dụng nào đấy trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.
4. Veracity (Độ chính xác)
Một trong các tính chất phức tạp nhất của Big Data là độ chuẩn xác của dữ liệu. Với xu hướng Social Media và Social Network bây giờ và sự gia tăng mạnh mẽ tính tác động và san sớt của người dùng Mobile khiến cho bức tranh xác định về độ tin cậy & xác thực của dữ liệu ngày một cạnh tranh hơn. Bài toán phân tách và chiếc bỏ dữ liệu thiếu chuẩn xác và nhiễu đang là thuộc tính quan yếu của BigData.
5. Value (Giá trị thông tin)
Giá trị thông báo là tính chất quan yếu nhất của xu hướng kỹ thuật Big Data. Ở đây nhà hàng nên hoạch định được những giá trị thông tin có ích của BigData cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình. Có thể nhắc việc trước tiên là buộc phải xác định được tính chất “Value” thì mới phải bắt tay vào BigData.
Big Data trong kỹ thuật
Chắc hẳn ở đây mọi người được đều nghe về kỹ thuật đám mây, vậy thì kỹ thuật đám mây là gì và nó được lưu trữ như thế nào. Bài toán đặt ra là chúng ta phải lưu trữ một khối lượng dữ liệu khổng lồ mà những hệ quản trị dữ liệu thường ngày ko thể khiến được điều đó. Vậy biện pháp lưu trữ 1 khối lượng dữ liệu to như vậy là gì, các nhà công nghệ đã đau đầu vì điều này, và họ đã với ý tưởng và xây dựng lên kiến trúc lưu trữ lớn và gọi là BigData. Ở bài viết này chúng ta sẽ kể tới Big Data trong kỹ thuật đám mây.
1. Tốc độ, khối lượng, tính rộng rãi và chuẩn xác của dữ liệu
Dữ liệu lớn (Big Data) là 1 tính năng vốn có của kỹ thuật đám mây và cung ứng thời cơ chưa từng mang khi dùng cả hai chiếc cơ sở dữ liệu truyền thống và mạng xã hội, dữ liệu của mạng báo hiệu và xa hơn nữa là dữ liệu đa phương tiện. Các áp dụng dữ liệu to yêu cầu kiến trúc trọng điểm dữ liệu và phổ biến giải pháp bao gồm những API của nền móng đám mây để tích hợp có kiếm tìm nâng cao, các giải thuật máy học và các phân tách nâng cao như thị giác máy tính, phân tích phim ảnh và những công cụ phân tách trực quan. Bài viết này nghiên cứu bí quyết sử dụng tiếng nói R và những dụng cụ nhiều để phân tích dữ liệu to và những bí quyết để mở rộng các dịch vụ dữ liệu to trong các đám mây.
Nó cung cấp một góc nhìn sâu nhan sắc về 1 dịch vụ dữ liệu lớn căn bản là quản lý hình ảnh số, trong đấy sử dụng những khía cạnh căn bản như sắm kiếm, phân tích và máy học cho dữ liệu không sở hữu cấu trúc. Sự khác biệt giữa phân tích dữ liệu lớn mang phân tách video là về sự nhiều của dữ liệu xử lý, và lúc so sánh các công cụ hỗ trợ kiếm tìm và phân tích, ta với thể thấy rằng dùng những bí quyết khẩn hoang dữ liệu hay MapReduce chẳng các có thể phức tạp hơn mà còn mất thời kì lâu hơn cực kỳ rộng rãi so mang việc tiêu dùng Google BigQuery. Ví dụ Google BigQuery dùng kiếm tìm theo chiều dọc để nén và đẩy nhanh công đoạn kiếm tìm cho những bộ dữ liệu to và phi cấu trúc.
Thực tế, trong bài “An Inside Look at Google BigQuery (Tìm hiểu sâu về Google BigQuery)”, Google giải thích, trong 10 giây BigQuery có thể kiếm tìm 1 đoạn chuỗi trong một bảng dữ liệu mang khoảng 35 tỷ loại và 20TB. Các công cụ dùng chức năng MapReduce mất rộng rãi thời gian hơn để xử lý nhưng mang đến kết quả tốt hơn.
2. Định nghĩa dữ liệu lớn
Dữ liệu lớn (Big data) được định nghĩa khái quát là sự thu thập, quản lý và phân tích dữ liệu, các việc đấy đã vượt xa dữ liệu cấu trúc tiêu biểu (typical), nó mang thể được truy tìm vấn với hệ thống quản lý dữ liệu quan hệ — thường mang các tệp phi cấu trúc (unstructured files), video khoa học số, hình ảnh, dữ liệu cảm biến, tệp lưu nhật ký, đích thực bất cứ dữ liệu nào không với trong giấy tờ có những khuôn khổ tìm kiếm khác.
Trong một số ý nghĩa, dữ liệu phi cấu trúc là dữ liệu thú vị, nhưng nó khó tổng hợp vào BI (Business Intelligence) hoặc rút trích ra những kết luận từ nó trừ lúc nó với thể tương quan có dữ liệu với cấu trúc. Dữ liệu to cũng với những nguồn mới, như trong máy tính (vd: các file log nhật ký hay mạng cảm biến), trong đồ vật di động (video, hình ảnh, tin nhắn), và trong những vật dụng máy móc kết nối có nhau (vd như xe, tàu bay hoặc các thiết bị giám sát từ xa) nhằm mục tiêu lên kế hoạch bảo trì kịp thời. Có 1 cách để làm cho được việc này là dựa vào đặc tính volume (khối lượng). IBM ước lượng, mang 2.5 nhân 10 mũ 18 bytes (2,500,000,000,000,000,000) dữ liệu được tạo ra mỗi ngày.
3. Thiết kế hệ thống dữ liệu lớn
Những kiến trúc bảo vệ dữ liệu ở quy mô to buộc phải bao gồm việc chống mất mát, hư hỏng ngầm, phần mềm độc hại, và ý đồ chỉnh sửa dữ liệu bởi các tội nhân mạng hoặc phê chuẩn chiến tranh mạng. Dữ liệu là của cải và càng ngày càng được dùng đa dạng bởi chính phủ và cũng như trong buôn bán để đưa ra những quyết định quan trọng, nhưng trường hợp độ chân thực của dữ liệu ko được biết, giá trị của dữ liệu bị giảm hoặc thậm chí bị mất và tệ hơn nữa là: khiến cho cho việc đưa ra quyết định sai lầm.
Chủ đề này nằm ngoại khuôn khổ luận bàn của bài viết, nhưng rõ ràng sự bảo vệ mất mát và sửa đổi ko được biết hoặc hỏng hóc dữ liệu là phải thiết. Một phương pháp để hiểu dữ liệu lớn rõ hơn đơn thuần là tiếp cận sắp hơn các trang web điện toán đám – mây, các trang web này với đủ dữ liệu (thông thường là petabytes) cùng sở hữu các phương tiện truy tìm vấn (thường là terabytes) cho những áp dụng sử dụng.
Hầu hết chúng ta truy nã vấn Google hàng ngày, nhưng Google cũng cung ứng BigQuery, BigQuery dùng việc lưu trữ và tìm kiếm theo dạng cột phức tạp hơn (đã được bàn thảo kỹ hơn ưng chuẩn 1 ví dụ).
Những ví dụ nức danh khác như là Facebook (mạng xã hội), Wikipedia (thư viện mở), Internet Archive (nhà giám sát dữ liệu công nghệ số), DigitalGlobe (hệ thống thông tin địa lý [GIS]), Microsoft® Virtual Earth (GIS), Google Earth (GIS), và đông đảo các nhà cung cấp dịch vụ dữ liệu lớn mới.
4. Thiết kế hệ thống dữ liệu lớn
Những kiến trúc bảo vệ dữ liệu ở quy mô to buộc phải bao gồm việc chống mất mát, hư hỏng ngầm, phần mềm độc hại, và ý đồ chỉnh sửa dữ liệu bởi những tầy mạng hoặc thông qua chiến tranh mạng.
Dữ liệu là của cải và ngày một được sử dụng rộng rãi bởi chính phủ và cũng như trong buôn bán để đưa ra những quyết định quan trọng, nhưng nếu độ chân thực của dữ liệu ko được biết, giá trị của dữ liệu bị giảm hoặc thậm chí bị mất và tệ hơn nữa là: làm cho cho việc đưa ra quyết định sai lầm. Chủ đề này nằm ngoại phạm vi trao đổi của bài viết, nhưng rõ ràng sự bảo vệ mất mát và sửa đổi ko được biết hoặc hỏng hóc dữ liệu là nên thiết.
Một phương pháp để hiểu dữ liệu to rõ hơn đơn thuần là tiếp cận sắp hơn các trang web điện toán đám mây, các trang web này mang đủ dữ liệu (thông thường là petabytes) cùng có những công cụ truy tìm vấn (thường là terabytes) cho những ứng dụng sử dụng. Hầu hết chúng ta truy vấn Google hàng ngày, nhưng Google cũng cung cấp BigQuery, BigQuery sử dụng việc lưu trữ và kiếm tìm theo dạng cột phức tạp hơn (đã được thảo luận kỹ hơn chuẩn y 1 ví dụ).
Những thí dụ nức danh khác như là Facebook (mạng xã hội), Wikipedia (thư viện mở), Internet Archive (nhà giám sát dữ liệu kỹ thuật số), DigitalGlobe (hệ thống thông tin địa lý [GIS]), Microsoft® Virtual Earth (GIS), Google Earth (GIS), và phần lớn các nhà phân phối dịch vụ dữ liệu lớn mới.
5. Những ứng dụng dữ liệu lớn
Phân tích tâm lý thị trường chứng khoán tiêu dùng Google Trends đã chỉ ra được tương quan phải chăng cho các tăng giảm chỉ mục theo thời gian, mà mang lẽ ko đáng sửng sốt nhưng những thú vị về tính trọng đại như một vận dụng dữ liệu lớn.
Bài viết “Quantifying Trading Behavior in Financial Markets Using Google Trends (Dự đoán xu thế thương mại trong thị trường tài chính dùng Google Trends)” chế tạo bằng cớ rằng việc sử dụng phân tích tâm lý để kéo dài hay rút ngắn quyết định chọn và bán cổ phiếu nắm giữ mang thể thấp hơn việc sắm và nắm giữ các chiến lược đơn thuần và quỹ đầu tư index. Nghiên cứu này mang thể được phân tích chi tiết hơn nhưng những kết quả của nó cũng khá thuyết phục. Một nghiên cứu thú vị dự báo những khả năng xảy ra của một hệ thống cho một lĩnh vực hình thức marketing thực tế. Phân dòng hình ảnh Picasa từ Google là công cụ có ích cho phép người sử dụng sắp xếp, truy hỏi vấn, và nhận dạng khuôn mặt tự động dùng những khoa học thị giác máy tính kết hợp mang máy học. Đây là một kết quả xuất sắc sở hữu được từ giá trị của các ứng dụng và dịch vụ trên dữ liệu lớn. Công cụ này khiến cho rõ việc phân tích dữ liệu lớn sẽ đòi hỏi phân tách tăng như thị giác máy tính và cách như thị giác máy tính.
Những hệ thống được khuyến cáo như Pandora (âm nhạc), Netflix (phim ảnh), và Amazon (sách và sản phẩm) sử dụng dữ liệu quý khách và phổ biến đại lý trong một phương pháp tiếp cận được biết đến là collaborative filtering (phương pháp lọc cộng tác). Dịch vụ dữ liệu lớn này đã là chủ đề của rộng rãi nghiên cứu hiện đại trong máy học và khai khẩn dữ liệu. Rõ ràng là giả dụ khả năng thực hiện gợi ý tốt thì mang thể nâng cao doanh số bán hàng và sự bằng lòng của khách hàng.
Những phân tách dựa trên người dùng có thể phân tích tâm lý cho các bạn của bạn dựa trên dữ liệu mạng xã hội (Facebook và Twitter) khi dữ liệu văn bản này mang liên quan tới BI (Business Intelligence) thu thập từ các thông báo giao tiếp người mua truyền thống. Phân tích tâm lý cho phép một doanh nghiệp biết nhu cầu người mua muốn về sản phẩm của họ, sự quan tâm của người dùng về sản phẩm của họ hay của đối thủ cạnh tranh, những gì quý khách thích và không thích. Dữ liệu được tạo ra từ máy tính với xuất phát từ những hệ thống mạng báo hiệu (ví dụ: những cảm biến nhúng trong các hệ thống lớn như giao thông đô thị, đèn giao thông, và cơ sở hạ tầng); dữ liệu giữa các trang bị máy móc, theo ấy mà những đồ vật cảm biến hay dữ liệu đăng nhập từ 1 máy (thường là trong lĩnh vực này) được truyền tới những máy khác.
Hệ thống đặt chỗ cho du lịch thì đang được cải thiện bằng cách hài hòa sở thích khách hàng, hậu cần và tiền sử trước lúc đưa ra những đề nghị hữu ích, đấy luôn là một nhiệm vụ khó khăn. Giải trí trên mạng xã hội đang đổi thay những chi tiết xã hội của việc phát sóng truyền hình và các đoạn phim, nơi mà công nghệ số đáp ứng đề nghị nội dung đa số lúc hầu hết nơi, nhưng việc san sớt kinh nghiệm vẫn buộc phải phê duyệt mạng xã hội. Mặc dù vậy, điều này giúp khán nhái cảm thấy thú vị hơn, cho phép khán nhái sáng tạo nội dung, biên kịch, và những nghệ sĩ sở hữu thể biết rộng rãi hơn về khán giả của họ. Hệ chuẩn đoán y học bao gồm những hệ thống có sự hỗ trợ của hệ chuyên gia dựa trên luật (gọi là DSSes: Rule-based Expert Decision Support Systems), nhưng với dữ liệu lớn, chứng cứ tồn tại các hệ thống này mang thể ra khỏi nghiên cứu và phát triển thành những người phụ tá y tế chính.
Big Data trong cuộc sống và kinh doanh
1. Trên thế giới
Nhờ BigData, năm 2013, Amazon đạt doanh thu tới 74 tỷ USD, IBM đạt hơn 16 tỷ USD. BigData là nhu cầu đang tăng trưởng lớn tới nỗi từ năm 2010, Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỷ USD cho những siêu thị chuyên về quản lý và phân tích dữ liệu. Interactions Marketing, 1 công ty tiếp thị theo hình thức tận dụng ngay chính khách hàng của mình, đã tiến hành kiểm soát dữ liệu to bằng bí quyết tiêu dùng dữ liệu giao tế điểm bán hàng và dữ liệu thông tin thời tiết khu vực từ phổ biến nguồn khác nhau để với được các hiểu biết nhanh nhất về hành vi chọn sắm.
Ngay cả chiến dịch bầu cử của Mỹ cũng với thể được hợp lý hóa bằng việc dùng phân tích dữ liệu lớn. Các chuyên gia cho rằng, ông Obama giành chiến thắng trong chiến dịch bầu cử năm 2012 là do khả năng vượt trội của hàng ngũ tiêu dùng khả năng phân tách dữ liệu lớn. Gần đây nhất là mùa Worldcup năm ngoái 2014 diễn ra tại Brazin, đội tuyển Đức sở hữu 1 chiến thuật hợp lý, nổi bật cho từng trận chiến mang từng đối thủ cũng như cho cả vòng loại? Bí mật này nằm ở công nghệ phân tích big data mà đội tuyển Đức ứng dụng từ các năm 2012. Công nghệ này giúp phân tích từng cầu thủ đối phương, đồng thời đưa ra biện pháp logic cho từng cầu thủ trong đội tuyển Đức.
2. Tại việt nam
FPT cho biết, doanh thu năm 2013 từ S.M.A.C (Mạng xã hội/ Bảo mật), Mobility (Công nghệ di động), Analytics Big Data (Phân tích dữ liệu lớn), Cloud (Điện toán đám mây) đạt 95 tỷ đồng.
Tổng giám đốc IBM Việt Nam cho biết, Big Data và những giải pháp phân tách buôn bán đang phát triển thành trọng điểm trong giai đoạn “chuyển mình” của IBM. Theo ông Tan Jee Toon, mỗi ngày, nền kinh tế thế giới tạo ra 2.5 exabyte dữ liệu (tương đương dữ liệu đựng trên 625 triệu đĩa DVD).
Big Data và những kỹ thuật phân tách với khả năng làm đổi thay hoàn đa số mặt của các ngành kinh tế và các nghề nghiệp Những mô hình buôn bán mới dựa trên Big Data đang được hình thành để giúp những tổ chức, công ty tận dụng dữ liệu. Đây cũng là xu hướng thế tất trong ngày mai ko xa mang doanh nghiệp Việt Nam.
Kết luận
Big Data là thách thức đặt ra cho những tổ chức, nhà hàng trong thời đại số hiện nay. Một khi khiến chủ được dữ liệu to thì họ sẽ sở hữu cơ hội thành công lớn hơn trong bối cảnh khó khăn ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu dụng hơn mang giá tiền phải chăng hơn. Vẫn còn đấy các chỉ trích xoay loanh quanh Big Data, ngoại giả lĩnh vực này vẫn còn siêu mới và chúng ta hãy chờ xem trong tương lai Big Data sẽ tiến hóa như thế nào.
Vào năm 2001, nhà phân tách Doug Laney của hãng META Group (giờ là nhà hàng nghiên cứu Gartner) đã kể rằng các thách thức và thời cơ nằm trong việc nâng cao trưởng dữ liệu sở hữu thể được biểu hiện bằng ba chiều “3V”
- Tăng về số lượng lưu trữ (volume)
- Tăng về tốc độ xử lý (velocity)
- Tăng về chủng chiếc (variety)
Giờ đây, Gartner cộng có rộng rãi công ty và đơn vị khác trong lĩnh vực kỹ thuật thông tin tiếp tục tiêu dùng mô hình “3V” này để định nghĩa bắt buộc Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data không tính ba thuộc tính trên thì còn phải “cần tới những dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự vật/ sự việc và tuyệt vời hóa các quy trình làm việc”.
Sau đây là khái niệm mới về Big Data 2014 của Gartner về mô hình “5Vs” – năm thuộc tính quan yếu kể lên Big Data:
1. Volume (Số lượng lưu trữ)
Big Data (“dữ liệu lớn”) là tụ tập dữ liệu với dung lượng lưu trữ vượt mức cáng đáng của những ứng dụng và dụng cụ truyền thống. Kích cỡ của Big Data đang từng ngày nâng cao lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte cho tới phổ biến petabyte (1 petabyte = 1024 terabyte) chỉ cho 1 hội tụ dữ liệu mà thôi.
2. Velocity (Tốc độ xử lý)
Dung lượng gia nâng cao của dữ liệu siêu nhanh và tốc độ xử lý đang tiến tới real-time. Các vận dụng đa dạng trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe ngày hôm nay số đông dữ liệu to đc xử lý real-time. Công nghệ xử lý dữ liệu lớn ngày 1 tiên tiến cho phép chúng ta xử lý tức tốc trước lúc chúng được lưu trữ vào cơ sở dữ liệu.
3. Variety (Đa dạng chủng loại)
Hình thức lưu trữ và chủng cái dữ liệu ngày một nhiều hơn. Trước đây chúng ta hay đề cập tới dữ liệu mang cấu trúc thì hiện tại hơn 80% dữ liệu trên thế giới được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, voice...). Công nghệ Big Data cho phép chúng ta ngày nay kết liên và phân tích nhiều chủng chiếc dữ liệu với nhau như comments/ post của 1 nhóm người sử dụng nào đấy trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.
4. Veracity (Độ chính xác)
Một trong các tính chất phức tạp nhất của Big Data là độ chuẩn xác của dữ liệu. Với xu hướng Social Media và Social Network bây giờ và sự gia tăng mạnh mẽ tính tác động và san sớt của người dùng Mobile khiến cho bức tranh xác định về độ tin cậy & xác thực của dữ liệu ngày một cạnh tranh hơn. Bài toán phân tách và chiếc bỏ dữ liệu thiếu chuẩn xác và nhiễu đang là thuộc tính quan yếu của BigData.
5. Value (Giá trị thông tin)
Giá trị thông báo là tính chất quan yếu nhất của xu hướng kỹ thuật Big Data. Ở đây nhà hàng nên hoạch định được những giá trị thông tin có ích của BigData cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình. Có thể nhắc việc trước tiên là buộc phải xác định được tính chất “Value” thì mới phải bắt tay vào BigData.
Big Data trong kỹ thuật
Chắc hẳn ở đây mọi người được đều nghe về kỹ thuật đám mây, vậy thì kỹ thuật đám mây là gì và nó được lưu trữ như thế nào. Bài toán đặt ra là chúng ta phải lưu trữ một khối lượng dữ liệu khổng lồ mà những hệ quản trị dữ liệu thường ngày ko thể khiến được điều đó. Vậy biện pháp lưu trữ 1 khối lượng dữ liệu to như vậy là gì, các nhà công nghệ đã đau đầu vì điều này, và họ đã với ý tưởng và xây dựng lên kiến trúc lưu trữ lớn và gọi là BigData. Ở bài viết này chúng ta sẽ kể tới Big Data trong kỹ thuật đám mây.
1. Tốc độ, khối lượng, tính rộng rãi và chuẩn xác của dữ liệu
Dữ liệu lớn (Big Data) là 1 tính năng vốn có của kỹ thuật đám mây và cung ứng thời cơ chưa từng mang khi dùng cả hai chiếc cơ sở dữ liệu truyền thống và mạng xã hội, dữ liệu của mạng báo hiệu và xa hơn nữa là dữ liệu đa phương tiện. Các áp dụng dữ liệu to yêu cầu kiến trúc trọng điểm dữ liệu và phổ biến giải pháp bao gồm những API của nền móng đám mây để tích hợp có kiếm tìm nâng cao, các giải thuật máy học và các phân tách nâng cao như thị giác máy tính, phân tích phim ảnh và những công cụ phân tách trực quan. Bài viết này nghiên cứu bí quyết sử dụng tiếng nói R và những dụng cụ nhiều để phân tích dữ liệu to và những bí quyết để mở rộng các dịch vụ dữ liệu to trong các đám mây.
Nó cung cấp một góc nhìn sâu nhan sắc về 1 dịch vụ dữ liệu lớn căn bản là quản lý hình ảnh số, trong đấy sử dụng những khía cạnh căn bản như sắm kiếm, phân tích và máy học cho dữ liệu không sở hữu cấu trúc. Sự khác biệt giữa phân tích dữ liệu lớn mang phân tách video là về sự nhiều của dữ liệu xử lý, và lúc so sánh các công cụ hỗ trợ kiếm tìm và phân tích, ta với thể thấy rằng dùng những bí quyết khẩn hoang dữ liệu hay MapReduce chẳng các có thể phức tạp hơn mà còn mất thời kì lâu hơn cực kỳ rộng rãi so mang việc tiêu dùng Google BigQuery. Ví dụ Google BigQuery dùng kiếm tìm theo chiều dọc để nén và đẩy nhanh công đoạn kiếm tìm cho những bộ dữ liệu to và phi cấu trúc.
Thực tế, trong bài “An Inside Look at Google BigQuery (Tìm hiểu sâu về Google BigQuery)”, Google giải thích, trong 10 giây BigQuery có thể kiếm tìm 1 đoạn chuỗi trong một bảng dữ liệu mang khoảng 35 tỷ loại và 20TB. Các công cụ dùng chức năng MapReduce mất rộng rãi thời gian hơn để xử lý nhưng mang đến kết quả tốt hơn.
2. Định nghĩa dữ liệu lớn
Dữ liệu lớn (Big data) được định nghĩa khái quát là sự thu thập, quản lý và phân tích dữ liệu, các việc đấy đã vượt xa dữ liệu cấu trúc tiêu biểu (typical), nó mang thể được truy tìm vấn với hệ thống quản lý dữ liệu quan hệ — thường mang các tệp phi cấu trúc (unstructured files), video khoa học số, hình ảnh, dữ liệu cảm biến, tệp lưu nhật ký, đích thực bất cứ dữ liệu nào không với trong giấy tờ có những khuôn khổ tìm kiếm khác.
Trong một số ý nghĩa, dữ liệu phi cấu trúc là dữ liệu thú vị, nhưng nó khó tổng hợp vào BI (Business Intelligence) hoặc rút trích ra những kết luận từ nó trừ lúc nó với thể tương quan có dữ liệu với cấu trúc. Dữ liệu to cũng với những nguồn mới, như trong máy tính (vd: các file log nhật ký hay mạng cảm biến), trong đồ vật di động (video, hình ảnh, tin nhắn), và trong những vật dụng máy móc kết nối có nhau (vd như xe, tàu bay hoặc các thiết bị giám sát từ xa) nhằm mục tiêu lên kế hoạch bảo trì kịp thời. Có 1 cách để làm cho được việc này là dựa vào đặc tính volume (khối lượng). IBM ước lượng, mang 2.5 nhân 10 mũ 18 bytes (2,500,000,000,000,000,000) dữ liệu được tạo ra mỗi ngày.
3. Thiết kế hệ thống dữ liệu lớn
Những kiến trúc bảo vệ dữ liệu ở quy mô to buộc phải bao gồm việc chống mất mát, hư hỏng ngầm, phần mềm độc hại, và ý đồ chỉnh sửa dữ liệu bởi các tội nhân mạng hoặc phê chuẩn chiến tranh mạng. Dữ liệu là của cải và càng ngày càng được dùng đa dạng bởi chính phủ và cũng như trong buôn bán để đưa ra những quyết định quan trọng, nhưng trường hợp độ chân thực của dữ liệu ko được biết, giá trị của dữ liệu bị giảm hoặc thậm chí bị mất và tệ hơn nữa là: khiến cho cho việc đưa ra quyết định sai lầm.
Chủ đề này nằm ngoại khuôn khổ luận bàn của bài viết, nhưng rõ ràng sự bảo vệ mất mát và sửa đổi ko được biết hoặc hỏng hóc dữ liệu là phải thiết. Một phương pháp để hiểu dữ liệu lớn rõ hơn đơn thuần là tiếp cận sắp hơn các trang web điện toán đám – mây, các trang web này với đủ dữ liệu (thông thường là petabytes) cùng sở hữu các phương tiện truy tìm vấn (thường là terabytes) cho những áp dụng sử dụng.
Hầu hết chúng ta truy nã vấn Google hàng ngày, nhưng Google cũng cung ứng BigQuery, BigQuery dùng việc lưu trữ và tìm kiếm theo dạng cột phức tạp hơn (đã được bàn thảo kỹ hơn ưng chuẩn 1 ví dụ).
Những ví dụ nức danh khác như là Facebook (mạng xã hội), Wikipedia (thư viện mở), Internet Archive (nhà giám sát dữ liệu công nghệ số), DigitalGlobe (hệ thống thông tin địa lý [GIS]), Microsoft® Virtual Earth (GIS), Google Earth (GIS), và đông đảo các nhà cung cấp dịch vụ dữ liệu lớn mới.
4. Thiết kế hệ thống dữ liệu lớn
Những kiến trúc bảo vệ dữ liệu ở quy mô to buộc phải bao gồm việc chống mất mát, hư hỏng ngầm, phần mềm độc hại, và ý đồ chỉnh sửa dữ liệu bởi những tầy mạng hoặc thông qua chiến tranh mạng.
Dữ liệu là của cải và ngày một được sử dụng rộng rãi bởi chính phủ và cũng như trong buôn bán để đưa ra những quyết định quan trọng, nhưng nếu độ chân thực của dữ liệu ko được biết, giá trị của dữ liệu bị giảm hoặc thậm chí bị mất và tệ hơn nữa là: làm cho cho việc đưa ra quyết định sai lầm. Chủ đề này nằm ngoại phạm vi trao đổi của bài viết, nhưng rõ ràng sự bảo vệ mất mát và sửa đổi ko được biết hoặc hỏng hóc dữ liệu là nên thiết.
Một phương pháp để hiểu dữ liệu to rõ hơn đơn thuần là tiếp cận sắp hơn các trang web điện toán đám mây, các trang web này mang đủ dữ liệu (thông thường là petabytes) cùng có những công cụ truy tìm vấn (thường là terabytes) cho những ứng dụng sử dụng. Hầu hết chúng ta truy vấn Google hàng ngày, nhưng Google cũng cung cấp BigQuery, BigQuery sử dụng việc lưu trữ và kiếm tìm theo dạng cột phức tạp hơn (đã được thảo luận kỹ hơn chuẩn y 1 ví dụ).
Những thí dụ nức danh khác như là Facebook (mạng xã hội), Wikipedia (thư viện mở), Internet Archive (nhà giám sát dữ liệu kỹ thuật số), DigitalGlobe (hệ thống thông tin địa lý [GIS]), Microsoft® Virtual Earth (GIS), Google Earth (GIS), và phần lớn các nhà phân phối dịch vụ dữ liệu lớn mới.
5. Những ứng dụng dữ liệu lớn
Phân tích tâm lý thị trường chứng khoán tiêu dùng Google Trends đã chỉ ra được tương quan phải chăng cho các tăng giảm chỉ mục theo thời gian, mà mang lẽ ko đáng sửng sốt nhưng những thú vị về tính trọng đại như một vận dụng dữ liệu lớn.
Bài viết “Quantifying Trading Behavior in Financial Markets Using Google Trends (Dự đoán xu thế thương mại trong thị trường tài chính dùng Google Trends)” chế tạo bằng cớ rằng việc sử dụng phân tích tâm lý để kéo dài hay rút ngắn quyết định chọn và bán cổ phiếu nắm giữ mang thể thấp hơn việc sắm và nắm giữ các chiến lược đơn thuần và quỹ đầu tư index. Nghiên cứu này mang thể được phân tích chi tiết hơn nhưng những kết quả của nó cũng khá thuyết phục. Một nghiên cứu thú vị dự báo những khả năng xảy ra của một hệ thống cho một lĩnh vực hình thức marketing thực tế. Phân dòng hình ảnh Picasa từ Google là công cụ có ích cho phép người sử dụng sắp xếp, truy hỏi vấn, và nhận dạng khuôn mặt tự động dùng những khoa học thị giác máy tính kết hợp mang máy học. Đây là một kết quả xuất sắc sở hữu được từ giá trị của các ứng dụng và dịch vụ trên dữ liệu lớn. Công cụ này khiến cho rõ việc phân tích dữ liệu lớn sẽ đòi hỏi phân tách tăng như thị giác máy tính và cách như thị giác máy tính.
Những hệ thống được khuyến cáo như Pandora (âm nhạc), Netflix (phim ảnh), và Amazon (sách và sản phẩm) sử dụng dữ liệu quý khách và phổ biến đại lý trong một phương pháp tiếp cận được biết đến là collaborative filtering (phương pháp lọc cộng tác). Dịch vụ dữ liệu lớn này đã là chủ đề của rộng rãi nghiên cứu hiện đại trong máy học và khai khẩn dữ liệu. Rõ ràng là giả dụ khả năng thực hiện gợi ý tốt thì mang thể nâng cao doanh số bán hàng và sự bằng lòng của khách hàng.
Những phân tách dựa trên người dùng có thể phân tích tâm lý cho các bạn của bạn dựa trên dữ liệu mạng xã hội (Facebook và Twitter) khi dữ liệu văn bản này mang liên quan tới BI (Business Intelligence) thu thập từ các thông báo giao tiếp người mua truyền thống. Phân tích tâm lý cho phép một doanh nghiệp biết nhu cầu người mua muốn về sản phẩm của họ, sự quan tâm của người dùng về sản phẩm của họ hay của đối thủ cạnh tranh, những gì quý khách thích và không thích. Dữ liệu được tạo ra từ máy tính với xuất phát từ những hệ thống mạng báo hiệu (ví dụ: những cảm biến nhúng trong các hệ thống lớn như giao thông đô thị, đèn giao thông, và cơ sở hạ tầng); dữ liệu giữa các trang bị máy móc, theo ấy mà những đồ vật cảm biến hay dữ liệu đăng nhập từ 1 máy (thường là trong lĩnh vực này) được truyền tới những máy khác.
Hệ thống đặt chỗ cho du lịch thì đang được cải thiện bằng cách hài hòa sở thích khách hàng, hậu cần và tiền sử trước lúc đưa ra những đề nghị hữu ích, đấy luôn là một nhiệm vụ khó khăn. Giải trí trên mạng xã hội đang đổi thay những chi tiết xã hội của việc phát sóng truyền hình và các đoạn phim, nơi mà công nghệ số đáp ứng đề nghị nội dung đa số lúc hầu hết nơi, nhưng việc san sớt kinh nghiệm vẫn buộc phải phê duyệt mạng xã hội. Mặc dù vậy, điều này giúp khán nhái cảm thấy thú vị hơn, cho phép khán nhái sáng tạo nội dung, biên kịch, và những nghệ sĩ sở hữu thể biết rộng rãi hơn về khán giả của họ. Hệ chuẩn đoán y học bao gồm những hệ thống có sự hỗ trợ của hệ chuyên gia dựa trên luật (gọi là DSSes: Rule-based Expert Decision Support Systems), nhưng với dữ liệu lớn, chứng cứ tồn tại các hệ thống này mang thể ra khỏi nghiên cứu và phát triển thành những người phụ tá y tế chính.
Big Data trong cuộc sống và kinh doanh
1. Trên thế giới
Nhờ BigData, năm 2013, Amazon đạt doanh thu tới 74 tỷ USD, IBM đạt hơn 16 tỷ USD. BigData là nhu cầu đang tăng trưởng lớn tới nỗi từ năm 2010, Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỷ USD cho những siêu thị chuyên về quản lý và phân tích dữ liệu. Interactions Marketing, 1 công ty tiếp thị theo hình thức tận dụng ngay chính khách hàng của mình, đã tiến hành kiểm soát dữ liệu to bằng bí quyết tiêu dùng dữ liệu giao tế điểm bán hàng và dữ liệu thông tin thời tiết khu vực từ phổ biến nguồn khác nhau để với được các hiểu biết nhanh nhất về hành vi chọn sắm.
Ngay cả chiến dịch bầu cử của Mỹ cũng với thể được hợp lý hóa bằng việc dùng phân tích dữ liệu lớn. Các chuyên gia cho rằng, ông Obama giành chiến thắng trong chiến dịch bầu cử năm 2012 là do khả năng vượt trội của hàng ngũ tiêu dùng khả năng phân tách dữ liệu lớn. Gần đây nhất là mùa Worldcup năm ngoái 2014 diễn ra tại Brazin, đội tuyển Đức sở hữu 1 chiến thuật hợp lý, nổi bật cho từng trận chiến mang từng đối thủ cũng như cho cả vòng loại? Bí mật này nằm ở công nghệ phân tích big data mà đội tuyển Đức ứng dụng từ các năm 2012. Công nghệ này giúp phân tích từng cầu thủ đối phương, đồng thời đưa ra biện pháp logic cho từng cầu thủ trong đội tuyển Đức.
2. Tại việt nam
FPT cho biết, doanh thu năm 2013 từ S.M.A.C (Mạng xã hội/ Bảo mật), Mobility (Công nghệ di động), Analytics Big Data (Phân tích dữ liệu lớn), Cloud (Điện toán đám mây) đạt 95 tỷ đồng.
Tổng giám đốc IBM Việt Nam cho biết, Big Data và những giải pháp phân tách buôn bán đang phát triển thành trọng điểm trong giai đoạn “chuyển mình” của IBM. Theo ông Tan Jee Toon, mỗi ngày, nền kinh tế thế giới tạo ra 2.5 exabyte dữ liệu (tương đương dữ liệu đựng trên 625 triệu đĩa DVD).
Big Data và những kỹ thuật phân tách với khả năng làm đổi thay hoàn đa số mặt của các ngành kinh tế và các nghề nghiệp Những mô hình buôn bán mới dựa trên Big Data đang được hình thành để giúp những tổ chức, công ty tận dụng dữ liệu. Đây cũng là xu hướng thế tất trong ngày mai ko xa mang doanh nghiệp Việt Nam.
Kết luận
Big Data là thách thức đặt ra cho những tổ chức, nhà hàng trong thời đại số hiện nay. Một khi khiến chủ được dữ liệu to thì họ sẽ sở hữu cơ hội thành công lớn hơn trong bối cảnh khó khăn ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu dụng hơn mang giá tiền phải chăng hơn. Vẫn còn đấy các chỉ trích xoay loanh quanh Big Data, ngoại giả lĩnh vực này vẫn còn siêu mới và chúng ta hãy chờ xem trong tương lai Big Data sẽ tiến hóa như thế nào.