nang2911
Thành viên
- Tham gia
- 12/10/2017
- Bài viết
- 4
Thị giác máy tính (computer vision) đề cập đến toàn bộ quá trình mô phỏng tầm nhìn của con người trong một bộ máy phi sinh học. Điều này bao gồm việc chụp ảnh ban đầu, phát hiện và nhận dạng đối tượng, nhận biết bối cảnh tạm thời giữa các cảnh và phát triển sự hiểu biết ở mức độ cao về những gì đang xảy ra trong khoảng thời gian thích hợp.
Công nghệ này từ lâu đã trở nên phổ biến trong khoa học viễn tưởng, và vì thế, chúng thường được thừa nhận như một điều điều hiển nhiên. Trong thực tế, một hệ thống cung cấp khả năng thị giác máy tính đáng tin cậy, chính xác và trong thời gian thực là một vấn đề đầy thách thức vẫn chưa được phát triển một cách đầy đủ.
Khi các hệ thống này trưởng thành, sẽ có vô số ứng dụng dựa vào thị giác máy tính như một thành phần chính. Những ví dụ điển hình đó là xe hơi tự lái, robot tự động, máy bay không người lái, thiết bị hình ảnh y tế thông minh hỗ trợ phẫu thuật và cấy ghép phẫu thuật phục hồi thị lực của con người.
Một vấn đề phức tạp và khó khăn
Mặc dù thị giác máy tính hứa hẹn rất lớn trong tương lai, nhưng nó mang theo một sự phức tạp vốn có và luôn là thách thức đối với các hệ thống máy tính. Một phần của sự phức tạp là do thực tế thị giác máy tính không phải là một nhiệm vụ duy nhất. Thay vào đó, nó là một chuỗi các nhiệm vụ không đơn giản mà mỗi yêu cầu sử dụng các thuật toán phức tạp và đủ sức mạnh tính toán để hoạt động trong thời gian thực.
Ở cấp độ cao, các tác vụ phụ của thị giác máy tính là phát hiện và phân đoạn đối tượng, phân loại hình ảnh, theo dõi đối tượng, gắn nhãn hình ảnh với các mô tả có ý nghĩa (ví dụ như chú thích hình ảnh) và cuối cùng, hiểu ý nghĩa của toàn bộ bối cảnh.
>>> Xem thêm: máy chủ dell r660
Thị giác máy tính trong quá khứ
Các hệ thống thị giác máy tính truyền thống là sự kết hợp của các thuật toán phối hợp với nhau trong nỗ lực giải quyết các nhiệm vụ nói trên. Mục tiêu chính là trích xuất các đặc điểm (feature) từ hình ảnh, bao gồm các tác vụ phụ như phát hiện cạnh, phát hiện góc và phân đoạn dựa trên màu. Độ chính xác của các thuật toán được sử dụng để trích xuất các đặc điểm phụ thuộc vào thiết kế và tính linh hoạt của từng thuật toán.
Ví dụ về các thuật toán trích xuất feature truyền thống là Scale-invariant feature transform (SIFT), Speeded up robust features (SURF) và Binary Robust Independent Elementary Features (BRIEF). Các thuật toán khác nhau thực hiện với mức độ thành công khác nhau, tùy thuộc vào loại và chất lượng của hình ảnh được sử dụng làm đầu vào. Cuối cùng, độ chính xác của toàn bộ hệ thống phụ thuộc vào các phương pháp được sử dụng để trích xuất các features. Khi các features đã được trích xuất, việc phân tích được thực hiện bằng các phương pháp Machine Learning truyền thống.
Vấn đề chính với cách tiếp cận này là hệ thống cần được cho biết những đặc điểm cần tìm trong hình ảnh. Về cơ bản, do thuật toán hoạt động như đã được xác định bởi nhà thiết kế thuật toán, các features được trích xuất được thiết kế bởi con người. Trong các triển khai như vậy, hiệu suất kém của thuật toán có thể được xử lý thông qua tinh chỉnh, chẳng hạn như bằng cách điều chỉnh các tham số hoặc sửa đổi cấp mã để điều chỉnh hành vi. Tuy nhiên, những thay đổi như thế này cần phải được thực hiện thủ công và được mã hóa cứng hoặc cố định cho một ứng dụng cụ thể.
Đóng góp từ Deep Learning
Mặc dù vẫn còn những trở ngại đáng kể trong con đường phát triển của thị giác máy tính đến “cấp độ con người”, các hệ thống Deep Learning đã đạt được tiến bộ đáng kể trong việc xử lý một số nhiệm vụ phụ có liên quan. Lý do cho sự thành công này một phần dựa trên trách nhiệm bổ sung được giao cho các hệ thống deep learning
Điều hợp lý để nói rằng sự khác biệt lớn nhất với các hệ thống deep learning là chúng không còn cần phải được lập trình để tìm kiếm các đặc điểm cụ thể. Thay vì tìm kiếm các đặc điểm cụ thể bằng thuật toán được lập trình cẩn thận, các mạng lưới thần kinh bên trong các hệ thống deep learning được đào tạo. Ví dụ: nếu ô tô trong hình ảnh bị phân loại sai thành xe máy thì bạn không tinh chỉnh các tham số hoặc viết lại thuật toán. Thay vào đó, bạn tiếp tục đào tạo cho đến khi hệ thống làm cho đúng.
Với sức mạnh tính toán tăng lên được cung cấp bởi các hệ thống deep learning hiện đại, có sự tiến bộ ổn định và đáng chú ý hướng tới điểm mà một máy tính sẽ có thể nhận ra và phản ứng với mọi thứ mà nó nhìn thấy.
>>> Xem thêm: máy chủ dell r660xs
Nhìn vào một số ứng dụng thực sự
Phân loại hình ảnh
Phân loại là quá trình dự đoán một lớp hoặc nhãn cụ thể cho một thứ được xác định bởi một tập hợp các điểm dữ liệu. Các hệ thống machine learning xây dựng các mô hình dự đoán có lợi ích to lớn nhưng thường không thấy được cho mọi người. Ví dụ: phân loại email spam đáng tin cậy có nghĩa là hộp thư đến trung bình ít gánh nặng hơn và dễ quản lý hơn. Mặc dù người dùng cuối trung bình dường như không nhận thức được sự phức tạp của vấn đề và số lượng lớn xử lý cần thiết để giảm thiểu vấn đề, nhưng lợi ích rất rõ ràng.
Phân loại hình ảnh là một tập hợp con của vấn đề phân loại, trong đó toàn bộ hình ảnh được gán nhãn. Có lẽ một bức ảnh sẽ được phân loại là một bức ảnh ban ngày hoặc ban đêm. Hoặc, theo cách tương tự, hình ảnh của ô tô và xe máy sẽ được tự động đặt vào các nhóm của riêng họ.
Có vô số danh mục, hoặc các lớp, trong đó một hình ảnh cụ thể có thể được phân loại. Xem xét một quy trình thủ công trong đó các hình ảnh được so sánh và các hình ảnh tương tự được nhóm theo các đặc điểm tương tự, nhưng không nhất thiết phải biết trước những gì bạn đang tìm kiếm. Rõ ràng, đây là một nhiệm vụ khó khăn. Để làm cho nó thậm chí nhiều hơn như vậy, giả sử rằng tập hợp các số hình ảnh trong hàng trăm ngàn. Rõ ràng là cần có một hệ thống tự động để thực hiện việc này nhanh chóng và hiệu quả.
Kiến trúc deep learning để phân loại hình ảnh thường bao gồm các lớp chập, làm cho nó trở thành một mạng nơ ron tích chập (CNN). Một số siêu đường kính, như số lượng các lớp chập và hàm kích hoạt cho mỗi lớp, sẽ phải được đặt. Đây là một phần không tầm thường của quá trình mà nó nằm ngoài phạm vi của cuộc thảo luận này. Tuy nhiên, là điểm khởi đầu, người ta thường có thể chọn các giá trị này dựa trên nghiên cứu hiện có.
Trên hệ thống như vậy là AlexNet, một CNN đã thu hút sự chú ý khi chiến thắng Thử thách nhận dạng hình ảnh quy mô lớn ImageNet (ILSVRC) năm 2012. Một mô hình được nghiên cứu kỹ lưỡng khác là Mạng thần kinh dư (ResNet), sau này đã chiến thắng thử thách tương tự, cũng như cuộc thi Đối tượng chung của Microsoft trong bối cảnh (MS COCO) vào năm 2015.
Phân loại hình ảnh cùng với việc bản địa hóa
Ứng dụng thứ hai của deep learning cho thị giác máy tính là Phân loại hình ảnh với bản địa hóa. Vấn đề này là một chuyên môn của phân loại hình ảnh, với yêu cầu bổ sung rằng đối tượng trong ảnh được đặt đầu tiên, và sau đó một hộp giới hạn được vẽ xung quanh nó.
Đây là một vấn đề khó khăn hơn so với phân loại hình ảnh và nó bắt đầu bằng việc xác định liệu chỉ có một đối tượng duy nhất được mô tả. Nếu vậy, hoặc nếu số lượng đối tượng được biết, thì mục tiêu là xác định vị trí của từng đối tượng và xác định bốn góc của hộp giới hạn tương ứng.
Quá trình này sẽ là một bước cần thiết trong một hệ thống chịu trách nhiệm nhận dạng xe. Hãy xem xét một hệ thống tự động duyệt hình ảnh của xe ô tô và được đảm bảo rằng có một chiếc xe duy nhất chứa trong cảnh. Khi chiếc xe đã được định vị, các thuộc tính như nhãn hiệu, kiểu dáng và màu sắc có thể được xác định.
Nhiệm vụ này có thể được thực hiện bằng cách sử dụng một mô hình deep learning phổ biến, chẳng hạn như AlexNet hoặc ResNet, và sửa đổi lớp được kết nối đầy đủ để tạo hộp giới hạn. Như đã đề cập trước đây, có thể có một số tinh chỉnh để thực hiện về mặt cài đặt siêu đường kính hoặc sửa đổi kiến trúc cho hiệu quả trong một miền cụ thể, nhưng trong thực tế, các kiến trúc cơ bản hoạt động tốt. Sẽ cần phải có đủ dữ liệu huấn luyện bao gồm các ví dụ với cả mô tả đối tượng và hộp giới hạn được xác định rõ ràng, mặc dù các bộ dữ liệu mẫu có sẵn cho mục đích này.
Khó khăn với nhiệm vụ này xảy ra khi có một số lượng đối tượng không xác định trong hình. Trong phần lớn các hình ảnh, đặc biệt là những hình ảnh được chụp ở khu vực công cộng, sẽ có nhiều khả năng như người, phương tiện, cây cối và động vật khác nhau. Đối với loại môi trường này, vấn đề trở thành một trong những phát hiện đối tượng.
Công ty cổ phần thương mại Máy Chủ Hà Nội
- Trụ sở Hà Nội: Tầng 1,2,4 - Tòa nhà PmaxLand số 32 ngõ 133 Thái Hà - Q. Đống Đa
Hotline mua hàng Hà Nội: 0979 83 84 84 Điện thoai: 024 6296 6644
- CN Hồ Chí Minh: Lầu 1- Tòa nhà 666/46/29 Đường 3/2- Phường 14 - Quận 10
Hotline mua hàng Hồ Chí Minh: 0945 92 96 96 Điện thoai: 028 2244 9399
- Email: hotro@maychuhanoi.vn
- website: https://maychuhanoi.vn/
- facebook: https://www.facebook.com/maychuhanoi