Chương trình của Google có thể tự động ghi phụ đề cho hình ảnh

Diem Do

Thời gian tới bạn có thể hơi bối rối khi phải cố gắng viết phụ đề cho hình ảnh, hãy thử sử dụng chương trình của Google.

Gã khổng lồ tìm kiếm vừa phát triển một hệ thống machine-learning (máy học) có thể tự động và viết chính xác các phụ đề cho các hình ảnh, theo thông tin từ bài đăng tải trên trang blog của Google.

Sự đổi mới có thể tạo điều kiện dễ dàng hơn để tìm kiếm các hình ảnh trên Google, giúp những người khiếm thị có thể hiểu nội dung hình ảnh và cung cấp nội dung thay thế cho các hình ảnh khi kết nối Internet chậm.

Trong một bài báo được tải trên arXiv, các nhà nghiên cứu Google gồm có Oriol Vinyals, Alexander Toshev, Samy Bengio và Dumitru Erhan đã mô tả cách mà họ đã phát triển hệ thống ghi chú được gọi là Neural Image Caption (NIC).

NIC dựa trên các công nghệ từ lĩnh vực tầm nhìn công nghệ, cho phép các thiết bị cảm nhận được thế giới và quy trình xử lý ngôn ngữ tự nhiên, đang cố gắng làm cho ngôn ngữ của con người có ý nghĩa đối với máy tính.

Các nhà nghiên cứu đã sử dụng hai loại mạng lưới thần kinh nhân tạo được lấy cảm hứng từ các mô hình máy tính về mặt sinh học. Một trong những mạng lưới đã mã hóa hình ảnh thành hình đại diện thu nhỏ, trong khi các mạng lưới khác tạo ra một câu văn để mô tả nó.

Mục tiêu của các nhà nghiên cứu là hướng dẫn hệ thống sản xuất ra các phụ đề mang âm thanh tự nhiên dựa trên các đối tượng mà nó ghi nhận trên các hình ảnh đó.

NIC tạo ra các kết quả chính xác chẳng hạn như “một nhóm những người yêu thích mua sắm tại một khu chợ ngoài trời ” đối với hình ảnh của khu chợ, nhưng cũng có thể xảy ra một số sai lầm rất nhỏ, chẳng hạn như một hình ảnh có 3 con chó được ghi lại thành 2 con chó, bên cạnh đó cũng còn những lỗi quan trọng như hình ảnh của một biển hiệu bên đường được mô tả thành một cái tủ lạnh.

Mô hình NIC ghi 59 điểm trong tập dữ liệu đặc biệt trong lĩnh vực nghệ thuật là 25 và các đánh giá điểm cao hơn thì tốt hơn, theo các nhà nghiên cứu đã bổ sung thêm cho biết con người ghi khoảng 69 điểm. Hiệu năng được đánh giá bằng cách sử dụng thuật toán xếp hạng so với chất lượng văn bản được tạo ra bởi thiết bị được tạo ra bởi con người.

“Đó là điều thực sự rõ ràng từ các thí nghiệm này, khi kích thước của bộ dữ liệu có sẵn đối với sự nâng cấp mô tả hình ảnh, vì vậy thực hiện phương pháp tiếp nhận giống như NIC “, các nhà nghiên cứu đã viết như vậy.

 

Chia sẻ bài viết ngay

Nguồn bài viết : pcworld.com