Hai nghiên cứu mới nhất cho thấy, máy móc có thể hiểu được bạn đang nói gì, chỉ bằng cách nhìn vào chuyển động đôi môi của bạn.

Hai nghiên cứu mới nhất cho thấy, máy móc có thể hiểu được bạn đang nói gì, chỉ bằng cách nhìn vào chuyển động đôi môi của bạn.

Theo TechnologyReview, "đọc môi" là chỉ nhìn hình dáng và sự chuyển động của đôi môi để hiểu được người đó muốn nói gì. Điều này cực kỳ khó, tùy thuộc rất nhiều vào ngữ cảnh và kiến thức ngôn ngữ. Nhưng các nhà nghiên cứu đang cho thấy, sử dụng máy móc để hiểu các bài diễn văn trong những clip không có tiếng hiệu quả hơn cả các chuyên gia đọc môi chuyên nghiệp.

Tri tue nhan tao da co the "doc moi" con nguoi - Anh 1

Trong một dự án, một nhóm các nhà nghiên cứu đến từ Khoa Khoa học máy tính của trường Đại học Oxford đã phát triển một hệ thống thông minh nhân tạo mới có tên LipNet. Theo trang Quartz đưa tin, hệ thống này được xây dựng dựa trên một bộ dữ liệu gọi là GRID, trong đó có vô số dữ liệu về những clip khuôn mặt người đang đọc các câu dài 3 giây. Mỗi câu dựa trên một loạt những từ ngữ theo một chuẩn giống nhau.

Nhóm nghiên cứu đã dùng bộ dữ liệu đó để đào tạo cho một mạng lưới thần kinh, tương tự như mạng lưới dùng để nhận dạng giọng nói. Tuy nhiên, trong trường hợp này, mạng lưới thần kinh sẽ nhận dạng giọng nói dựa trên hình dáng của môi, miệng, để liên kết các thông tin và hiểu được bức thông điệp đang được nói ra. Trí tuệ nhân tạo (AI) không phân tích những khung cảnh ngắn, mà xem xét toàn bộ, cho phép nó hiểu được ngữ cảnh từ câu đang được phân tích. Điều này rất quan trọng, vì số lượng hình dáng môi ít hơn số lượng các âm thanh mà giọng nói con người phát ra.

Khi thử nghiệm, hệ thống có thể nhận dạng chính xác 93,4% số từ phát ra. Để so sánh, những người đọc môi cũng đã tham gia và thực hiện nhiệm vụ tương tự, họ nhận dạng ra được 52,3% từ đúng.

Nhưng như New Scientist đưa tin, một nhóm khác đến từ Khoa Khoa học kỹ sư của Oxford, hợp tác với Google DeepMind, đã thực hiện một nhiệm vụ khó hơn. Thay vì dùng bộ dữ liệu như GRID, họ đã dùng 100.000 video lấy từ kênh BBC. Những video này có phạm vi ngôn ngữ rộng hơn nhiều, ánh sáng và vị trí đầu cũng có nhiều thay đổi.

Đội Oxford và DeepMind đã tạo ra một loại AI có thể nhận dạng chính xác 46,8% các từ. Kết quả này cũng tốt hơn rất nhiều so với kết quả chỉ 12,4% từ chính xác khi con người tự nhận dạng. Rõ ràng, có nhiều lý do giải thích tại sao tỷ lệ chính xác của con người lại thấp hơn máy móc, từ ánh sáng đến sự phức tạp của ngôn ngữ.

Tri tue nhan tao da co the "doc moi" con nguoi - Anh 2

Như vậy, cả hai thử nghiệm đều cho thấy công nghệ trí tuệ nhân tạo (AI) thực hiện tốt hơn con người trong việc đọc môi, và không khó khi hình dùng các ứng dụng tiềm năng của loại phần mềm mày. Chẳng hạn, trong tương lai, Skype có thể ứng dụng công nghệ này khi cuộc hội thoại diễn ra trong bối cảnh ồn ào, hoặc với những người gặp khó khăn khi nghe, họ có thể nhìn vào smartphone để "nghe" người kia nói gì.

Hoàng Lan