Các nhà nghiên cứu tại Microsoft đã đạt được bước đột phá trong công nghệ nhận dạng giọng nói ở các công cụ tự động, có khả năng nhận diện từ ngữ trong các cuộc đối thoại ngang với con người.

Cong nghe nhan dang giong noi da buoc len tam cao moi - Anh 1

Nhóm nghiên cứu của Microsoft gồm Wayne Xiong, Geoffrey Zweig, Xuedong Huang, Dong Yu, Frank Seide, Mike Seltzer, Jasha Droppo và Andreas Stolcke (từ trái qua)

Theo Engadget, trong một bản báo cáo mới đây, một nhóm kỹ sư và các nhà nghiên cứu tại trung tâm nghiên cứu trí thông minh nhân tạo (AIR) của Microsoft giới thiệu một hệ thống có thể thực hiện khả năng nhận diện giọng nói tương đương con người.

Tỷ lệ sai sót đo được là 5,9%, tương đương mức trung bình của con người, và là mức kỷ lục từng ghi nhận được của hệ thống nhận dạng giọng nói. Chỉ mới tháng trước, tỷ lệ sai sót vẫn còn khá lớn ở mức 6.3%.

Giám đốc khoa học của Microsoft, ông Xuedong Huang phát biểu "Chúng tôi đã đạt đến mức độ tương đương con người. Đây là một thành tựu mang tính lịch sử."

Để thực hiện được điều này, nhóm nghiên cứu Microsoft sử dụng mô hình ngôn ngữ thần kinh bằng cách nhóm các từ giống nhau lại với nhau, cho phép khái quát hóa và nhận diện chúng tốt hơn trong từng ngữ cảnh. Đội ngũ này dựa trên bộ công cụ học "cây nhà lá vườn" Computational Network Toolkit của Microsoft.

Microsoft dự định ứng dụng công nghệ này trong Cortana, trợ lý giọng nói cá nhân cho Windows và Xbox One cũng như các phần mềm chuyển giọng nói sang văn bản khác.

Mặc dù kết quả rất ấn tượng, Microsoft vẫn cần phải điều chỉnh công nghệ để hoạt động tốt với cuộc hội thoại trong một phạm vi rộng lớn hơn hoặc các tình huống đầy thách thức trong thực tế cuộc sống ngày nay.

Hiếu Trung