Hệ thống nhận diện giọng nói của Microsoft đã có khả năng nghe giống như con người

Con người có khả năng ghi nhận lại những đoạn hội thoại bằng lời với tỷ lệ chính xác trung bình là 94,1% và Microsoft vừa tuyên bố rằng hệ thống trí thông minh nhân tạo của họ đã lần đầu tiên làm được điều giống như vậy. Trong báo cáo phát đi mới đây, giám đốc bộ phận nhận diện giọng nói Xuedong Huang của Microsoft cho biết: "Chúng tôi đã đạt tới hiệu suất của con người. Đây là một thành công mang tính lịch sử."

Còn nhớ hồi tháng rồi hãng tuyên bố rằng khả năng nhận diện giọng nói của AI đã đạt mức 6,3% lỗi và bây giờ, họ đã tự phá vỡ kỷ lục đó bằng việc đưa tỷ lệ lỗi xuống chỉ có 5,9%. Để làm được điều đó, nhóm của Microsoft đã áp dụng mô hình nhận diện ngôn ngữ mang tính kế thừa dựa trên mạng nơ ron nhân tạo kết hợp với đám mây từ ngữ. Một cách dễ hiểu hơn, những từ như "fast", "quick" vốn đều diễn tả sự nhanh sẽ được đặt với nhau theo cùng một nhóm (vector) nhằm giúp hệ thống nhận diện ra dễ dàng hơn trong phép so sánh với nhóm những từ có nghĩa "chậm".

Bằng cách này, hệ thống có thể khái quát hóa các từ ngữ và nhận diện chúng tốt hơn trong các ngữ cảnh khác nhau. Được biết toàn bộ hệ thống mới đều được xây dựng trên hệ thống deep learning Computational Network Toolkit do Microsoft phát triển. Nhóm cho biết sắp tới họ đặt ra mục tiêu là hoàn thiện mức độ tin cậy của hệ thống nhận diện giọng nói , cho phép nó có thể được sử dụng trong các tình huống ngoài đời thật, thí dụ như trên đường phố đông đúc hoặc lúc đang lái xe,... Mặt khác, họ còn hy vọng rằng hệ thống còn làm việc với nhiều người dùng khác nhau trong một đoạn hội thoại tiếp diễn liên tục.

Tham khảo Microsoft

Nguồn Tinh Tế: http://tinhte.vn/threads/he-thong-nhan-dien-giong-noi-cua-microsoft-da-co-kha-nang-nghe-giong-nhu-con-nguoi.2651337/