Car-tech

Hệ thống nhận dạng giọng nói phải thông minh hơn, giáo sư cho thấy

Người vợ phi tang xác chồng ở Bình Dương lĩnh án chung thân

Người vợ phi tang xác chồng ở Bình Dương lĩnh án chung thân
Anonim

"Từ kinh nghiệm của người tiêu dùng, mọi người thấy rất khó chịu". Allen, chủ tịch khoa học máy tính tại Đại học Rochester, phát biểu trước hội nghị SpeechTEK 2010, tổ chức tại New York tuần này.

Hầu hết các hệ thống nhận dạng giọng nói trên máy vi tính có thể hiểu được con người nói gì tới 98% thời gian, nhưng mọi người vẫn còn sử dụng hệ thống trợ giúp điện thoại tự động. Allen cho biết, chìa khóa để làm cho các hệ thống này trở nên ít bực bội khi sử dụng sẽ là bằng cách giúp họ hiểu sâu hơn về ngôn ngữ và làm cho chúng tương tác hơn.

[Đọc thêm: PC mới của bạn cần 15 chương trình miễn phí, tuyệt vời] Đến nay, các bộ phận dịch vụ khách hàng của hầu hết các tổ chức lớn cung cấp các hệ thống trợ giúp dựa trên điện thoại tự động. Một người sử dụng gọi số trợ giúp và một giọng nói nhân tạo hỏi người gọi một loạt các câu hỏi. Hầu hết các hệ thống này đều dựa trên các khuôn khổ cơ bản là các cây quyết định lớn. Với các hệ thống như vậy, "bạn không tìm ra những gì người đó muốn, bạn đang theo một kịch bản," ông nói.

Các hệ thống này thực sự là một tổng hợp của một số công nghệ khác nhau. Một là nhận dạng giọng nói, hoặc khả năng cho máy tính hiểu, hoặc dịch thành công thành văn bản, những gì người nói đang nói.

Công nghệ khác, xử lý ngôn ngữ tự nhiên (NLP), cố gắng chuyển đổi thông điệp của người nói thành một lệnh

Những bước tiến lớn đã được thực hiện trong cả nhận dạng giọng nói và NLP trong vài thập kỷ qua, nhưng dường như họ đã mang lại sự thất vọng cho người dùng của họ. "Tôi chỉ gọi cho ngân hàng khi tôi gặp vấn đề và chiến đấu với những hệ thống này. [Tôi hỏi] những gì tôi có thể trả lời để liên lạc với một người nhanh nhất có thể," Allen nói.

trong việc tìm ra cách "chúng ta có thể nói chuyện với một cỗ máy giống như cách chúng ta có thể nói chuyện với một người," ông nói.

Cuộc trò chuyện giữa hai người có thể chính xác theo cách máy tính gặp khó khăn. Allen chỉ vào một số công việc ban đầu anh đã làm như một sinh viên sau đại học, trong đó anh ghi lại các cuộc hội thoại tại bàn thông tin của nhà ga xe lửa. Trong một lần tương tác, một hành khách đi đến gian hàng và nói "8:50 tới Windsor", và người tiếp viên trả lời "Cổng 10, 20 phút trễ". Trong khi người tiếp viên biết chính xác thông tin mà người điều tra tìm kiếm, hệ thống máy tính sẽ tìm thấy lời tuyên bố đầu tiên của hành khách. [

] Cách Allen nhìn thấy nó, hai yếu tố bị thiếu trong các hệ thống hiện đại: Khả năng phân tích những gì người nói đang nói và Khả năng trò chuyện với người nói để tìm hiểu thêm về những gì người nói có ý định nói.

"Rất nhiều NLP có sẵn có xu hướng cạn. Chúng tôi không có công nghệ mang lại cho bạn ý nghĩa của câu," anh ta nói. Các công cụ xử lý thống kê và dịch vụ định nghĩa từ như WordNet có thể giúp xác định một từ nhưng cũng là quan hệ của một từ, do đó, một hệ thống sẽ biết rằng, "công ty con" là một phần của "công ty".

thông tin liên lạc hai chiều giữa người dùng và máy tính cũng là cần thiết. Khi nói về nhu cầu của họ, mọi người có thể cung cấp thông tin không theo thứ tự cụ thể. Nó nên được lên đến máy tính để mảnh với nhau thông tin này và không gánh nặng người dùng với câu hỏi mà câu trả lời đã được cung cấp.

"Đây là tương lai, điều này thực sự là những gì bạn muốn hệ thống để làm, và chúng tôi có thể xây dựng hộp thoại Allen minh họa ý tưởng này, Allen và một nhóm các nhà nghiên cứu đã thiết kế một chương trình gọi là Tim có thể bắt chước các câu hỏi mà một y tá sẽ yêu cầu một bệnh nhân bị bệnh tim. Chương trình được tạo ra với sự tài trợ của Viện Y tế Quốc gia Hoa Kỳ. Với hệ thống này, một khi người dùng cung cấp thông tin, hệ thống sẽ không yêu cầu lại, Allen nói. Hệ thống sẽ lý do về vật liệu đã được cung cấp và những gì vẫn còn cần thiết.

Một chương trình khác được thiết kế bởi Allen và nhóm của ông, được gọi là Plough, có thể học cách thực hiện các tác vụ phổ biến trên máy tính. "Đây là một hệ thống cho phép bạn chủ yếu sử dụng hộp thoại để đào tạo hệ thống của bạn như thế nào để làm việc cho bạn," ông nói.

Như một ví dụ, Allen đã chứng minh chương trình học cách tìm nhà hàng gần đó bằng cách sử dụng trình duyệt. Người dùng sẽ mở trình duyệt, điều hướng đến trang web của nhà định vị nhà hàng, nhập loại nhà hàng được tìm kiếm và vị trí, sau đó cắt và dán kết quả vào một trang trống. Người dùng đã mô tả từng bước khi nó được thực hiện.

Trong quá trình này, Plough sẽ ghi lại từng bước và phản hồi âm thanh khi bước được hiểu. Sau đó, khi người dùng muốn tìm kiếm một nhà hàng khác, chương trình sẽ đi qua tất cả các động thái tương tự, tự động tạo ra một danh sách nhà hàng khác.

Nhiều dữ liệu hơn là chìa khóa cho nhiều hệ thống xử lý ngôn ngữ giống như con người, nhà khoa học trưởng chính thức của Microsoft cho bài phát biểu Larry Heck, trong một bài nói chuyện khác tại hội nghị. "Nếu bạn không có dữ liệu, không quan trọng các thuật toán của bạn phức tạp như thế nào", ông nói.

Một nơi để tìm thêm dữ liệu sẽ có trong các truy vấn công cụ tìm kiếm, ông đề xuất. Các dịch vụ công cụ tìm kiếm nhận được nhiều truy vấn, tất cả các truy vấn đều được liên kết với các câu trả lời. "Tôi xem tìm kiếm như một người anh em họ hàng gần với công nghệ xử lý ngôn ngữ", Heck nói.

Những ngày này, mọi người được huấn luyện để cấu trúc các truy vấn của họ như một tập hợp các từ khóa. Thay vào đó, nếu người dùng gõ vào các câu đầy đủ mô tả những gì họ cần, tập dữ liệu kết quả có thể đi một chặng đường dài để giúp các hệ thống hiểu rõ hơn những gì mọi người đang tìm kiếm.

Heck dự đoán rằng càng nhiều người sử dụng dịch vụ tìm kiếm kích hoạt bằng giọng nói từ Microsoft và Google, họ sẽ quen với việc cấu trúc các truy vấn của họ dưới dạng câu đầy đủ, theo thời gian có thể giúp các hệ thống NLP dự đoán tốt hơn nhu cầu của người dùng.

Joab Jackson bao gồm phần mềm doanh nghiệp và tin tức công nghệ chung cho

Dịch vụ

. Theo dõi Joab trên Twitter tại @Joab_Jackson. Địa chỉ email của Joab là [email protected]