問:我們看到訊飛語音識別的技術已經非常成熟,那么你認為“應用”的空間在哪里,未來語音識別技術還有什么挑戰?
李開復:云端識別技術,訊飛已經解決了。“應用”在哪里?這并不是一些專家在實驗室里拍腦袋就能想到的。大家可以來試,可以在訊飛的云平臺上試一試,可能成功的會比較少,但能夠摸索到成功的應用的概率也會增加。
語音技術方面,主要挑戰還有三方面:
- 一、語音識別相對容易,但語義理解相對困難。讓軟件聽懂容易,但理解會比較難。
- 二、如果能在一定程度上做到語義理解,那么怎么樣讓開發者介入不用太花時間?
- 三、用戶體驗的期望值。語音是人類最自然交流的方式——與多點觸摸不同,一旦人們開始使用語音交互,會有比較大的心理預期:我愛怎么說就怎么說,你應該能理解,這是一個比較長久的挑戰。這中間,應該有巧妙方式來降低這種感受。
問:語音技術里面,是不是使用的人越多,語音技術也會愈加成熟?
李開復:當然了,更多人參與,獲得更多自動回饋,可以實現一個良性的正向循環方。一個人能力有限,一億用戶,每人使用 3 秒鐘,就是 3 億秒,這個數據量是龐大的。實際應用中,正確的輸入可以被視作是“一次正確訓練和學習”,吸收改進;一個錯誤的結果,比如訂餐時識別錯誤取消訂單,可以視作“不正確的學習”,同樣吸收改進。
但這個比“聽寫”更困難:錯了,是語音錯了還是語義錯了,或者其中一個正確、一個錯誤;對了,是語音對了語義對了,或者其中一個正確、一個錯誤。當回饋量大于累計量和使用量,可以讓我們邁出一大步。
問:什么樣的語音應用是用戶期待和接受的?
李開復:我認為有三個方向。1,相對是語音識別,而非深度語義理解的應用,或者說“淺語義,深語音”。比如聽寫(Demo 中有提到教育領域的聽寫測試、KTV 評分、發短信、日程提醒),——輸入法也很重要,這個比較保險。
2,娛樂性應用,比如 Siri 這樣的調侃調戲類應用。這種識別錯了也無傷大雅,很愛使用。蘋果很聰明,用調侃 Siri 錄了很多語音,然后慢慢把真正的應用做好。
3,在一些“眼忙手忙”的場景,這個時候語音需求就會很大,比如駕車的時候,這時候是不能多點觸控的,這算一個“剛性需求”的場所。
在這里我建議開發者:想把語音放進來的時候,不是那么容易,因為語音的 API 和語音的用戶體驗,比一般的 API 要難很多,比如百科全書類、地圖、本地商家,O2O,線上模式拉來線下消費,因為有語義部分在里面,要花很多時間去把它調好,不能用簡單的 API 隨便聯接起來。