李開復(fù)：未來語音識(shí)別技術(shù)還有什么挑戰(zhàn)

2012-03-23 09:46:34來源：愛范兒作者：黃龍中

問：我們看到訊飛語音識(shí)別的技術(shù)已經(jīng)非常成熟，那么你認(rèn)為“應(yīng)用”的空間在哪里，未來語音識(shí)別技術(shù)還有什么挑戰(zhàn)？

李開復(fù)：云端識(shí)別技術(shù)，訊飛已經(jīng)解決了。“應(yīng)用”在哪里？這并不是一些專家在實(shí)驗(yàn)室里拍腦袋就能想到的。大家可以來試，可以在訊飛的云平臺(tái)上試一試，可能成功的會(huì)比較少，但能夠摸索到成功的應(yīng)用的概率也會(huì)增加。

語音技術(shù)方面，主要挑戰(zhàn)還有三方面：

一、語音識(shí)別相對(duì)容易，但語義理解相對(duì)困難。讓軟件聽懂容易，但理解會(huì)比較難。
二、如果能在一定程度上做到語義理解，那么怎么樣讓開發(fā)者介入不用太花時(shí)間？
三、用戶體驗(yàn)的期望值。語音是人類最自然交流的方式——與多點(diǎn)觸摸不同，一旦人們開始使用語音交互，會(huì)有比較大的心理預(yù)期：我愛怎么說就怎么說，你應(yīng)該能理解，這是一個(gè)比較長(zhǎng)久的挑戰(zhàn)。這中間，應(yīng)該有巧妙方式來降低這種感受。

問：語音技術(shù)里面，是不是使用的人越多，語音技術(shù)也會(huì)愈加成熟？

李開復(fù)：當(dāng)然了，更多人參與，獲得更多自動(dòng)回饋，可以實(shí)現(xiàn)一個(gè)良性的正向循環(huán)方。一個(gè)人能力有限，一億用戶，每人使用 3 秒鐘，就是 3 億秒，這個(gè)數(shù)據(jù)量是龐大的。實(shí)際應(yīng)用中，正確的輸入可以被視作是“一次正確訓(xùn)練和學(xué)習(xí)”，吸收改進(jìn)；一個(gè)錯(cuò)誤的結(jié)果，比如訂餐時(shí)識(shí)別錯(cuò)誤取消訂單，可以視作“不正確的學(xué)習(xí)”，同樣吸收改進(jìn)。

但這個(gè)比“聽寫”更困難：錯(cuò)了，是語音錯(cuò)了還是語義錯(cuò)了，或者其中一個(gè)正確、一個(gè)錯(cuò)誤；對(duì)了，是語音對(duì)了語義對(duì)了，或者其中一個(gè)正確、一個(gè)錯(cuò)誤。當(dāng)回饋量大于累計(jì)量和使用量，可以讓我們邁出一大步。

問：什么樣的語音應(yīng)用是用戶期待和接受的？

李開復(fù)：我認(rèn)為有三個(gè)方向。1，相對(duì)是語音識(shí)別，而非深度語義理解的應(yīng)用，或者說“淺語義，深語音”。比如聽寫（Demo 中有提到教育領(lǐng)域的聽寫測(cè)試、KTV 評(píng)分、發(fā)短信、日程提醒），——輸入法也很重要，這個(gè)比較保險(xiǎn)。

2，娛樂性應(yīng)用，比如 Siri 這樣的調(diào)侃調(diào)戲類應(yīng)用。這種識(shí)別錯(cuò)了也無傷大雅，很愛使用。蘋果很聰明，用調(diào)侃 Siri 錄了很多語音，然后慢慢把真正的應(yīng)用做好。

3，在一些“眼忙手忙”的場(chǎng)景，這個(gè)時(shí)候語音需求就會(huì)很大，比如駕車的時(shí)候，這時(shí)候是不能多點(diǎn)觸控的，這算一個(gè)“剛性需求”的場(chǎng)所。

在這里我建議開發(fā)者：想把語音放進(jìn)來的時(shí)候，不是那么容易，因?yàn)檎Z音的 API 和語音的用戶體驗(yàn)，比一般的 API 要難很多，比如百科全書類、地圖、本地商家，O2O，線上模式拉來線下消費(fèi)，因?yàn)橛姓Z義部分在里面，要花很多時(shí)間去把它調(diào)好，不能用簡(jiǎn)單的 API 隨便聯(lián)接起來。

關(guān)鍵詞：李開復(fù)語音識(shí)別訊飛輸入法

成人午夜激情影院,小视频免费在线观看,国产精品夜夜嗨,欧美日韩精品一区二区在线播放

李開復(fù)：未來語音識(shí)別技術(shù)還有什么挑戰(zhàn)

相關(guān)閱讀:

贊助商鏈接: