這幾天百度不斷出新,讓人目不暇接。在極簡首頁之后,《小時代3》的百度知識圖譜也悄然在搜索頁上線。《小時代3》大熱之際,其錯綜復雜的人物關系并不是每個觀眾都能理清,百度通過掌握的知識圖譜數據直接給出了清晰的網狀關系,可視化、支持互動。筆者注意到這個產品的網址前綴是tupu.baidu.com,看來接下來百度必然會推出各種獨立的“圖譜”頁面,知識圖譜產品狂想曲已然奏響。

我們已從信息時代進入知識時代
如果要對互聯網進行分層,它大概可以分為四層。
最底層是將實體世界比特化的“數據”。二進制存儲技術、文件結構以及數據庫解決的便是“數據”的問題,今天則已進入“大數據”時代。搜索引擎此時比拼的是數據索引量和搜索結果集的大小。
數據上一層則是信息,數據是更底層是給機器的,信息則是給人讀的,有邏輯有決策參考價值,數據處理之后便成為信息,信息革命的說法正是印證了互聯網的核心是信息。這時候搜索引擎核心是精準地連接人與信息。
信息上一層就是知識,信息中有價值的部分沉淀下來與人類積累的知識體系融合在一起,就成為互聯網的知識。WIKI百科、百度知道和知乎這些產品本質上都是圍繞知識在轉。信息過載成為人類負擔,知識沉淀則成為人類的財富。互聯網知識圖譜遠超圖書館等傳統的知識沉淀方式,價值十分可觀。搜索引擎在知識時代的價值則是幫助人們找到準確的答案。
知識再往上是智慧。人類基于知識,根據物理世界規律找到的解決實際問題的能力被歸納為智慧。知識是“我知道什么”還不足以解決“做什么、如何做”這樣的問題,不乏有人滿腹經綸但在生活和滾工作中缺乏智慧。但智慧與知識相輔相成,智慧讓知識更加豐滿,知識則是智慧的前提。
我們已經從信息時代進入到知識時代。在信息過載的大背景之下,在互聯網侵蝕實體世界的趨勢下,解決現實世界的實際問題更加重要。搜索引擎的使命轉變為連接人與服務,而不再只是連接信息,它需要準確地回答人們的實際問題,給人們提供完備的服務。知識圖譜成為智慧搜索的基石。
百度知識圖譜進入普及前夜
知識圖譜(Knowledge Graph)被稱為科學知識圖譜,“它顯示知識發展進程與結構關系的一系列不同圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系”。
簡單說,知識圖譜是搜索結果體系化、關聯化和可視化,任何一個搜索請求都能得到一個知識體系,不再只是線性的網址列表,而是網狀知識結點,譬如搜索“小時代”便可看到角色關系圖,搜索地名則可以看到地圖、天氣、旅游景點等關聯信息。
知識圖譜帶來幾個改變。一是結果更加準確。用戶搜索關鍵詞可能有多重意思,知識圖譜可以展示最全面的信息,更有機會命中用戶需求;二是結果包括全面的摘要,《小時代3》圖譜便可看到關聯的演員、作者介紹甚至微博相關話題;三是搜索更廣更深,通過知識圖譜建立的關系讓用戶可以通過互動、點擊拓展搜索的深度和廣度。
更準、更廣、更深的搜索是百度一直在追求的目標。尤其是在大力發展移動搜索的當下,更是需要讓搜索做到精準無比,以降低用戶輸入和選擇成本。當百度極簡首頁上線,無需用戶選擇頻道時,它的結果必然要足夠精準和全面,擊中用戶需求才行,知識圖譜的能力正在于此。
百度一直都十分重視知識圖譜并且有先天優勢,去年便陸陸續續出現百度知識圖譜的消息,能回答“第三個字是風的成語”、“謝霆鋒的前妻的兒子的爸爸的年齡”這樣的推理問題就是知識圖譜的應用。結果頁右側的關聯結果,也是知識圖譜的應用。本次知識圖譜的可視化展現,是通過百度內部前端開源產品Echarts實現的。
《小時代3》知識圖譜上線、tupu.baidu.com域名出現以及百度極簡首頁上線這幾個跡象則表明,百度知識圖譜產品狂想曲已然奏響。
與Google、Bing和Facebook知識圖譜的不同思路
在技術上Google和Bing一直與百度分庭抗禮,在知識圖譜上,三家都有著很強的積累。去年社交巨頭Facebook也推出Graph Search進入社交圖譜搜索。
Google在2012年推出知識圖譜產品,不管用戶搜索的關鍵詞是代表了地標、名人、城市、球隊名、電影、專業詞語還是一種菜的做法,Google 的“知識圖譜”都可以將搜索結果的知識體系完整的呈現出來。此外,Google有Search Plus Your World這一結合Google+的社交搜索產品。
Bing在中國推出了人立方社交人際關系搜索引擎,你可以查看一個人名的熱度,TA的關系網絡圖,TA最親密的好友,這款產品基于全網WEB數據以及新浪微博的開放數據。由于只能搜索人際關系,與其他知識分離了,因此人立方并沒有什么起色。
隨著Facebook GraphSearch的推出,Bing將知識圖譜與社交網絡結合起來的定位顯然是尷尬的。因為Bing并沒有自己的社交數據——在Space和MSN均宣告失敗的情況下。
Facebook Graph Search是基于社交圖譜的搜索,可以搜索“洛杉磯XX街道最近一年接待我的朋友最多的餐廳”這樣的問題。GraphSearch沒有大獲成功,因為Facebook只有封閉的社交數據,基于這些數據能夠組織的知識,能夠給出的結果,能夠滿足的搜索場景都十分有限,它只是一款過得去的站內搜索。
Bing和Facebook的在圖譜搜索上的失利說明了社交既非必要條件亦非充分條件。Google和百度完全從搜索出發基于十多年沉淀的知識圖譜、用戶數據,利用擅長的大數據和深度學習算法,反而可以把知識圖譜做得更加全面、精準和完備。
Google和百度在知識圖譜探索上還是會有所不同。Google知識核心來自WIKIPEDIA、Freebase等網站,百度05年左右開始的UGC知識產品戰略,使之擁有強大的自有知識圖譜,分別來自百科、知道和貼吧這些產品的數億條數據和關系。目前百度的知識圖譜已經涵蓋十幾大領域,數十個類別,擁有上億實體量。通過構建宏大的知識網絡,整合碎片化信息,再以圖文并茂的方式展現出來,人們便可以在輕點鼠標的片刻,迅速獲取知識、找到所求。
值得一提的是,自今年以來,百度在搜索結果頁上頻出新產品,除了人物關系圖譜外,在有焦點事件如湯唯訂婚等新聞發生時,搜索結果右側便會呈現出相關人物關系的智能推薦;每逢世界杯等重大賽事活動舉辦時,即時更新的時間脈絡圖譜也會清晰展現在右側;而用戶搜索“故宮”、“頤和園”等景區,可直接得到景點地圖、人群分布圖、周邊交通信息、景點推薦等信息……
眾所周知,知識圖譜對“語義識別”技術門檻極高,對社會化開源內容有很強的支撐需求,且是依賴大量用戶的行為數據庫的產品形態。百度搜索本身就是一個大數據來源,同時百度還擁有來自像百度百科、百度知道、百度文庫等產品的多方面數據支持,這些共同將百度打造成一個數據航母戰斗群,促使百度能夠在一年時間里完成了近百億實體知識圖譜的構建并且實現了平臺化,這樣百度知識圖譜就能夠快速切換支撐多個產品的發展。
知識圖譜可以讓用戶得到全新的搜索體驗,讓用戶更快速接近答案和服務。筆者思考的一個問題是:繼阿拉丁之后,知識圖譜是更強大的用戶需求滿足方式嗎?