成人午夜激情影院,小视频免费在线观看,国产精品夜夜嗨,欧美日韩精品一区二区在线播放

透視百度技術(shù)紅利:何以從中文快速遷移至葡語?

2014-07-25 10:49:23來源:威易網(wǎng)作者:

一周前,在大國外交護航、兩國元首啟動、巴西產(chǎn)業(yè)全方位合作的支持下,百度以一種新的姿態(tài)進軍巴西,改變了以往互聯(lián)網(wǎng)公司出海的路徑,象征著中國也開始從資源型、勞務型輸出向技術(shù)型輸出之路邁進。

百度股價又創(chuàng)52周新高。

一周前,在大國外交護航、兩國元首啟動、巴西產(chǎn)業(yè)全方位合作的支持下,百度以一種新的姿態(tài)進軍巴西,改變了以往互聯(lián)網(wǎng)公司出海的路徑,象征著中國也開始從資源型、勞務型輸出向技術(shù)型輸出之路邁進。在過去,由于存在文化差異的巨大鴻溝和國際巨頭的先發(fā)優(yōu)勢,互聯(lián)網(wǎng)公司出海,要么是選擇以投資方式收購海外團隊,要么是采取邊緣化戰(zhàn)略做海外巨頭忽視的工具類產(chǎn)品。

\

百度(BIDU)今日股價。近期百度股價一路飆升,市值已超700億美元。

因此,要推出與本地化網(wǎng)絡及文化相關(guān)度很高、且有Google這類巨頭占據(jù)先機的搜索引擎產(chǎn)品,其難度可謂相當大,百度此次發(fā)布葡語搜索讓人看到其強大的技術(shù)力量,而且更重要的一點是,不僅僅是葡語,百度已經(jīng)從中文搜索迅速的遷移到了泰語、阿拉伯語,這更讓人看到其背后的技術(shù)力量能產(chǎn)生的想象空間,這些想象空間得到華爾街的追捧,目前百度股價為200.12美元,市值超過700億美元。

那是什么能讓百度快速遷移新語種搜索?背后有哪些技術(shù)上的支持?百度葡語搜索將與Google有怎樣的抗衡?

如何做到快速遷移?

搜索引擎有兩個層面的核心技術(shù),第一層面是首先要收錄和索引內(nèi)容,通過搜索引擎的爬蟲不斷的將網(wǎng)絡的內(nèi)容抓取、分析、處理、排序,這是基礎,相當于建立一個會不斷自我完善的圖書館,第二層面是讀懂用戶的搜索需求,從用戶在框里的輸入理解其真實的搜索目的,然后根據(jù)其目的展現(xiàn)收錄的內(nèi)容。

要實現(xiàn)國際化的擴張和語種的快速遷移,必須要為不同語言建立一個好用的圖書館,人們在搜索時,能夠最快得到自己想要的結(jié)果,同時,只要這個語言的網(wǎng)站有對應的結(jié)果,還不會被漏掉,這是搜索引擎最本質(zhì)的需求。要做到這個基礎,在百度,實際是由一個簡稱WD的技術(shù)部門來實現(xiàn)的,全稱互聯(lián)網(wǎng)數(shù)據(jù)研發(fā)部。

它關(guān)鍵做三件事情:

一是資源收錄,就是把相應語言的網(wǎng)站資源進行抓取,抓取技術(shù)通用性較高,能夠快速遷移到不同語言。

二是數(shù)據(jù)挖掘,也就是通過頁面特征分析,來計算頁面的權(quán)重、價值從而進行排序。這一點是搜索好壞的關(guān)鍵,如何讀懂資源并打上正確的屬性標簽,并根據(jù)PageRank的算法進行評分,將決定搜索的質(zhì)量。

三是結(jié)構(gòu)化數(shù)據(jù)分析。也就是把互聯(lián)網(wǎng)的數(shù)據(jù)按一定規(guī)則解析提取, 比如把影視站點的視頻名字、長度以及檢索需要的數(shù)據(jù)快速拿出來,以結(jié)構(gòu)化形式展現(xiàn),做到這個就最終能夠形成知識圖譜。

經(jīng)過長期的積累,WD在這三個層次的技術(shù)領(lǐng)域,已經(jīng)形成了一個通用的架構(gòu),它的底層邏輯不再按語言體系來區(qū)分,在抓取、收錄、分析、結(jié)構(gòu)化、排序、打分等各個環(huán)節(jié),核心算法邏輯和數(shù)據(jù)模型是相同的,只需要針對不同國家的法律法規(guī)、互聯(lián)網(wǎng)生態(tài)做一些調(diào)優(yōu),讓基礎數(shù)據(jù)模型更符合這個國家特性就可以了。

詳細的來說,百度WD在架構(gòu)方面擁有支持多語言的通用基礎架構(gòu),實現(xiàn)了多語種基礎

服務;在策略上,資源收錄、編碼識別、網(wǎng)頁分類體系、網(wǎng)頁結(jié)構(gòu)化抽取、頁面/站點價值計算等搜索引擎所需要的基礎特征方向,WD也擁有跨語言的通用挖掘技術(shù),進而能結(jié)合本地化特色實現(xiàn)快速策略插拔,優(yōu)化模型,滿足最優(yōu)的本地化搜索需要。

以阿拉伯語為例,它的文字是反著寫的,其次它的字節(jié)與中文或英文是很不一樣的,但掌握了語言的核心邏輯以后,后續(xù)的數(shù)據(jù)處理、頁面分析、排序、結(jié)構(gòu)化其實是類似的。經(jīng)過阿拉伯語、泰語對這套通用技術(shù)的錘煉,百度的葡語搜索僅用了不到一年的時間,各項指標就達到了Google的水準。

有了這套經(jīng)過驗證的體系,跨一個語系已經(jīng)對百度沒有太多的難度,相信未來百度還會不斷的推出新的語言的搜索。這為百度的國際化策略打下了堅實基礎。

如何與Google抗衡?

在中文領(lǐng)域,百度的搜索能力已經(jīng)超越Google,但是在國外的環(huán)境下,百度不再具備文字的優(yōu)勢,甚至而言,Google對英文的熟悉在葡語、西班牙語等語系中更占優(yōu),那百度如何與之抗衡?

一是搜索的核心指標上不輸Google。覆蓋率是衡量搜索引擎效果的重要量化效果之一,體現(xiàn)搜索引擎資源“全”,提升覆蓋率最大的難點在于資源的抓取。對于巴西來說,Google和百度都是外來者,其資源的公開度也是一致的。百度WD針對葡語不同站點個性化的選擇,解決地域適配問題,對葡語資源能夠準確、完整的收錄,支撐覆蓋率效果的穩(wěn)步提升。所以從技術(shù)上來講,百度Google并沒有差別,索引量和覆蓋率上應該都是一個量級的。此外,百度在多語種編碼識別準確率也略高一籌。

而在低質(zhì)評估方面,百度WD價值判斷團隊,針對葡語網(wǎng)頁中上百類屬性,建立特定的策略模型,對頁面價值建立價值體系,反饋系統(tǒng),確保葡語搜索展現(xiàn)低質(zhì)保持在較低水平,首頁搜索結(jié)果中對用戶沒價值的結(jié)果比例,百度的指標甚至已經(jīng)超越Google。

二是搜索算法的差異化方面具有特色。相對而言,Google進入的國家較多,其強大的話語權(quán)優(yōu)勢使得其算法會相對統(tǒng)一,而百度在競爭中會更強調(diào)本地化特色,目前針對不同國家都會有一些量身定制的東西,比如阿拉伯語,由于諸多原因阿拉伯國家網(wǎng)民更喜歡用論壇,百度會加大論壇的權(quán)重或者會更多考慮這個論壇的用戶。

三是提供開放合作的阿拉丁平臺。阿拉丁平臺是非常有特色的一項技術(shù),它能夠滿足用戶不再點擊網(wǎng)頁跳轉(zhuǎn)訪問服務,而是直接在搜索結(jié)果頁面中直接使用服務,非常便捷省時,在國內(nèi)我就非常喜歡用這種方式來查快遞、做翻譯甚至聽音樂。這項服務需要搜索引擎和本地服務上的無間合作,在巴西市場,百度已經(jīng)和其本地資源提供商建立了戰(zhàn)略合作伙伴關(guān)系,由他們通過“阿拉丁”為百度提供結(jié)構(gòu)化數(shù)據(jù)。在用戶搜索黃金價格、客戶服務號碼或者彩票中獎號碼時,直接在搜索結(jié)果頁面頂部為其提供答案。同時,百度也在開發(fā)交互性更強的搜索引擎。例如,用戶在搜索流行歌曲或真人秀之后可以直接通過我們的搜索結(jié)果頁面投票選出最喜愛的歌手。

此外,百度WD也非常重視技術(shù)專利的申請,僅2014年上半年,該團隊已經(jīng)申請了大量技術(shù)專利,其中在知識圖譜應用,結(jié)構(gòu)化數(shù)據(jù)挖掘,鏈接關(guān)系,數(shù)據(jù)挖掘?qū)耐扑]上都有較多專利申請。

可以說,過去百度積累的基礎技術(shù)正在慢慢釋放發(fā)展紅利,其核心能力架構(gòu)構(gòu)成了國際化擴張的基礎,其差異化的特色業(yè)務又構(gòu)成了與國際巨頭抗衡的砝碼,這些技術(shù)能力帶來了巨大的國際化想象空間,這些或許就是股價創(chuàng)新高背后的邏輯。

關(guān)鍵詞:百度技術(shù)紅利

贊助商鏈接:

主站蜘蛛池模板: 日土县| 甘德县| 清水县| 莱西市| 阿拉尔市| 手机| 含山县| 府谷县| 唐山市| 济源市| 柘荣县| 凯里市| 南宫市| 伽师县| 东明县| 银川市| 含山县| 信宜市| 洛隆县| 浪卡子县| 张北县| 天祝| 秀山| 馆陶县| 咸宁市| 宜阳县| 长白| 庆阳市| 梁山县| 高雄市| 康定县| 和平区| 抚州市| 湟中县| 界首市| 柳河县| 额尔古纳市| 四子王旗| 黑水县| 伊通| 双流县|