10年以前,阿里并沒有意識到,今天的數據量,會到達一個什么樣的程度。目前,阿里集團僅淘寶和天貓兩個子公司每日新增的數據量,就足以讓一個人連續不斷看上28年的電影。而如果將你代入成服務器,你處理的數據量則相當于每秒鐘看上837集的《來自星星的你》。
這只是阿里大數據實力的冰山一角。大數據的魅力和要求,遠不止于此。
十年多樣數據沉淀:交易、金融、物流、SNS、地圖……
阿里數據到底有多大?想象一下天貓雙11吧,這是每年一次對阿里數據的大考。在2013年11月11日,它承載的是350億的交易額,是同時服務超過1700萬人,是每分鐘產生10萬個包裹,是提供相當于1000個義烏商品市場那么大的商品數給你挑選,是需要同時展現3000萬部愛情動作片,是支持每分鐘100萬人同時買單,是相當于同時由9000萬個服務員幫你拿貨。
當然,體量的大,只是大數據的基本。而數據種類的多樣、全面、可關聯,才是全球考量大數據價值所在。十余年以來,阿里沉淀了包括了交易、金融、SNS、地圖、生活服務等多種類型的數據。
十年數據平臺變革:從舶來品到自建“云端” facebook找上門求經驗
即使阿里有號稱全球最大的Oracle RAC 集群,卻依然難以滿足業務發展的需要。當時,阿里的數據以2~4倍的增長,而Oracle 從性能上不能做到線性增長。于是,阿里開始研發自己的大規模分布式計算系統。不過,加速阿里自建云端并且將下決心將全部數據遷移上云的,卻是來自一封郵件——“云梯1要撞墻了”。(備注:云梯1是阿里在其他系統的基礎上構建出的分布式計算機系統。)
這封郵件是技術保障部同學發給阿里CEO的。去年3月,技術保障部發現,按照數據增量和未來業務增長的情況,系統存儲和計算能力將在3個月內達到瓶頸,數據業務將會停滯。于是,在短短4個月之內,阿里將單集群規模從1500臺服務器升級到了5000臺服務器,成為國內首個單集群達到5000臺規模的公司。
這意味著什么?5000對于云計算同行來說,有如登山運動前的珠峰,不可逾越。在當時,就算對Google與FaceBook這樣的擁有大數據并掌握云計算核心技術的公司也沒有完全成熟的解決方案。也就是說,這完全是摸著石頭過河,誰都沒有經驗。
不止如此,阿里還成功實現了跨機房集群擴展。也就是說,5000臺服務器的集群可以無限延伸。在其他公司還在拼命砸錢買服務器卻依然面臨可能“撞墻”障礙的時候,阿里已經可以無限制擴展,提供無限制的服務了。也難怪,在成功后不久,連facebook這樣全球頂級的IT公司也發來郵件,求助阿里數據團隊前去分享經驗。
十年數據應用創新:從自己用,到給別人用
目前,阿里集團已經有上百款數據應用產品。而在10年以前,阿里還對數據產品沒有概念。嚴格上來說,最早出現的跟數據有關的產品,是2005淘寶推出的“淘數據”。這是一個考量各個業務線運營情況的內部產品,能夠看到每天的經營數據報表。這是首次阿里對數據的需求,以產品的形式存在。
自此以后,阿里開啟了數據應用之門,在金融、信貸、廣告、搜索、交易、選品、活動、生活、技術服務等多個方面推出產品。
例如,阿里數據最早被業內所熟知的,是阿里金融。這款產品綜合了信用記錄、成交數額等結構化數據,以及用戶評論等非結構化數據,加上外部搜集的用電量、銀行信貸等數據,可就放貸與否、放貸額度精準決策。直接彌補了銀行業在貸款風險上的盲點,幾分鐘之內就讓貸款發出,其貸款不良率僅為0.78%。截至2014年2月底,阿里小微信貸已經累計為超過70萬家小微企業解決融資需求,累計投放貸款超過1700億元。
2012年的聚石塔,一推出就投入到雙11的實戰中去。它提供了數據存儲、數據計算等服務,在保障交易安全,避免遭黑客攻擊的同時,還提升了商家處理訂單的速度,確保交易順暢。2013年的天貓雙十一,聚石塔處理了全網75%商家的訂單,處理總訂單量是12年雙11的10倍,0漏單,覆蓋活躍商家94萬,其中有兩家訂單量過100萬。
而就在去年夏天,阿里又推出一個數據平臺DMP。在這個平臺上,數據變成國際市場里的原油,數據的擁有者、挖掘開發者、消費者都在這里交匯。在這個平臺里面,傳統意義上的商家通常以數據消費者的身份出現,來購買數據結果。他們通過數據結果來幫助自己做好精準營銷,提升轉化率。統計顯示,目前DMP數據可幫助商家提升盈利達3倍。
從其推出的產品可以看出,阿里已經從自己用數據,到給數據讓別人用,再到現在的給別人搭建使用數據的平臺,讓所有人都可以享受數據帶來的成果。
未來:所有數據的交匯 讓1+1>2
有人說,數據是有錢人玩的游戲,因為需要花費大把的錢去燒服務器。這句話,也許曾經適用,現在也適用,但以后將不再適用。因為阿里自己研發了計算系統,并且在這個系統上,將真正搭建一個大數據環境。在這里,許多有數據需求的中小企業可以得到數據存儲、數據處理等服務,甚至還能構建他們自己的數據應用,而無需為此購買服務器,為此增添相關的技術人員。
除此之外,未來的數據社會里,各種數據也將串聯起來。阿里正在搭建開放的數據平臺,一方面將自己的數據開放給更多有需要的人使用;而另一方面,更多外部數據也會涌入這個平臺,與阿里體系內的金融、地圖、SNS、交易等多種數據相交匯,產生出更多價值。
可以想象,不久以后的一天,你是這樣度過的:早上起床,就會有信息提示你,今天陽光很好,你適合穿衣柜里從左開始數的第6件衣服;你剛吃完早餐的時候就告訴你,最近一輛車會在8:50到你家門口;你在上班路上看到有個女生的裙子很好看,打開手機淘寶的時候,就會出現那條裙子的店鋪;下班之后,你想去看場電影,一進影院就會自動挑選出你會喜歡的影片而不需要你在幾部片子里面糾結;電影一結束,就會有你剛好想吃的甜品店推送給你……