阿里已處理超過100PB大數據 相當580億本圖書
你知道,怎么樣種出更暢銷的玫瑰嗎?如果有人問你借錢,你是借還是不借呢?你今天看完了電影,接下來要干什么?在以前,也許你會去問有經驗的人,也許你會自己糾結半天。但是,數據社會,用大數據來幫你解決。3月7日,阿里巴巴舉辦首個西湖品學大數據峰會,梳理阿里數據發展脈絡,并聯合全球頂尖數據專家,一起來探討未來數據的各種可能性。當天,阿里集團透露,在阿里數據平臺事業部的服務器上,攢下了超過100PB已處理過的數據,等于104857600個GB,相當于4萬個西雅圖中央圖書館,580億本藏書。
大數據是什么?
——很難想象數據的豐富性上誰能比阿里更多
像皇帝的新衣一樣,每個人都在談論大數據,但卻沒有人能真正具象它。大數據是什么?目前,阿里集團僅淘寶和天貓兩個子公司每日新增的數據量,就足以讓一個人連續不斷看上28年的電影。而如果將你代入成服務器,你處理的數據量則相當于每秒鐘看上837集的《來自星星的你》。
大,只是大數據的一個基礎。它不只是計算機語言里面的0和1,也不僅僅是你現在看到的文字,甚至你的一次眨眼,也是大數據的一部分。
這也就是說,豐富和多樣,才是大數據與一般數據的區隔。自成立十多年以來,阿里巴巴已經沉淀了包括了交易、金融、SNS、地圖、生活服務等多種類型的數據。而這些數據之間相互關聯,會產生巨大的能量。
例如:在小微企業融資領域,由于銀行無法掌握小微企業真實的經營數據,不僅導致很多企業無法拿到貸款,還因為數據類型的不足導致整個判斷流程的拉長。而阿里已經通過交易、信用、SNS等多種數據,來決定是否可以發放貸款、發放多少。貸款申請人就像在ATM機上取款一樣,在一提交貸款申請的時候,即時就能獲貸、支用,整個流程完全在網上完成。
這是阿里大數據的一次應用,也是數據種類豐富度的一次體現。已經很難想像,在數據的多樣和豐富性上,全球還有誰能比阿里更多。
大數據需要什么?
——阿里跨機房運算突破空間限制 讓facebook來求教
就如你剛剛走在路上,看到了一輛車,它在你大腦里變成電信號,然后在大腦神經元中記憶下來,并且在神經網絡中隨時處理調用。大數據就像是這個過程,需要經過存儲和處理。
在阿里數據平臺事業部的服務器上,攢下了超過100PB已處理過的數據。這是什么概念?它相當于4萬個西雅圖中央圖書館,580億本藏書。
有了書,還需要合適的管理員來整理。不過,在大數據領域,管理員就是性能穩定優越的云計算。例如,單集群規模達到5000臺這一技術,對于云計算行業來說,是一個標桿性的突破。
目前,全球僅有兩三家公司計算技術達到單集群規模5000臺服務器,阿里位列一席。而這還不足以展現阿里的技術實力。隨著數據量的繼續增大,即使單集群到10000臺,也依然會觸碰到天花板。而阿里做到的是,跨機房運算。這也意味著,服務器突破了機房的空間限制,可以無限延展。這一技術也讓占據另一席位的facebook前來求教經驗。
大數據可以做什么?
——你的生活將被改變
有人說,大數據離我太遠了。其實不然,幾百年前哥倫布發現新大陸開啟了航海時代,就是使用數據的結果。而你現在上淘寶搜索一件毛衣,可以立即為你匹配出你最想要的那件,也是數據的一次基本應用。
不過,這都是過去時了。你即將可以看到,阿里數據為你生活帶來的又一次改變。在未來的數據社會里,它將阿里數據與外部更多數據串聯起來,像錄音筆一樣還原每個數據所發生的場景,并因此提供給你最需要的東西。例如,你可以用市場交易數據和園林數據,來判斷怎么種玫瑰花會更暢銷;你可以通過信用數據和金融數據來看,向你借錢的人,是不是會還錢你;你還可以知道,你暗戀的那個女生,是不是也喜歡你,因為SNS。
你的生活里,將充滿數據應用的結果,每個人都能享受到數據帶來的便捷。
未來:DT時代 改變你的大腦思維
十年鑄劍。在大數據浪潮再起時,阿里數據選擇的是,“退一步”。
退一步,并不是指退步。而是說,在人人都開始為大數據感到狂熱的時候,阿里已經冷靜看到,大數據未來會迸發的價值以及需要為此做出的努力。
阿里巴巴董事局主席馬云最近發出的一封內部郵件,提到了阿里的未來戰略:以控制為出發點的IT時代正在走向激活生產力為目的的DT(data technology)數據時代。這不僅僅是技術的升級,更是思想意識的巨大變革。
這是阿里的戰略,也是大數據的未來走向。阿里正在建設一個大數據環境,數據變成工程,提供的是一整套精細化的服務:
在這里,之前想使用數據卻無力購買服務器和增添技術人員的中小企業,可以獲得數據存儲、數據處理服務,也可以構建他們自己的數據應用;在這里,線上線下所有數據都能串聯起來;在這里,所有人都是數據的提供方,也是數據的使用者;在這里,數據變成一種普及,就像語言一樣,成為人人可用的東西,每個人都能享受數據成果。
數據者的思維,將不再被應該怎么拿數據,應該怎么用數據所束縛;而普通人,也不會再被“今天吃什么”這樣的問題所糾結。一切,都是數據化的。