成人午夜激情影院,小视频免费在线观看,国产精品夜夜嗨,欧美日韩精品一区二区在线播放

寶德云服務器搭建云服務數(shù)據(jù)中心

2013-01-18 16:10:26來源:西部e網(wǎng)作者:

隨著互聯(lián)網(wǎng)的日益普及,安徽某大學科技園的各類信息和服務需求在很大程度上已經(jīng)可以通過互聯(lián)網(wǎng)數(shù)據(jù)的采集分析來完成。根據(jù)CNNIC今年的最新統(tǒng)計,中國現(xiàn)已有網(wǎng)民4.85億,各類站點域名130余萬個,據(jù)市場研究機構(gòu)eMark

隨著互聯(lián)網(wǎng)的日益普及,安徽某大學科技園的各類信息和服務需求在很大程度上已經(jīng)可以通過互聯(lián)網(wǎng)數(shù)據(jù)的采集分析來完成。根據(jù)CNNIC今年的最新統(tǒng)計,中國現(xiàn)已有網(wǎng)民4.85億,各類站點域名130余萬個,據(jù)市場研究機構(gòu)eMarketer估計,2013年中國網(wǎng)民將增會達到8.4億人,互聯(lián)網(wǎng)已經(jīng)成為匯聚各類企事業(yè)組織動態(tài)和社情民意的最大平臺。在國外,甚至包括CIA這樣的情報機構(gòu)已有70%的情報來源于互聯(lián)網(wǎng)上的開放數(shù)據(jù)分析,但面對網(wǎng)上海量信息,單純依靠人工進行處理已不可能,引入智能化的軟件工具勢在必行。

另一方面,云計算作為一種新興的共享基礎架構(gòu)的方法,物理形態(tài)通常為大型的服務器集群,包括計算服務器、存儲服務器、寬帶資源等,它可以將大的系統(tǒng)池連接在一起以提供各種IT服務,并由軟件實現(xiàn)自動管理,無需人為參與,用戶在享用服務時猶如打開水龍頭接水一樣方便簡潔的享受信息服務,而不必關心后臺的技術(shù)有多復雜。由于云計算具有普適、方便、可用性強等一系列的優(yōu)勢,正在受到越來越多的關注,并呈現(xiàn)出廣闊的市場前景。作為服務上百家企業(yè)的園區(qū),通過云服務的方式為上百家在孵企業(yè)提供信息服務支持便成了一種必然的選擇。

為了滿足園區(qū)在招投標,行業(yè)資訊,競爭情報,最新政策等方面的信息需求,寶德設計并實現(xiàn)了情報云服務平臺,初期要達到的技術(shù)指標有:

1.50,000以上重點網(wǎng)站(更新頻率在5分鐘以內(nèi))的采集和檢索,普通網(wǎng)站支持在400,000以上,支持媒體包括新聞,論壇,博客,微博,圖片和視頻等。其中網(wǎng)頁索引量不低于2億(不含微博)。

2. 除了支持存儲靜態(tài)網(wǎng)頁快照文件外,還應支持新聞和論壇中出現(xiàn)的圖片存儲和部分視頻的存儲,其中靜態(tài)html文件存儲量不低于2億,圖片存儲量不低于1億。

3 在10,000個并發(fā)用戶的情況下,單次查詢數(shù)據(jù)庫響應時間小于0.1s,單次索引查詢響應時間小于0.2s。

為實現(xiàn)上述技術(shù)指標,搭建云計算數(shù)據(jù)計算中心,實現(xiàn)海量信息的采集,存儲,分析和檢索。該數(shù)據(jù)中心是云服務平臺運行的軟硬件環(huán)境,數(shù)據(jù)中心的建設滿足系統(tǒng)運行的基本要求。根據(jù)平臺的業(yè)務和數(shù)據(jù)計算中心建設的一般規(guī)律,寶德從云設備選型特制定本方案。

一、業(yè)務需求分析

\
科技園互聯(lián)網(wǎng)情報采集與智能分析系統(tǒng)架構(gòu)

1.1 情報管理和規(guī)劃

根據(jù)該大學科技園的實際情況,需要系統(tǒng)采用靈活的情報分類體系定義方式,以方便科技園靈活定義情報需求。為此,需要預先規(guī)劃欲收集情報的行業(yè),欲采集的主題。系統(tǒng)能根據(jù)園區(qū)訴求會生產(chǎn)網(wǎng)站采集頻道,并確定信息采集源。

1.2 信息采集

由于園區(qū)采集的信息涉及面廣,因而需要系統(tǒng)支持多種信息源的采集,除了包括論壇,博客,新聞,政府門戶網(wǎng)站等靜態(tài)網(wǎng)頁信息,還應包含一些政策法規(guī)文件的電子文檔(如pdf,doc,xls,ppt等),培訓用視頻和圖片文件等。需要系統(tǒng)能夠提供異構(gòu)信息整合工具,將非結(jié)構(gòu)化信息結(jié)構(gòu)化,轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式進行存儲,對外能提供統(tǒng)一的查詢和統(tǒng)計接口。

1.3 信息自動分類

大學科技園需加工和處理的信息類型多樣,包括政策法規(guī)信息,競爭對手信息,園區(qū)內(nèi)部信息,輿情口碑信息,創(chuàng)業(yè)培訓資源,如何對這些資源進行分類管理,有序使用,是一個迫切需要解決的問題,為此平臺應集成信息自動分類功能,能將自動歸類后,形成不同頻道,便于園區(qū)進行查詢和歸檔。除此之外,系統(tǒng)還應該提供分類規(guī)則定義工具和自動訓練器,用戶可以自定義分類主題和分類規(guī)則,進行靈活分類;系統(tǒng)還集成分類訓練器功能,用戶指定類別和訓練樣本后,自動生成訓練模型進行分類預測。

1.4 自動排重

互聯(lián)網(wǎng)存在大量重復信息,如果能對這些重復信息進行自動判定,那么為情報人員節(jié)約大量時間,系統(tǒng)排重除了能夠支持url的排重外,還能支持內(nèi)容排重功能,能抽取文檔的特征詞,設定內(nèi)容相似度閾值,來調(diào)整排重的召回率和準確率。

1.5 自動摘要

摘要是以提供文獻內(nèi)容梗概為目的,不加評論和補充解釋,簡明、確切地記述文獻重要內(nèi)容的短文。如果計算機程序能根據(jù)文章的外在特征抽取能夠表達其中心意思的原文部分句子作為摘要,那么將會大大大幅情報人員的工作效率。系統(tǒng)能輸出反映文章大意的靜態(tài)摘要,基于用戶查詢輸出反映查詢意圖的動態(tài)摘要。

1.6 主題跟蹤

系統(tǒng)能夠根據(jù)用戶定義的主題進行相似主題的檢測,并形成專題聚焦,能夠自動發(fā)現(xiàn)新聞和帖子的源頭,記錄轉(zhuǎn)載順序,并跟蹤,預測主題未來的發(fā)展趨勢。

1.7 信息自動的發(fā)布

系統(tǒng)可以基于用戶設置的模板自動生成簡報,簡報支持多種媒體信息,包括圖片,表格,文字等。
通過手機客戶端或PC能瀏覽系統(tǒng)自動生成的網(wǎng)站頻道,查看競爭情報或輿情信息,對于危機輿情和敏感信息,系統(tǒng)能夠自動預警。

用戶也可以根據(jù)多種查詢條件,查詢感興趣的信息。

二,配置方案

根據(jù)業(yè)務的分析主要選定的云設備包括服務器,存儲設備,網(wǎng)絡設備等。服務器的類型定為機架式服務器。機架式服務器被安裝在標準的機柜中,占用的空間小,便于管理和維護。根據(jù)功能需要,需要配置以下幾種服務器。

信息采集服務器

為了保證信息采集的及時性,需要進行多線程并發(fā)下載,同時要進行下載調(diào)度,反垃圾等,對網(wǎng)絡帶寬,網(wǎng)卡和CPU處理速度要求較高。考慮到該機器需要根據(jù)數(shù)據(jù)規(guī)模進行水平擴展,故選擇成本較低,易擴展的PC 服務器。適合做下載服務器的機器PR1280R配置為:內(nèi)存8G DDR3,CPU為至強E3 2.3Ghz 4核。網(wǎng)卡為千兆雙網(wǎng)卡,硬盤為500G。

存儲和分析服務器

主要用于構(gòu)建分布式文件系統(tǒng),實現(xiàn)對快照,圖片的分布式存取。對硬盤容量和磁盤讀取速度有要求。另外該集群也可以通過離線或在線分布式計算實現(xiàn)數(shù)據(jù)分析。根據(jù)業(yè)務情況,選擇易擴展,容量擴充相對便宜的PC服務器。 適合做存儲和分析服務器的機器PR1280R配置為:內(nèi)存4G DDR3;CPU至強E3 2.3Ghz 4核;網(wǎng)卡選用千兆雙網(wǎng)卡。硬盤容量2T。該機器配置同采集服務器基本相同,但硬盤容量為2T。

數(shù)據(jù)庫服務器

主要用于存儲用戶設置信息,組信息,規(guī)則,使用記錄,站點和監(jiān)控詞信息等。同時作為緩存服務器,緩存用戶頻繁訪問的信息。適合做數(shù)據(jù)庫服務器的服務器PR2310R配置為:內(nèi)存16G DDR3,支持最大內(nèi)存48G,CPU為Intel(R) Xeon(R) CPU E5 2.13GHz,網(wǎng)卡為千兆雙網(wǎng)卡,硬盤為500G SATA。

檢索服務器

用于存儲索引文件,對外提供數(shù)據(jù)快速檢索服務,對CPU,內(nèi)存都有較高要求。適合做檢索服務器PR2310R的配置為:內(nèi)存24G DDR3,支持最大內(nèi)存48G,CPU為2*Intel(R) Xeon(R) CPU E5 2.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤為3T(3*1T)。

Web服務器

面向外部用戶,提供web服務,包括面向用戶的應用,包括信息門戶,簡報,查詢和預警等。還能為管理提供后臺管理的功能。適合做web服務器PR1310R的配置為:內(nèi)存8G DDR3,支持最大內(nèi)存48G,CPU為Intel(R) Xeon(R) CPU E5 2.13GHz,網(wǎng)卡為雙千兆網(wǎng)卡,硬盤為1T SATA。

贊助商鏈接:

主站蜘蛛池模板: 肇庆市| 黄龙县| 邯郸县| 西宁市| 永康市| 中山市| 茶陵县| 平谷区| 潮州市| 通化县| 汝城县| 哈巴河县| 甘泉县| 东方市| 无极县| 吉隆县| 沙湾县| 阿合奇县| 依安县| 湖口县| 潞西市| 青田县| 宕昌县| 胶州市| 顺平县| 天柱县| 永城市| 思茅市| 桂林市| 富平县| 岳池县| 雷州市| 腾冲县| 宜城市| 晋宁县| 云霄县| 阳谷县| 石林| 东乌珠穆沁旗| 宾川县| 威海市|