基礎(chǔ)數(shù)據(jù)是智慧園區(qū)的基礎(chǔ),基于基礎(chǔ)數(shù)據(jù)的分析、處理及整合,可以協(xié)調(diào)不同業(yè)務(wù)、不同領(lǐng)域、不同部門之間的業(yè)務(wù)處理,實現(xiàn)園區(qū)資源的綜合利用,在大數(shù)據(jù)技術(shù)領(lǐng)域,主要目的是圍繞打造信息優(yōu)勢并向決策優(yōu)勢轉(zhuǎn)換的發(fā)展目標,通過突破高效、穩(wěn)定、易用、安全的大數(shù)據(jù)分析處理技術(shù),解決當前數(shù)據(jù)資源利用單一、分析挖掘手段缺乏、智能化輔助能力低的問題,為智慧園區(qū)建設(shè)提供支撐。大數(shù)據(jù)關(guān)鍵技術(shù)的能力將瞄準在平臺運算處理能力和對業(yè)務(wù)的支撐,優(yōu)化、提升平臺存儲和運算能力,進一步對跨系統(tǒng)及各類數(shù)據(jù)進行整合,提升數(shù)據(jù)分區(qū)二次存儲能力,滿足數(shù)據(jù)支撐不同類型的業(yè)務(wù)需要。對行業(yè)業(yè)務(wù)數(shù)據(jù)進行積累和沉淀,形成可復(fù)用算法庫。因此,基于大數(shù)據(jù)平臺的分析、處理及融合的相關(guān)技術(shù)是解決支撐平臺能夠智能運行的關(guān)鍵。
1、海量數(shù)據(jù)存儲技術(shù)
針對不同應(yīng)用場景滿足海量數(shù)據(jù)存儲管理需求,提供異構(gòu)數(shù)據(jù)統(tǒng)一管理,支持關(guān)系數(shù)據(jù)庫、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、圖數(shù)據(jù)庫的數(shù)據(jù)存儲。
2、多種計算模式的海量數(shù)據(jù)并行計算技術(shù)
針對不同數(shù)據(jù)處理需求特征,提供涵蓋批量計算、流式計算、圖計算多種計算模式,為大規(guī)模數(shù)據(jù)高效挖掘分析提供計算支撐。提供批處理計算框架、流處理計算框架、圖計算框架等計算引擎,并對集群的大規(guī)模計算資源進行統(tǒng)一管理。
3、大數(shù)據(jù)挖掘引擎技術(shù)
實現(xiàn)大數(shù)據(jù)挖掘平臺技術(shù),為業(yè)務(wù)分析人員提供圖形化大數(shù)據(jù)挖掘算法運行、監(jiān)控功能以及圖形化大數(shù)據(jù)挖掘流程構(gòu)建與運行功能;為分布式開發(fā)人員提供大數(shù)據(jù)挖掘算法開發(fā)基礎(chǔ)軟件環(huán)境以及工具庫;提供大數(shù)據(jù)挖掘算法、流程管理功能,集成Mahout、MLib開源分布式挖掘算法,支持分布式挖掘算法注冊與搜索。
4、大數(shù)據(jù)交互式分析技術(shù)
實現(xiàn)海量數(shù)據(jù)交互式內(nèi)容分析,一方面提供交互式數(shù)據(jù)操作接口,支持select、join、insert、union、avg、group等典型SQL操作;另一方面封裝數(shù)據(jù)分析典型需求,支持全局有序數(shù)據(jù)重組、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)抽樣等一鍵式數(shù)據(jù)分析。降低數(shù)據(jù)分析人員的分析復(fù)雜度,提升數(shù)據(jù)內(nèi)容分析效率。