數據中臺概述
產生背景
數據中臺是商業模式從IT時代進入DT時代的必然產物,是從流程驅動轉向數據驅動的必然結果。云計算的三種服務模式分別是SaaS:Software-as-a-Service(軟件即服務),PaaS:Platform-as-a-Service(平臺即服務), IaaS: Infrastructure-as-a-Service(基礎設施即服務)。現在比較流行的數據中臺,可以理解為PaaS,即數據平臺提供數據服務能力支撐。在過去的10多年里,像Google,微軟等知名企業研發了很多平臺框架,但是都沒有能以公共服務的方式發展成一個很強的中臺支撐業務應用,主要原因是傳統IT業務系統是以流程驅動,以業務為核心,提供類似SOA的服務設計框架,實現的是服務復用,由于這些SOA服務框架,都是個性化業務需求,只能實現以組件模塊的形式做編寫復制,無法形成正在意義的PaaS平臺。
今天,隨著大數據,人工智能新技術的發展,帶來的一個新的窗口機遇,主要幾個核心技術組件都發生根本性的變化。例如:第一傳統IOE體系架構上的優化,像虛擬化超融合等技術,這些是延續性創新,是圍繞IOE體系架構下各種協議標準做資源調度的優化;第二IOE大架構出現斷崖式遷移,出現了像分布式計算,容器化,機器學習人工智能等技術框架,這是當前最主流的體系框架。這種變化使PaaS層開始出現以數據驅動為核心,充分利用數據價值,提供服務應用,最終形成數據中臺。
數據中臺作用
數據中臺幫忙用戶快速“找到”數據,明確數據在哪里。通過數據中臺相關工具,自動化抽取現在運行數據庫的庫表定義,字段屬性和關聯關系,利用圖的高維展示技術,實現快速數據位置定位。分析數據使用頻度和調用關系,挖掘數據血緣關系,構建網絡圖譜,實現數據關系高維展示,分析系統搬遷上云,容災備份和字段變更等影響范圍。
數據中臺幫忙用戶快速“應用”數據,明確數據如何用。通過數據中臺相關工具,可以實現一份數據同時支撐TP應用和AP分析,不需要數據搬家,直接對數據進行處理應用,實現即席的數據分析服務應用,異構數據探查服務,高并發,低延時的數據服務應用。
數據中臺幫忙用戶快速“用好”數據,明確數據有價值。應用數據,發揮數據價值,不但采用傳統BI思路實現數據報告服務,還有采用AI建模思路。更好的用好數據。采用智能算法配合規模化數據,充分挖掘數據,實現數據價值。以數據為驅動,形成數據閉環,不斷優化模型算法,動態調整模型,提高模型效率和準確度,更好挖掘數據價值。
數據中臺體系架構和關鍵技術
數據中臺的總體框架體系
數據中臺體系架構主要分三層,分別是數據融合層,技術支撐層和數據服務層。
數據融合層主要實現數據采集匯聚融合服務,支撐異構數據融合,數據管理,實時批量數據采集等功能。
技術支撐層主要是采用hadoop生態體系架構組件和相關自主研發產品來支撐數據服務應用,是數據統一管理,數據融合應用和數據建模應用。
數據服務層主要是采用微服務架構實現數據BI服務應用和模型智能服務應用,用來支撐智能業務應用。
數據中臺的關鍵技術實現
(一)Hilbert復雜網絡技術:
Hilbert采用B/S結構設計。在算法支持上,內建多種圖計算算法;在使用上,提供了數據加載、處理、建模、計算、查詢以及展示等全方位的配套功能;在管理和開發上,具有完備的圖形化管理界面和主流語言的開發接口。因此,產品在方便業務和技術人員使用的同時,能夠快速幫助用戶實現系統的就緒。
Hilbert總體上由三個核心部分組成,包括圖譜展現工具、圖計算引擎和圖數據。
? 圖譜展現工具:通過直觀、友好的圖譜展示技術,展現復雜網絡分析計算后的結果數據,便于用戶對數據的理解。
? 圖計算引擎:內建有多種基于分布式技術的圖計算算法,支撐在海量數據下對網絡結構數據進行分析計算,快速反饋計算結果。
? 圖數據庫:基于分布式存儲技術實現對網絡結構數據的建模和存儲,支持對數據的增/刪/改/查等維護操作,并具備事務處理能力。
? 關聯性分析:研究分析網絡結構數據中節點與節點之間的關系。可用于對朋友圈中關系的分析、最佳行程的規劃以及網絡的路由分析等分析場景。
? 相似性分析:通過分析節點在網絡結構中的特征,發現并找出與其相似的節點。可用于客戶分群、相關產品推薦等分析場景。
? 節點重要性分析:根據網絡結構特點,分析評估節點或邊在網絡中的重要性,可用于產品傳播營銷,網頁搜索結果排名等分析場景。
? 社團分析:分析并挖掘龐大網絡體系中的關系密切的子網絡群。可用于供應鏈的發現、朋友圈的發現等場景。
? 網絡特征評估:用于觀察并分析所研究網絡的整體特征,可作為其他復雜網絡分析的基礎。
(二)Hubble-HTAP數據庫:
Hubble數據庫產品以Hadoop作為底層平臺,采用分布式技術,提供多種接口服務于企業中具有實時性查詢要求的系統應用。為企業提供良好的海量數據實時查詢的解決方案,最大程度的保障了企業業務處理的流暢,促進企業的高效運作,它同時和數據湖泊(Data Lake)具有較好的天然融合性。
基于混合數據庫架構的Hubble 數據庫, 具有以下主要特性:
第一是支持實時、離線高速入庫,滿足各種入庫需要,并支持實時入庫,支持離線批量加載,并支持多節點的ACID
第二支持超高并發,即支持大規模用戶訪問,支持上萬用戶在線實時高并發修改和查詢
第三是支持全部標準SQL的語法,提供各種分類、匯總等統計公式,及OLAP分析。
(三)AI PaaS平臺:
天云大數據在大數據領域深耕多年,對Hadoop生態系統有深入的了解和大量的項目經驗。因應市場需求,結合公司為多個行業的客戶研發的機器學習應用和解決方案,包括客戶行為分析、客戶興趣圖譜、資訊產品推薦、客戶流失分析、風險預警、信用評分等,整合項目涉及的核心算法,并加入深度學習等熱門模型,組成MaximAI分布式數據科學平臺。MaximAI平臺旨在突破Hadoop/Spark在部署使用上的瓶頸,節省在海量數據集運行機器學習算法的成本,使更多企業能夠享受大數據算法預測模型帶來的無限價值。
功能特性
MaximAI平臺包含6個主要的功能模塊: 工程化管理平臺模塊、數據存儲和加載功能模塊、數據預處理和統計分析模塊、全量數據建模模塊、預測建模和模型評價模塊、自主編程以及特定場景開發模塊。
工程化管理平臺模塊
工程化管理平臺實現了對各數據建模整個生命周期的可視化和模塊化管理,并以友好的用戶界面和高級的技術特性,整合用戶管理、任務管理、數據管理和模型管理等業務級管理任務。
數據建模工程界面:友好且實用性極強的圖形用戶界面交互Free Coding模式
數據的工程化上傳、存儲、加載和管理
模型的工程化創建,調優,存儲,加載和管理
展示性的MaximAI模型倉庫
企業級管理任務:用戶進行自主管理和任務管理
企業級平臺系統管理:企業各部門、各員工的權限及角色管理,平臺樣式、日志及配置管理
企業級工程和任務管理:企業各角色的模型管理、任務管理和工程管理
數據的快速存儲和加載功能
MaximAI的數據存儲和加載功能模塊基于Hadoop/Spark集群,通過分布式文件系統HDFS的數據接口,提供數據整合和數據質量管理等技術,支持海量數據的快速存儲和加載。
海量數據的快速存儲 : 基于分布式文件系統HDFS的集群分布式數據存儲和列表顯示,支持Hadoop/Spark的訪問接口
海量數據的數據質量加速器 : 交互式數據質量管理操作,包括數據拆分和數據整合
海量數據的分布式加載、數據上傳和導入
數據預處理和統計分析
MaximAI平臺集合了眾多常用的數據處理和統計分析技術,通過交互式和可視化的工具,實現數據處理、變量分析、和數據可視化等,支持對數據快速分析和整體把握。
數據處理
缺失值補充
數據類型轉換
特征選擇
海量數據的統計分析
數據的變量分析:數據特性統計,密度估計
數據可視化
數據特征的密度分布
數據特征最大值、最小值、均值零值數量以及缺失情況等
全量數據的描述性建模
MaximAI平臺集合眾多主流的機器學習算法,結合Hadoop/Spark平臺的分布式能力,支持基于海量數據集的全量數據描述性建模,并且提供菜單式參數調優界面,實現了企業級AI模型生產和分析。
主流的機器學習算法的描述性建模
分類:深度學習、隨機森林、樸素貝葉斯模型、廣義線性模型、梯度提升模型、支持向量機
聚類:K-means
回歸:深度學習、隨機森林、廣義線性模型、梯度提升模型
降維:主成分分析,廣義低階模型
探索性數據建模策略
建模數據的交叉驗證 : N折交叉驗證
菜單式參數調優選擇 : 各模型各參數的提示性參數設置
描述性建模的模型評價
ROC曲線和AUC值
準確率、精準率、召回率、F1-measure
多種評判準則下的預測數結果矩陣
預測性建模及模型評判
MaximAI平臺基于海量數據的描述性探究建模結果,通過對模型和數據的再處理,得到數據的獨立化預測性模型,實現了對測試數據的一鍵式預測。
預測性建模自動化和獨立化
預測模型的訓練數據處理和模型建立的程式化創建和存儲
訓練數據所得的預測模型獨立分裝為分類器
模型結果的顯示化表達
測試數據和標簽的顯示化展示
測試數據的各項結果和測試標準的展示
自主編程及特定場景開發
MaximAI集成了多種編程環境,支持用戶的自主開發,以及特定場景的多環境編程,實現針對特定客戶的系列業務開發。
集成Scala/Python編程環境,用戶自主編程開發
特定場景開發:特定場景的模型開發和模型倉庫存儲
數據中臺的實現路徑
21世紀的成功企業都在處理大量的數據,但他們會經常面對未文檔化(沒有注釋)的數據源。事實上,有的數據庫都是很久以前創建的(通常是15 - 30年),從那時起,這些數據庫就一直在不斷增長。而描述他們的文檔和任何有關資料不是沒有完成就是多年來丟失了。也就是說企業的數據隨著企業的發展,并不是越來越齊整,而是變得越來越混亂。在此種情況下,天云的數據中臺正好是該企業用戶的一劑良藥。
但要實現前述數據中臺的各種功能,獲得數據中臺的智能化服務,也不是那個一蹴而就的。在實踐中,天云建議用戶采用三階段的方式,以分階段分步走的方式逐步達成最終的數據中臺的建設成果。如下就是我們天云的數據中臺最佳實踐三部曲:
第一階段:自動化的數據治理
面對紛繁復雜的數據系統,企業就需要花費更長的時間來理解數據庫的復雜性,或者通過人工的數據治理方式來梳理出業務和數據的關系,但這要花費大量的人力、物力和時間成本;而企業要為了實現利用所擁有的數據獲取智能化帶來的豐富價值,數據治理又是必須的。
所以,要實現智能化的數據服務,我們建設數據中臺項目的第一步要做的就是自動化的數據治理。通過自動的方式,而不是手工的方式,發現、標示和度量數據資產,可以有效地理解現有數據的模式,而且可以節省大量的人力、物力和時間成本。
為此,天云推出了一種輕型的自動化數據治理產品,可以在天云的復雜網絡大數據平臺Hilbert上利用人工智能技術自動地發現企業各業務系統數據的架構和數據主體,并直接發現跨數據庫的表和表、人財物各類數據間的關系,當用戶需要做跨數據庫的復雜查詢時,天云產品可以根據關系圖快速生成SQL語句,從而使得企業的技術人員快速從不同的數據庫中提取出所需要的數據。
也就是說天云采用一種高維化手段,通過升維數據維度,使得企業可以更好地了解數據的全貌。與二維表相比,無論怎么跳,都在二維索引里面。就算有數據字典,還是用表解釋其他的表,比較有效的就是從高維視角看數據。把復雜網絡引入進來,用復雜網絡的工具來表達復雜的數據結構,用復雜網絡的方法來自動獲取業務調用關系,我知道你這個部門和那個部門的關系,然后有哪些業務系統,那些業務系統下有哪些表,然后他們之間的業務邏輯是怎樣的。
天云ADG采用自動化的數字手段,采集屬性,表的主鍵、外鍵,SQL可以被解析,SQL解析和存儲過程可以自動化地定義到你的業務的連接,這些方法就可以快速構建高維的數據結構。
此外天云采用機器學習的方法自動發現數據關系,這對數據的文檔化、理解、管理和保護至關重要。更具體地說,ML可以幫助企業自動發現整個組織架構中的數據的位置、數據的移動和流向。這種增強的數據發現可以更有效地揭示復雜的數據關系、改進數據可視化和加速數據準備過程成為可能。
天云的ADG應用程序采用機器學習方法可以超越人類管理數據的能力,因為這些它能夠:
?? 檢測某些人類難以識別的特征類型
?? 快速分析大量數據,即使是TB級的數據
?? 識別模糊匹配模式,即識別在特定數據集中具有的可能的隸屬關系,而不是由清晰數據集關聯定義的絕對隸屬關系
?? 容易識別數據中的錯誤,從而避免錯誤結論
實際上,天云的ADG產品遠遠超出了簡單地理解數據目錄和業務術語表,它本質上使數據能夠通過識別自然產生于數據的分類來為自己說話。因此,這些解決方案將理解底層數據并實際定義所需的元數據類型,而不是試圖將數據分組到已建立的元數據分類中。
通過采用天云ADG產品實現的自動化數據治理只需要幾周的時間,比傳統按年計的人工數據治理在時間上大大縮短。以油田交換油環節的一個實際項目為例,要在一周內完成兩個業務系統8000多張表的數據導入和關系構建,傳統的業務咨詢,大概要30個人要干1年的時間,而天云用了自下而上的自動發現的方法和ADG產品,在2周內就完成了。
3.2.第二階段:數據的融合和流動
數據治理完成后,相當于與企業知道了要在哪里取數據,為前臺業務提供數據服務,但如果還是采用每做一次服務都做一次數據的ETL,顯然會大大影響工作進度,如果能夠不再移動數據,而是只需要讓各種各樣的新型業務圍繞著數據工作,就能夠更好地為用戶服務。也就是我們是移動代碼還是移動數據。
以某銀行的客戶積分為例,需要將客戶的積分分析進行統計計算,首先要花1個半小時把數據移動到數倉,再等待數倉計算一個半小時之后,再將結果返回應用系統提供聯機事務處理。這種時效性難以滿足即時反饋的客戶需求。
伴隨著用戶對數倉消費化的需求,數據的鮮活性與復雜性出現日益交錯的矛盾,因此在技術上一款能夠同時支持OLTP(在線事務處理)與OLAP(在線分析處理)的數據庫應運而生,這即是Gartner提出的HTAP數據庫,涵蓋大部分行業應用的需求,一站解決數據鮮活性與復雜性的交錯矛盾。而天云的HTAP分布式系統融合了TP聯機事務和AP的分析引擎,使得效率更優,架構更優;融合之后完成和聯機、分析、建模一體功能。保持了數據鮮活性需求。
再以某商業銀行實時流水交易業務可視化展示項目為例,在該項目中使用了Kafka 和Spark Streaming流式處理框架,在該框架中成功地引入了天云大數據HTAP Hubble 數據庫, 在大數據環境下通過和Kafka,SPARK Streaming 等組件的深度融合,成功地實現了對互聯網用戶交易報文數據的實時采集,經過一系列的處理之后,最終有HTAP 數據庫提供數據可視化展示的支持, 達到了預期功能目標。
通過使用HTAP數據庫,首先,數據不必從運營數據庫轉移到數據倉庫。其次,交易數據在創建時可用于分析。第三,從分析聚合中挖掘總是指向新的HTAP應用程序數據。最后,您可以消除或至少減少對相同數據的多個副本的需求。從而達到了數據的融合和流動。
3.3.第三階段:提供人工智能化服務
在解決了從哪里取數據,如何更好地讀取數據的情況下,下一步就是如何能更好地利用好這些數據。答案就是將人工智能引入到數據分析中,就是用AI替代BI。
2017年,亞馬遜 CEO Jeff Bezos在致股東的公開信中,指出“人工智能已經進入到一個能夠準確概括復雜商業實踐和流程的階段。”。機器的角色從自動化執行人類意識、人類的指令,已經進化到可以面向不確定性的過程,通過給定輸入和輸出,通過訓練和學習,幫助人類編出用于預測的程序——數學模型。
在AI中,包括聰明的AI和有學識的AI兩種。聰明的AI是具備計算推理能力的機器學習,是無記憶載體的;有學識的AI就是具備表示學習能力的圖計算/知識圖譜和復雜網絡,是有記憶載體的。
天云從2014年開始投入人力研發AI產品工具,打造了特征工程,模型孵化平臺和模型運行平臺三款產品,實現模型自動化流程線。即Kaleido——MaximAI——Gare。這些就是機器學習的平臺。
天云還從2016年開始投入研發了復雜網絡Hilbert產品。該產品是基于主流的Hadoop大數據技術,并結合網絡科學技術應用的需求,自主研發了的一套完整支持海量“網絡拓撲結構數據“存儲和管理的集群平臺系統,底層采用分布式存儲和處理技術,可以根據增加的數據集大小和用戶訪問量彈性擴展,支持圖數據的在線和離線分析和查詢。
這些AI技術融合入數據中臺,就可以讓用戶獲得智能化服務的能力。非人工智能專業的行業專家,可以熟練使用天云開發的系列人工智能工具,不需要編寫一行代碼,就可以以托拉拽的方式,構建自己的業務模型,開發基于真實數據的AI業務應用。