Kaleido是一款基于分布式存儲架構和分布式計算框架的特征工程平臺,所謂特征工程,是指利用數據領域的相關知識來創建能夠使機器學習算法達到最佳性能的輸入特征的過程;所謂特征,對于實體,特征是某些突出性質的表現;對于識別一個實體的過程而言,特征是區分該實體的關鍵。所以,當要對實體進行分類或者識別時,實際上就是提取‘特征’,通過特征的表現進行判斷。Kaleido支持從HDFS或關系數據庫等多種來源、以多種格式導入源數據集,支持對億萬級數據進行特征衍生、特征抽取、特征縮放和特征選擇等特征工程操作。此外,Kaleido還支持缺失值處理和數據過濾等預處理功能,實現了一站式生產滿足機器學習建模要求的數據,可向MaximAI等機器學習建模平臺供給高質量的特征。
Kaleido為用戶提供了可視化交互式操作界面,通過對圖形化算子的拖拽和編輯(參數配置)實現數據預處理和特征工程功能,支持:

除上述預置的特征工程算子,Kaleido還支持用戶使用SQL或Python編輯自定義功能的算子,實現復雜的自定義特征工程算子,或者將預置算子串聯為一個處理流程,便于擴展和復用。
Kaleido還提供完善的數據權限管理功能,便于實現企業內各團隊之間實現數據隔離與共享。該平臺的豐富功能可全方位滿足各種機器學習建模算法產生的特征工程需求,加速企業AI落地過程。
產品價值/PRODUCT VALUE

機器學習建模流程可劃分為兩個階段:數據預處理/特征工程,建模/模型評估。其中前一個階段占據全部工作量的70%左右,利用Kaleido平臺可快速完成這70%的工作,并從數據質量和特征工程的角度提升模型效果。例如對二分類任務,可通過特征工程提升模型效果超過十個百分點。