《數(shù)據(jù)中臺解決方案0929》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)中臺解決方案0929(10頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、數(shù)據(jù)中臺介紹數(shù)據(jù)中臺的概念由阿里巴巴首次提出,它是一個承接技術(shù),引領(lǐng)業(yè)務(wù),構(gòu)建規(guī)范定義的、全域可連接萃取的、智慧的數(shù)據(jù)處理平臺,建設(shè)目標是為了高效滿足前臺數(shù)據(jù)分析和應(yīng)用的需求。數(shù)據(jù)中臺是涵蓋了數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)模型、垂直數(shù)據(jù)中心、全域數(shù)據(jù)中心、萃取數(shù)據(jù)中心、數(shù)據(jù)服務(wù)等多個層次的體系化建設(shè)方法。數(shù)據(jù)中臺概念數(shù)據(jù)服務(wù)化數(shù)據(jù)中臺是培育業(yè)務(wù)創(chuàng)新的土壤,是利用數(shù)據(jù)促進業(yè)務(wù)創(chuàng)新的保障數(shù)據(jù)標準化“書同文,車同軌”,避免了“重復數(shù)據(jù)抽取和維護帶來的成本浪費”數(shù)據(jù)智能化通過大量智慧算法訓練數(shù)據(jù)細胞,形成數(shù)據(jù)大腦,產(chǎn)生智慧的力量,預先洞察未來數(shù)據(jù)資產(chǎn)化數(shù)據(jù)不斷的在補充,數(shù)據(jù)模型不斷的進化,只有在滋養(yǎng)中才能從
2、最初的字段單一到逐漸成長為企業(yè)最為寶貴的模型資產(chǎn)數(shù)據(jù)中臺的內(nèi)核包括兩方面:一個是應(yīng)用數(shù)據(jù)的技術(shù)能力,另一個是數(shù)據(jù)資產(chǎn)的管理。數(shù)據(jù)中臺概念全流程一體化從數(shù)據(jù)采集到數(shù)據(jù)服務(wù)全鏈路通向上多樣化賦能場景通用產(chǎn)品+行業(yè)產(chǎn)品+專享產(chǎn)品向下屏蔽多計算引擎公共云+專有云+混合云雙向聯(lián)動業(yè)務(wù)與產(chǎn)品&技術(shù)協(xié)同互助One DataOneIDOneService數(shù)據(jù)標準化數(shù)據(jù)規(guī)范定義從業(yè)務(wù)源頭標準化技術(shù)內(nèi)核工具化規(guī)范定義、建模研發(fā)、調(diào)度運維、元數(shù)據(jù)驅(qū)動智能化半自動化智能化規(guī)劃計算和存儲技術(shù)驅(qū)動數(shù)據(jù)連接基于超強ID識別技術(shù)連接數(shù)據(jù)技術(shù)內(nèi)核工具化超強ID識別、高效標簽生產(chǎn)、業(yè)務(wù)驅(qū)動價值化孤島高質(zhì)量高價值主題式數(shù)據(jù)服務(wù)主題
3、邏輯表屏蔽復雜物理表統(tǒng)一但多樣化數(shù)據(jù)服務(wù)一般查詢+OLAP分析+在線服務(wù)跨源數(shù)據(jù)服務(wù)屏蔽多種異構(gòu)數(shù)據(jù)源數(shù)據(jù)中臺建設(shè)方法高內(nèi)聚和低耦合主要從數(shù)據(jù)業(yè)務(wù)特性和訪問特性兩個角度來考慮:將業(yè)務(wù)相近或者相關(guān)的數(shù)據(jù)、粒度相同數(shù)據(jù)設(shè)計為一個邏輯或者物理模型;將高概率同時訪問的數(shù)據(jù)放一起,將低概率同時訪問的數(shù)據(jù)分開存儲。數(shù)據(jù)可回滾處理邏輯不變,在不同時間多次運行數(shù)據(jù)結(jié)果確定不變。核心模型與擴展模型分離建立核心模型與擴展模型體系,核心模型包括的字段支持常用核心的業(yè)務(wù),擴展模型包括的字段支持個性化或是少量的應(yīng)用的需要,不能讓擴展字段過度侵入核心模型,破壞了核心模型的架構(gòu)簡潔性與可維護性。公共處理邏輯下沉及單一越是底
4、層公用的處理邏輯更應(yīng)該在數(shù)據(jù)調(diào)度依賴的底層進行封裝與實現(xiàn),不要讓公共的處理邏輯暴露給應(yīng)用層實現(xiàn),不要讓公共邏輯在多處同時存在。成本與性能平衡適當?shù)臄?shù)據(jù)冗余換取查詢和刷新性能,不宜過度冗余與數(shù)據(jù)復制。開發(fā)過程規(guī)則表命名需清晰、一致,表名需易于消費者理解和使用,相同的字段含義在不同表中字段命名必須相同,必須使用規(guī)范定義表中的名稱。數(shù)據(jù)中臺設(shè)計原則規(guī)范定義是指以維度建模作為理論基礎(chǔ),構(gòu)建總線矩陣,劃分和定義數(shù)據(jù)域、業(yè)務(wù)過程、維度、度量/原子指標、修飾類型、修飾詞、時間周期、衍生指標等。一般指標組成體系可以劃分為:原子指標、衍生指標、修飾類型、修飾詞、時間周期。原子指標時間周期修飾詞衍生指標修飾類型數(shù)
5、據(jù)規(guī)范定義設(shè)計數(shù)據(jù)地圖管理,是對整個數(shù)據(jù)中臺內(nèi)的數(shù)據(jù)進行統(tǒng)一查詢、管理的“地圖”,數(shù)據(jù)地圖主要面向數(shù)據(jù)開發(fā)者,匯聚用戶所有數(shù)據(jù)信息,通過元數(shù)據(jù)信息收集、數(shù)據(jù)血緣探查、數(shù)據(jù)權(quán)限申請授權(quán)等手段,幫助數(shù)據(jù)中心專有云完成數(shù)據(jù)信息的收集和管理,解決有哪些數(shù)據(jù)可用、到哪里可以找到數(shù)據(jù)的難題,并且提升數(shù)據(jù)資源的利用率。基本管理自動探查平臺內(nèi)存在的表信息,記錄表名、字段、分區(qū)、存儲等信息,同時支持數(shù)據(jù)預覽。血緣關(guān)系管理根據(jù)任務(wù)、腳本等因素自動建立血緣關(guān)系,實現(xiàn)數(shù)據(jù)鏈路的可查詢、可跟蹤。生命周期管理覆蓋全部數(shù)據(jù)的自動化生命周期管理,提高存儲系統(tǒng)利用效率。權(quán)限管理表級、字段級的權(quán)限授權(quán)、審批等流程,從更高層面保障
6、數(shù)據(jù)安全。支持多級表類目管理,實現(xiàn)最快時間找到最需要的數(shù)據(jù)。類目體系管理對同步任務(wù)產(chǎn)生的臟數(shù)據(jù)統(tǒng)一查看與管理。臟數(shù)據(jù)管理對新建、刪除、變更表結(jié)構(gòu)等操作自動記錄,實現(xiàn)數(shù)據(jù)操作蹤跡可查詢。操作記錄管理數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)模型管理,主要是為解決架構(gòu)設(shè)計和數(shù)據(jù)開發(fā)的不一致性,是為了約束平臺使用者的表名、字段名的規(guī)范性,架構(gòu)師從工具層合理的進行模型分層和統(tǒng)一開發(fā)規(guī)范,包括2部分,一個是規(guī)則配置,另一個是對表名、字段名的定期校驗。規(guī)范化檢測中心模型設(shè)計基礎(chǔ)配置表級l 模型層級(ODS/DWD/DWS)l 主題域(銷售、庫存、用戶)l 刷新頻率(天、周、日)l 增量定義(全量、增量)l 模型生成規(guī)則字段級l 原
7、子指標l 衍生指標l 規(guī)則生成層級主題域刷新頻率自定義+示例:ODS_sales_D_customAnalyl 模型檢測l 模型不規(guī)范原因分析l 字段檢測l 字段不規(guī)范原因分析數(shù)據(jù)資產(chǎn)管理在實際生產(chǎn)中,數(shù)據(jù)計算任務(wù)沒有告警,但不代表數(shù)據(jù)就是正確的,比如源數(shù)據(jù)異常、代碼邏輯修改等原因都會造成結(jié)果數(shù)據(jù)錯誤。數(shù)據(jù)質(zhì)量就是保障數(shù)據(jù)正確性的工具,主要包括這么幾部分:一是支持準確性校驗規(guī)則,二是支持雙表校驗,三是輸出校驗報告。支持的數(shù)據(jù)源l 目前已支持6種數(shù)據(jù)源,符合絕大多數(shù)場景下的質(zhì)量校驗校驗規(guī)則l 基于數(shù)據(jù)生產(chǎn)的實戰(zhàn)經(jīng)驗,內(nèi)置20余種校驗規(guī)則l 支持表級、字段級2類規(guī)則質(zhì)量報告l 支持字段級、表級校驗
8、報告,具備歷史數(shù)據(jù)統(tǒng)計功能,輔助定位數(shù)據(jù)質(zhì)量的問題根源數(shù)據(jù)資產(chǎn)管理以云計算,大數(shù)據(jù),人工智能技術(shù)為基礎(chǔ)平臺,搭建全域、實時、智能的數(shù)據(jù)中臺。網(wǎng)站統(tǒng)計移動統(tǒng)計客流統(tǒng)計DMP價格監(jiān)測品牌衛(wèi)士經(jīng)營分析管理決策市場洞察廣告營銷反黃牛接待大屏媒體大屏接待大屏行業(yè)定制數(shù)據(jù)應(yīng)用數(shù)據(jù)中臺數(shù)據(jù)資產(chǎn)數(shù)據(jù)研發(fā)數(shù)據(jù)地圖數(shù)據(jù)血緣資產(chǎn)分析資產(chǎn)管理資產(chǎn)運營數(shù)倉規(guī)劃指標規(guī)范模型構(gòu)建數(shù)據(jù)同步數(shù)據(jù)開發(fā)日志分析用戶畫像推薦引擎營銷引擎智能風控輿情分析分析報表數(shù)據(jù)大屏機器學習人臉識別圖像識別全域數(shù)據(jù)中心萃取數(shù)據(jù)中心統(tǒng)一ID數(shù)據(jù)類目體系數(shù)據(jù)標簽體系數(shù)據(jù)集成數(shù)據(jù)智能中臺實時計算離線計算機器學習數(shù)據(jù)管理任務(wù)調(diào)度任務(wù)運維外部數(shù)據(jù)數(shù)據(jù)源爬蟲數(shù)據(jù)埋點數(shù)據(jù)日志文件業(yè)務(wù)數(shù)據(jù)庫ERMCRM數(shù)據(jù)中臺架構(gòu)謝謝大家!