《數(shù)據(jù)中臺(tái)解決方案0929》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)中臺(tái)解決方案0929(10頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、數(shù)據(jù)中臺(tái)介紹數(shù)據(jù)中臺(tái)的概念由阿里巴巴首次提出,它是一個(gè)承接技術(shù),引領(lǐng)業(yè)務(wù),構(gòu)建規(guī)范定義的、全域可連接萃取的、智慧的數(shù)據(jù)處理平臺(tái),建設(shè)目標(biāo)是為了高效滿足前臺(tái)數(shù)據(jù)分析和應(yīng)用的需求。數(shù)據(jù)中臺(tái)是涵蓋了數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理、數(shù)據(jù)模型、垂直數(shù)據(jù)中心、全域數(shù)據(jù)中心、萃取數(shù)據(jù)中心、數(shù)據(jù)服務(wù)等多個(gè)層次的體系化建設(shè)方法。數(shù)據(jù)中臺(tái)概念數(shù)據(jù)服務(wù)化數(shù)據(jù)中臺(tái)是培育業(yè)務(wù)創(chuàng)新的土壤,是利用數(shù)據(jù)促進(jìn)業(yè)務(wù)創(chuàng)新的保障數(shù)據(jù)標(biāo)準(zhǔn)化“書同文,車同軌”,避免了“重復(fù)數(shù)據(jù)抽取和維護(hù)帶來的成本浪費(fèi)”數(shù)據(jù)智能化通過大量智慧算法訓(xùn)練數(shù)據(jù)細(xì)胞,形成數(shù)據(jù)大腦,產(chǎn)生智慧的力量,預(yù)先洞察未來數(shù)據(jù)資產(chǎn)化數(shù)據(jù)不斷的在補(bǔ)充,數(shù)據(jù)模型不斷的進(jìn)化,只有在滋養(yǎng)中才能從
2、最初的字段單一到逐漸成長(zhǎng)為企業(yè)最為寶貴的模型資產(chǎn)數(shù)據(jù)中臺(tái)的內(nèi)核包括兩方面:一個(gè)是應(yīng)用數(shù)據(jù)的技術(shù)能力,另一個(gè)是數(shù)據(jù)資產(chǎn)的管理。數(shù)據(jù)中臺(tái)概念全流程一體化從數(shù)據(jù)采集到數(shù)據(jù)服務(wù)全鏈路通向上多樣化賦能場(chǎng)景通用產(chǎn)品+行業(yè)產(chǎn)品+專享產(chǎn)品向下屏蔽多計(jì)算引擎公共云+專有云+混合云雙向聯(lián)動(dòng)業(yè)務(wù)與產(chǎn)品&技術(shù)協(xié)同互助One DataOneIDOneService數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)規(guī)范定義從業(yè)務(wù)源頭標(biāo)準(zhǔn)化技術(shù)內(nèi)核工具化規(guī)范定義、建模研發(fā)、調(diào)度運(yùn)維、元數(shù)據(jù)驅(qū)動(dòng)智能化半自動(dòng)化智能化規(guī)劃計(jì)算和存儲(chǔ)技術(shù)驅(qū)動(dòng)數(shù)據(jù)連接基于超強(qiáng)ID識(shí)別技術(shù)連接數(shù)據(jù)技術(shù)內(nèi)核工具化超強(qiáng)ID識(shí)別、高效標(biāo)簽生產(chǎn)、業(yè)務(wù)驅(qū)動(dòng)價(jià)值化孤島高質(zhì)量高價(jià)值主題式數(shù)據(jù)服務(wù)主題
3、邏輯表屏蔽復(fù)雜物理表統(tǒng)一但多樣化數(shù)據(jù)服務(wù)一般查詢+OLAP分析+在線服務(wù)跨源數(shù)據(jù)服務(wù)屏蔽多種異構(gòu)數(shù)據(jù)源數(shù)據(jù)中臺(tái)建設(shè)方法高內(nèi)聚和低耦合主要從數(shù)據(jù)業(yè)務(wù)特性和訪問特性兩個(gè)角度來考慮:將業(yè)務(wù)相近或者相關(guān)的數(shù)據(jù)、粒度相同數(shù)據(jù)設(shè)計(jì)為一個(gè)邏輯或者物理模型;將高概率同時(shí)訪問的數(shù)據(jù)放一起,將低概率同時(shí)訪問的數(shù)據(jù)分開存儲(chǔ)。數(shù)據(jù)可回滾處理邏輯不變,在不同時(shí)間多次運(yùn)行數(shù)據(jù)結(jié)果確定不變。核心模型與擴(kuò)展模型分離建立核心模型與擴(kuò)展模型體系,核心模型包括的字段支持常用核心的業(yè)務(wù),擴(kuò)展模型包括的字段支持個(gè)性化或是少量的應(yīng)用的需要,不能讓擴(kuò)展字段過度侵入核心模型,破壞了核心模型的架構(gòu)簡(jiǎn)潔性與可維護(hù)性。公共處理邏輯下沉及單一越是底
4、層公用的處理邏輯更應(yīng)該在數(shù)據(jù)調(diào)度依賴的底層進(jìn)行封裝與實(shí)現(xiàn),不要讓公共的處理邏輯暴露給應(yīng)用層實(shí)現(xiàn),不要讓公共邏輯在多處同時(shí)存在。成本與性能平衡適當(dāng)?shù)臄?shù)據(jù)冗余換取查詢和刷新性能,不宜過度冗余與數(shù)據(jù)復(fù)制。開發(fā)過程規(guī)則表命名需清晰、一致,表名需易于消費(fèi)者理解和使用,相同的字段含義在不同表中字段命名必須相同,必須使用規(guī)范定義表中的名稱。數(shù)據(jù)中臺(tái)設(shè)計(jì)原則規(guī)范定義是指以維度建模作為理論基礎(chǔ),構(gòu)建總線矩陣,劃分和定義數(shù)據(jù)域、業(yè)務(wù)過程、維度、度量/原子指標(biāo)、修飾類型、修飾詞、時(shí)間周期、衍生指標(biāo)等。一般指標(biāo)組成體系可以劃分為:原子指標(biāo)、衍生指標(biāo)、修飾類型、修飾詞、時(shí)間周期。原子指標(biāo)時(shí)間周期修飾詞衍生指標(biāo)修飾類型數(shù)
5、據(jù)規(guī)范定義設(shè)計(jì)數(shù)據(jù)地圖管理,是對(duì)整個(gè)數(shù)據(jù)中臺(tái)內(nèi)的數(shù)據(jù)進(jìn)行統(tǒng)一查詢、管理的“地圖”,數(shù)據(jù)地圖主要面向數(shù)據(jù)開發(fā)者,匯聚用戶所有數(shù)據(jù)信息,通過元數(shù)據(jù)信息收集、數(shù)據(jù)血緣探查、數(shù)據(jù)權(quán)限申請(qǐng)授權(quán)等手段,幫助數(shù)據(jù)中心專有云完成數(shù)據(jù)信息的收集和管理,解決有哪些數(shù)據(jù)可用、到哪里可以找到數(shù)據(jù)的難題,并且提升數(shù)據(jù)資源的利用率。基本管理自動(dòng)探查平臺(tái)內(nèi)存在的表信息,記錄表名、字段、分區(qū)、存儲(chǔ)等信息,同時(shí)支持?jǐn)?shù)據(jù)預(yù)覽。血緣關(guān)系管理根據(jù)任務(wù)、腳本等因素自動(dòng)建立血緣關(guān)系,實(shí)現(xiàn)數(shù)據(jù)鏈路的可查詢、可跟蹤。生命周期管理覆蓋全部數(shù)據(jù)的自動(dòng)化生命周期管理,提高存儲(chǔ)系統(tǒng)利用效率。權(quán)限管理表級(jí)、字段級(jí)的權(quán)限授權(quán)、審批等流程,從更高層面保障
6、數(shù)據(jù)安全。支持多級(jí)表類目管理,實(shí)現(xiàn)最快時(shí)間找到最需要的數(shù)據(jù)。類目體系管理對(duì)同步任務(wù)產(chǎn)生的臟數(shù)據(jù)統(tǒng)一查看與管理。臟數(shù)據(jù)管理對(duì)新建、刪除、變更表結(jié)構(gòu)等操作自動(dòng)記錄,實(shí)現(xiàn)數(shù)據(jù)操作蹤跡可查詢。操作記錄管理數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)模型管理,主要是為解決架構(gòu)設(shè)計(jì)和數(shù)據(jù)開發(fā)的不一致性,是為了約束平臺(tái)使用者的表名、字段名的規(guī)范性,架構(gòu)師從工具層合理的進(jìn)行模型分層和統(tǒng)一開發(fā)規(guī)范,包括2部分,一個(gè)是規(guī)則配置,另一個(gè)是對(duì)表名、字段名的定期校驗(yàn)。規(guī)范化檢測(cè)中心模型設(shè)計(jì)基礎(chǔ)配置表級(jí)l 模型層級(jí)(ODS/DWD/DWS)l 主題域(銷售、庫(kù)存、用戶)l 刷新頻率(天、周、日)l 增量定義(全量、增量)l 模型生成規(guī)則字段級(jí)l 原
7、子指標(biāo)l 衍生指標(biāo)l 規(guī)則生成層級(jí)主題域刷新頻率自定義+示例:ODS_sales_D_customAnalyl 模型檢測(cè)l 模型不規(guī)范原因分析l 字段檢測(cè)l 字段不規(guī)范原因分析數(shù)據(jù)資產(chǎn)管理在實(shí)際生產(chǎn)中,數(shù)據(jù)計(jì)算任務(wù)沒有告警,但不代表數(shù)據(jù)就是正確的,比如源數(shù)據(jù)異常、代碼邏輯修改等原因都會(huì)造成結(jié)果數(shù)據(jù)錯(cuò)誤。數(shù)據(jù)質(zhì)量就是保障數(shù)據(jù)正確性的工具,主要包括這么幾部分:一是支持準(zhǔn)確性校驗(yàn)規(guī)則,二是支持雙表校驗(yàn),三是輸出校驗(yàn)報(bào)告。支持的數(shù)據(jù)源l 目前已支持6種數(shù)據(jù)源,符合絕大多數(shù)場(chǎng)景下的質(zhì)量校驗(yàn)校驗(yàn)規(guī)則l 基于數(shù)據(jù)生產(chǎn)的實(shí)戰(zhàn)經(jīng)驗(yàn),內(nèi)置20余種校驗(yàn)規(guī)則l 支持表級(jí)、字段級(jí)2類規(guī)則質(zhì)量報(bào)告l 支持字段級(jí)、表級(jí)校驗(yàn)
8、報(bào)告,具備歷史數(shù)據(jù)統(tǒng)計(jì)功能,輔助定位數(shù)據(jù)質(zhì)量的問題根源數(shù)據(jù)資產(chǎn)管理以云計(jì)算,大數(shù)據(jù),人工智能技術(shù)為基礎(chǔ)平臺(tái),搭建全域、實(shí)時(shí)、智能的數(shù)據(jù)中臺(tái)。網(wǎng)站統(tǒng)計(jì)移動(dòng)統(tǒng)計(jì)客流統(tǒng)計(jì)DMP價(jià)格監(jiān)測(cè)品牌衛(wèi)士經(jīng)營(yíng)分析管理決策市場(chǎng)洞察廣告營(yíng)銷反黃牛接待大屏媒體大屏接待大屏行業(yè)定制數(shù)據(jù)應(yīng)用數(shù)據(jù)中臺(tái)數(shù)據(jù)資產(chǎn)數(shù)據(jù)研發(fā)數(shù)據(jù)地圖數(shù)據(jù)血緣資產(chǎn)分析資產(chǎn)管理資產(chǎn)運(yùn)營(yíng)數(shù)倉(cāng)規(guī)劃指標(biāo)規(guī)范模型構(gòu)建數(shù)據(jù)同步數(shù)據(jù)開發(fā)日志分析用戶畫像推薦引擎營(yíng)銷引擎智能風(fēng)控輿情分析分析報(bào)表數(shù)據(jù)大屏機(jī)器學(xué)習(xí)人臉識(shí)別圖像識(shí)別全域數(shù)據(jù)中心萃取數(shù)據(jù)中心統(tǒng)一ID數(shù)據(jù)類目體系數(shù)據(jù)標(biāo)簽體系數(shù)據(jù)集成數(shù)據(jù)智能中臺(tái)實(shí)時(shí)計(jì)算離線計(jì)算機(jī)器學(xué)習(xí)數(shù)據(jù)管理任務(wù)調(diào)度任務(wù)運(yùn)維外部數(shù)據(jù)數(shù)據(jù)源爬蟲數(shù)據(jù)埋點(diǎn)數(shù)據(jù)日志文件業(yè)務(wù)數(shù)據(jù)庫(kù)ERMCRM數(shù)據(jù)中臺(tái)架構(gòu)謝謝大家!