產(chǎn)品概述
在實際的應用中,需要采集的數(shù)據(jù)來源于其它系統(tǒng)(已經(jīng)處理或加工過的)并存儲在多個關(guān)系型數(shù)據(jù)庫中。(例如:石油石化行業(yè)中,新原油價格及各種重要化工產(chǎn)品價格,原油、石腦油等源材料的進廠量累計,公司本年度的經(jīng)營目標等,該部分數(shù)據(jù)分別來源于MES的生產(chǎn)數(shù)據(jù)庫和計劃系統(tǒng)的計劃數(shù)據(jù)庫);诖祟惽闆r,我們專門開發(fā)了一個數(shù)據(jù)抽取模塊。數(shù)據(jù)抽取模塊,將多個關(guān)系型數(shù)據(jù)庫中的生產(chǎn)數(shù)據(jù)按預先配置的抽取策略實時抽取到紫金橋歷史數(shù)據(jù)庫。
抽取模塊組成:
數(shù)據(jù)抽取模塊由抽取配置和抽取執(zhí)行程序兩部分組成。
第一部分數(shù)據(jù)抽取配置程序。
第二部分數(shù)據(jù)抽取運行程序。
功能概述:
1、可以與多種關(guān)系型數(shù)據(jù)庫進行鏈接。
2、集中抽取,可以把多個關(guān)系庫數(shù)據(jù)抽取到同一個實時數(shù)據(jù)庫中。
3、對列的類型進行轉(zhuǎn)換。
在將源端的表中內(nèi)容復制到目標端時,可以通過配置條件將指定列(字段)映射到目標端的點參數(shù)上。
在將源端的表中內(nèi)容復制到目標端時,通過配置條件可以增加一個數(shù)據(jù)列(字段),其值可以是固定值,也可以是表達式,然后映射到目標端的點參數(shù)上。
在將源端的表中內(nèi)容復制到目標端時,通過配置條件可以在執(zhí)行的結(jié)果集中刪除某列(原始表中的列不會被刪除),然后映射到目標端的點參數(shù)上。
在將源端的表中內(nèi)容復制到目標端時,通過配置條件可以將源表中的某個列的類型、長度等等進行轉(zhuǎn)換。如將Varchar2類型轉(zhuǎn)換成Int類型等等。
在將源端的表中內(nèi)容復制到目標端時,根據(jù)配置條件將源表的某個列的數(shù)據(jù)進行轉(zhuǎn)換。例如將“男”、“女”轉(zhuǎn)換成“0”、“1”。這種轉(zhuǎn)換不涉及第三張表,也就是說這種轉(zhuǎn)換是固定的。
4、自由指定“抽取頻率”和“基準時間”。
5、支持調(diào)用關(guān)系庫的存儲過程(必須有返回集)。
6、提供清除噪聲數(shù)據(jù)的功能。
產(chǎn)品架構(gòu)
數(shù)據(jù)抽取配置的實現(xiàn)方式采用4層架構(gòu):用戶界面層、業(yè)務處理層、傳輸層和數(shù)據(jù)處理層。

用戶界面層
用戶界面層為用戶提供簡潔友好的操作界面。通過用戶界面層可以方便的實現(xiàn)數(shù)據(jù)查看、編輯和維護等操作。用戶界面層將各項操作指令發(fā)送給業(yè)務處理層,在收到業(yè)務處理的響應后顯示在界面中。
業(yè)務處理層
業(yè)務處理層負責接收和處理用戶界面層的各項操作指令,并將指令的執(zhí)行結(jié)果發(fā)送回用戶界面層。
業(yè)務處理層接收到用戶界面層的指令后,首先對指令進行解析,部分指令直接在業(yè)務處理層完成邏輯處理;部分操作需要將解析后的指令通過傳輸層發(fā)送給數(shù)據(jù)處理層,在收到執(zhí)行結(jié)果后發(fā)送給用戶界面層。業(yè)務處理層同時管理組織機構(gòu)的各種內(nèi)容。
傳輸層
傳輸層負責將業(yè)務處理層解析后的指令發(fā)送給數(shù)據(jù)處理層,并將數(shù)據(jù)處理層的信息返回給業(yè)務處理層。
傳輸層通過連接管理模塊與指定數(shù)據(jù)源進行通訊,通過用戶驗證模塊驗證指定數(shù)據(jù)源用戶信息的合法性。在通訊過程中,傳輸層通過消息隊列模塊和數(shù)據(jù)緩存模塊提高通訊效率和增強系統(tǒng)穩(wěn)定性。
數(shù)據(jù)處理層
數(shù)據(jù)處理層負責最終執(zhí)行操作指令。在接收到操作指令后,數(shù)據(jù)處理層與實時數(shù)據(jù)庫或配置文件交互,最終將指令執(zhí)行結(jié)果通過傳輸層返回給業(yè)務處理層。
“ETL數(shù)據(jù)抽取”程序,抽取過程示意圖
產(chǎn)品特點
數(shù)據(jù)抽取的特點可以概括為:分布部署、快速實施、維護便捷。
分布式配置:隨著分布式技術(shù)和負載均衡技術(shù)的廣泛應用,越來越多的情況需要遠程配置抽取信息。為了適應這種變化,數(shù)據(jù)抽取從設計之初即采用分布式架構(gòu)。通過選擇數(shù)據(jù)源的方式,可以在本地數(shù)據(jù)庫系統(tǒng)完成對指定數(shù)據(jù)源中抽取信息的配置。
集中抽。褐С钟啥鄠不同種類或相同種類的關(guān)系型數(shù)據(jù)庫數(shù)據(jù)向同一個實時數(shù)據(jù)庫抽取。
清除噪聲數(shù)據(jù):數(shù)據(jù)倉庫系統(tǒng)中有可能存在著大量的噪聲數(shù)據(jù),引起的主要原因有:濫用縮寫詞、慣用語、數(shù)據(jù)輸入錯誤、重復記錄、丟失值等。即便是一個設計和規(guī)劃良好的數(shù)據(jù)庫系統(tǒng),如果其中存在著大量的噪聲數(shù)據(jù),那么這個系統(tǒng)也是沒有任何意義的,因為“垃圾進,垃圾出”(garbage in, garbage out),系統(tǒng)根本就不可能為決策分析系統(tǒng)提供任何支持。為了清除噪聲數(shù)據(jù),必須在數(shù)據(jù)庫系統(tǒng)中進行數(shù)據(jù)清洗。數(shù)據(jù)抽取可以通過“匹配項”來完成數(shù)據(jù)的映射,從而達到清除噪聲數(shù)據(jù)的目的。
靈活的組織管理:數(shù)據(jù)抽取可以按照需要任意組織層級關(guān)系。如果發(fā)現(xiàn)層級關(guān)系建立錯誤,或?qū)嶋H層級關(guān)系發(fā)生改變時,現(xiàn)有的層級并不需要刪除,而是通過簡單的剪切與粘貼即可完成。
更多資訊,請登錄:www.realsoft.cc
|