產(chǎn)品概述
在實(shí)際的應(yīng)用中,需要采集的數(shù)據(jù)來(lái)源于其它系統(tǒng)(已經(jīng)處理或加工過(guò)的)并存儲(chǔ)在多個(gè)關(guān)系型數(shù)據(jù)庫(kù)中。(例如:石油石化行業(yè)中,新原油價(jià)格及各種重要化工產(chǎn)品價(jià)格,原油、石腦油等源材料的進(jìn)廠量累計(jì),公司本年度的經(jīng)營(yíng)目標(biāo)等,該部分?jǐn)?shù)據(jù)分別來(lái)源于MES的生產(chǎn)數(shù)據(jù)庫(kù)和計(jì)劃系統(tǒng)的計(jì)劃數(shù)據(jù)庫(kù));诖祟惽闆r,我們專門開發(fā)了一個(gè)數(shù)據(jù)抽取模塊。數(shù)據(jù)抽取模塊,將多個(gè)關(guān)系型數(shù)據(jù)庫(kù)中的生產(chǎn)數(shù)據(jù)按預(yù)先配置的抽取策略實(shí)時(shí)抽取到紫金橋歷史數(shù)據(jù)庫(kù)。
抽取模塊組成:
數(shù)據(jù)抽取模塊由抽取配置和抽取執(zhí)行程序兩部分組成。
第一部分?jǐn)?shù)據(jù)抽取配置程序。
第二部分?jǐn)?shù)據(jù)抽取運(yùn)行程序。
功能概述:
1、可以與多種關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行鏈接。
2、集中抽取,可以把多個(gè)關(guān)系庫(kù)數(shù)據(jù)抽取到同一個(gè)實(shí)時(shí)數(shù)據(jù)庫(kù)中。
3、對(duì)列的類型進(jìn)行轉(zhuǎn)換。
在將源端的表中內(nèi)容復(fù)制到目標(biāo)端時(shí),可以通過(guò)配置條件將指定列(字段)映射到目標(biāo)端的點(diǎn)參數(shù)上。
在將源端的表中內(nèi)容復(fù)制到目標(biāo)端時(shí),通過(guò)配置條件可以增加一個(gè)數(shù)據(jù)列(字段),其值可以是固定值,也可以是表達(dá)式,然后映射到目標(biāo)端的點(diǎn)參數(shù)上。
在將源端的表中內(nèi)容復(fù)制到目標(biāo)端時(shí),通過(guò)配置條件可以在執(zhí)行的結(jié)果集中刪除某列(原始表中的列不會(huì)被刪除),然后映射到目標(biāo)端的點(diǎn)參數(shù)上。
在將源端的表中內(nèi)容復(fù)制到目標(biāo)端時(shí),通過(guò)配置條件可以將源表中的某個(gè)列的類型、長(zhǎng)度等等進(jìn)行轉(zhuǎn)換。如將Varchar2類型轉(zhuǎn)換成Int類型等等。
在將源端的表中內(nèi)容復(fù)制到目標(biāo)端時(shí),根據(jù)配置條件將源表的某個(gè)列的數(shù)據(jù)進(jìn)行轉(zhuǎn)換。例如將“男”、“女”轉(zhuǎn)換成“0”、“1”。這種轉(zhuǎn)換不涉及第三張表,也就是說(shuō)這種轉(zhuǎn)換是固定的。
4、自由指定“抽取頻率”和“基準(zhǔn)時(shí)間”。
5、支持調(diào)用關(guān)系庫(kù)的存儲(chǔ)過(guò)程(必須有返回集)。
6、提供清除噪聲數(shù)據(jù)的功能。
產(chǎn)品架構(gòu)
數(shù)據(jù)抽取配置的實(shí)現(xiàn)方式采用4層架構(gòu):用戶界面層、業(yè)務(wù)處理層、傳輸層和數(shù)據(jù)處理層。

用戶界面層
用戶界面層為用戶提供簡(jiǎn)潔友好的操作界面。通過(guò)用戶界面層可以方便的實(shí)現(xiàn)數(shù)據(jù)查看、編輯和維護(hù)等操作。用戶界面層將各項(xiàng)操作指令發(fā)送給業(yè)務(wù)處理層,在收到業(yè)務(wù)處理的響應(yīng)后顯示在界面中。
業(yè)務(wù)處理層
業(yè)務(wù)處理層負(fù)責(zé)接收和處理用戶界面層的各項(xiàng)操作指令,并將指令的執(zhí)行結(jié)果發(fā)送回用戶界面層。
業(yè)務(wù)處理層接收到用戶界面層的指令后,首先對(duì)指令進(jìn)行解析,部分指令直接在業(yè)務(wù)處理層完成邏輯處理;部分操作需要將解析后的指令通過(guò)傳輸層發(fā)送給數(shù)據(jù)處理層,在收到執(zhí)行結(jié)果后發(fā)送給用戶界面層。業(yè)務(wù)處理層同時(shí)管理組織機(jī)構(gòu)的各種內(nèi)容。
傳輸層
傳輸層負(fù)責(zé)將業(yè)務(wù)處理層解析后的指令發(fā)送給數(shù)據(jù)處理層,并將數(shù)據(jù)處理層的信息返回給業(yè)務(wù)處理層。
傳輸層通過(guò)連接管理模塊與指定數(shù)據(jù)源進(jìn)行通訊,通過(guò)用戶驗(yàn)證模塊驗(yàn)證指定數(shù)據(jù)源用戶信息的合法性。在通訊過(guò)程中,傳輸層通過(guò)消息隊(duì)列模塊和數(shù)據(jù)緩存模塊提高通訊效率和增強(qiáng)系統(tǒng)穩(wěn)定性。
數(shù)據(jù)處理層
數(shù)據(jù)處理層負(fù)責(zé)最終執(zhí)行操作指令。在接收到操作指令后,數(shù)據(jù)處理層與實(shí)時(shí)數(shù)據(jù)庫(kù)或配置文件交互,最終將指令執(zhí)行結(jié)果通過(guò)傳輸層返回給業(yè)務(wù)處理層。
“ETL數(shù)據(jù)抽取”程序,抽取過(guò)程示意圖
產(chǎn)品特點(diǎn)
數(shù)據(jù)抽取的特點(diǎn)可以概括為:分布部署、快速實(shí)施、維護(hù)便捷。
分布式配置:隨著分布式技術(shù)和負(fù)載均衡技術(shù)的廣泛應(yīng)用,越來(lái)越多的情況需要遠(yuǎn)程配置抽取信息。為了適應(yīng)這種變化,數(shù)據(jù)抽取從設(shè)計(jì)之初即采用分布式架構(gòu)。通過(guò)選擇數(shù)據(jù)源的方式,可以在本地?cái)?shù)據(jù)庫(kù)系統(tǒng)完成對(duì)指定數(shù)據(jù)源中抽取信息的配置。
集中抽取:支持由多個(gè)不同種類或相同種類的關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)向同一個(gè)實(shí)時(shí)數(shù)據(jù)庫(kù)抽取。
清除噪聲數(shù)據(jù):數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中有可能存在著大量的噪聲數(shù)據(jù),引起的主要原因有:濫用縮寫詞、慣用語(yǔ)、數(shù)據(jù)輸入錯(cuò)誤、重復(fù)記錄、丟失值等。即便是一個(gè)設(shè)計(jì)和規(guī)劃良好的數(shù)據(jù)庫(kù)系統(tǒng),如果其中存在著大量的噪聲數(shù)據(jù),那么這個(gè)系統(tǒng)也是沒有任何意義的,因?yàn)?ldquo;垃圾進(jìn),垃圾出”(garbage in, garbage out),系統(tǒng)根本就不可能為決策分析系統(tǒng)提供任何支持。為了清除噪聲數(shù)據(jù),必須在數(shù)據(jù)庫(kù)系統(tǒng)中進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)抽取可以通過(guò)“匹配項(xiàng)”來(lái)完成數(shù)據(jù)的映射,從而達(dá)到清除噪聲數(shù)據(jù)的目的。
靈活的組織管理:數(shù)據(jù)抽取可以按照需要任意組織層級(jí)關(guān)系。如果發(fā)現(xiàn)層級(jí)關(guān)系建立錯(cuò)誤,或?qū)嶋H層級(jí)關(guān)系發(fā)生改變時(shí),現(xiàn)有的層級(jí)并不需要?jiǎng)h除,而是通過(guò)簡(jiǎn)單的剪切與粘貼即可完成。
更多資訊,請(qǐng)登錄:www.realsoft.cc
|