av在线不卡观看亚洲_欧美ⅴa高清在线观_国产午夜福利免费视频网站_欧洲日韩精品在线播放

×
NEWS CENTER

新聞中心

漫畫(huà):什么是數(shù)據(jù)倉(cāng)庫(kù)和ETL?

時(shí)間:2018-09-25 13:53:46 次數(shù):5523


一個(gè)故事

在很久很久以前,世界上生活著許多種族,有人類(lèi),有矮人,有精靈......他們有著不同的信仰,不同的文化,彼此相安無(wú)事??墒?,有一個(gè)猥瑣男卻偏偏想要統(tǒng)治整個(gè)世界。

如何統(tǒng)治這么多不同文化信仰的種族呢?猥瑣男想出一個(gè)餿主意,打造出幾枚擁有魔力的戒指,免費(fèi)送給不同種族的領(lǐng)袖,讓他們可以更好地統(tǒng)治各自的族人。

當(dāng)各個(gè)種族的領(lǐng)袖美滋滋地戴上各自的魔戒,走上人生巔峰的時(shí)候,猥瑣男又打造出一枚獨(dú)一無(wú)二的至尊魔戒。他利用至尊魔戒的力量控制了所有的魔戒,從而控制了各個(gè)種族的領(lǐng)袖,繼而控制了整個(gè)世界。

這個(gè)故事告訴我們:數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)之間的關(guān)系。

如果說(shuō),那個(gè)世界的每一個(gè)生命個(gè)體都是一條數(shù)據(jù)記錄,那么普通的魔戒的地位就好比是數(shù)據(jù)庫(kù),而至尊魔戒的地位就好比是數(shù)據(jù)倉(cāng)庫(kù)。

什么是數(shù)據(jù)倉(cāng)庫(kù)?

數(shù)據(jù)倉(cāng)庫(kù),英文名稱(chēng)Data Warehouse,簡(jiǎn)寫(xiě)為DW。數(shù)據(jù)倉(cāng)庫(kù)顧名思義,是一個(gè)很大的數(shù)據(jù)存儲(chǔ)集合,出于企業(yè)的分析性報(bào)告和決策支持目的而創(chuàng)建,對(duì)多樣的業(yè)務(wù)數(shù)據(jù)進(jìn)行篩選與整合。它為企業(yè)提供一定的BI(商業(yè)智能)能力,指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時(shí)間、成本、質(zhì)量以及控制。

數(shù)據(jù)倉(cāng)庫(kù)的輸入方是各種各樣的數(shù)據(jù)源,最終的輸出用于企業(yè)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)報(bào)表等方向。

那么,數(shù)據(jù)倉(cāng)庫(kù)都有什么特點(diǎn)呢?

1.主題性

不同于傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)應(yīng)于某一個(gè)或多個(gè)項(xiàng)目,數(shù)據(jù)倉(cāng)庫(kù)根據(jù)使用者實(shí)際需求,將不同數(shù)據(jù)源的數(shù)據(jù)在一個(gè)較高的抽象層次上做整合,所有數(shù)據(jù)都圍繞某一主題來(lái)組織。

這里的主題怎么來(lái)理解呢?比如對(duì)于滴滴出行,“司機(jī)行為分析”就是一個(gè)主題,對(duì)于鏈家網(wǎng),“成交分析”就是一個(gè)主題。

2.集成性

數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)是來(lái)源于多個(gè)數(shù)據(jù)源的集成,原始數(shù)據(jù)來(lái)自不同的數(shù)據(jù)源,存儲(chǔ)方式各不相同。要整合成為最終的數(shù)據(jù)集合,需要從數(shù)據(jù)源經(jīng)過(guò)一系列抽取、清洗、轉(zhuǎn)換的過(guò)程。

3.穩(wěn)定性

數(shù)據(jù)倉(cāng)庫(kù)中保存的數(shù)據(jù)是一系列歷史快照,不允許被修改。用戶(hù)只能通過(guò)分析工具進(jìn)行查詢(xún)和分析。

4.時(shí)變性

數(shù)據(jù)倉(cāng)庫(kù)會(huì)定期接收新的集成數(shù)據(jù),反應(yīng)出最新的數(shù)據(jù)變化。這和特點(diǎn)并不矛盾。

什么是ETL?

ETL的英文全稱(chēng)是 Extract-Transform-Load 的縮寫(xiě),用來(lái)描述將數(shù)據(jù)從來(lái)源遷移到目標(biāo)的幾個(gè)過(guò)程:

1.Extract,數(shù)據(jù)抽取,也就是把數(shù)據(jù)從數(shù)據(jù)源讀出來(lái)。

2.Transform,數(shù)據(jù)轉(zhuǎn)換,把原始數(shù)據(jù)轉(zhuǎn)換成期望的格式和維度。如果用在數(shù)據(jù)倉(cāng)庫(kù)的場(chǎng)景下,Transform也包含數(shù)據(jù)清洗,清洗掉噪音數(shù)據(jù)。

3.Load 數(shù)據(jù)加載,把處理后的數(shù)據(jù)加載到目標(biāo)處,比如數(shù)據(jù)倉(cāng)庫(kù)。

主流的數(shù)據(jù)倉(cāng)庫(kù)有哪些?

這個(gè)Hive又是何方神圣呢?

確切地說(shuō),Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,可以對(duì)存儲(chǔ)在HDFS上的文件數(shù)據(jù)集進(jìn)行查詢(xún)和分析處理。Hive對(duì)外提供了類(lèi)似于SQL語(yǔ)言的查詢(xún)語(yǔ)言 HiveQL,在做查詢(xún)時(shí)將HQL語(yǔ)句轉(zhuǎn)換成MapReduce任務(wù),在Hadoop層進(jìn)行執(zhí)行。

這里有幾個(gè)名詞需要解釋?zhuān)?/span>

1.HDFS

Hadoop的分布式文件系統(tǒng),在這里作為數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)層。圖中的Data Node就是HDFS的眾多工作節(jié)點(diǎn)。

2.MapReduce

一種針對(duì)海量數(shù)據(jù)的并行計(jì)算模型,可以簡(jiǎn)單理解為對(duì)多個(gè)數(shù)據(jù)分片的數(shù)據(jù)轉(zhuǎn)換和合并。

關(guān)于HDFS和MapReduce的具體知識(shí),這一期暫時(shí)不做展開(kāi),小灰會(huì)在后續(xù)的漫畫(huà)中詳細(xì)介紹。

幾點(diǎn)補(bǔ)充:

1.對(duì)于大數(shù)據(jù)方向,小灰也僅僅了解皮毛,漫畫(huà)中若存在錯(cuò)誤或是描述不全面的地方,還請(qǐng)大家多多指正補(bǔ)充。

2.關(guān)于Teradata,小灰曾經(jīng)有幸在這里工作過(guò),雖然不是從事數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域。Teradata 的確是一款很強(qiáng)大的商業(yè)數(shù)據(jù)倉(cāng)庫(kù),對(duì)此有興趣的同學(xué),可以百度學(xué)習(xí)一下具體知識(shí)。



掃一掃分享當(dāng)前頁(yè)面
分享到