數(shù)據(jù)挖掘范文

時間:2023-03-26 17:13:39

導(dǎo)語:如何才能寫好一篇數(shù)據(jù)挖掘,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

篇1

關(guān)鍵詞:數(shù)據(jù)挖掘;因特網(wǎng);服務(wù)

中圖分類號:TP

文獻(xiàn)標(biāo)識碼:A

文章編號:1672-3198(2010)17-0357-01

1 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘(Data Mining)最早是在數(shù)據(jù)庫領(lǐng)域發(fā)展起來的。稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD,Knowledge Discovery in Database),據(jù)挖掘是從大量的包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取隱含在其中的、事先不為人知的、潛在的、有用的信息和知識的過程,它要求數(shù)據(jù)源應(yīng)該是大量的、真實(shí)的、多媒體的;所發(fā)現(xiàn)和提取的信息和知識是潛在的、有效的并隱藏在大量數(shù)據(jù)背后,是用戶感興趣的、可理解、可運(yùn)用的知識,數(shù)據(jù)挖掘是一個利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程。

2 數(shù)據(jù)挖掘的系統(tǒng)簡介

2.1 AuthorLink系統(tǒng)

最近,美國開發(fā)出了基于文獻(xiàn)計(jì)量分析的知識查詢系統(tǒng),并借助于可視化技術(shù)首次將復(fù)雜的統(tǒng)計(jì)結(jié)果,用通俗易懂的圖像形式顯示給用戶,從而實(shí)現(xiàn)了知識信息提供服務(wù)的一次變革。

2.2 專利統(tǒng)計(jì)分析系統(tǒng)

人們關(guān)于專利的統(tǒng)計(jì)分析,事實(shí)上也是一種知識挖掘。目前,包括英國的WPI及美國、日本專利局等網(wǎng)絡(luò)站點(diǎn),都在提供專利文獻(xiàn)檢索服務(wù)的同時提供專利統(tǒng)計(jì)分析的服務(wù)。

2.3 OLAP系統(tǒng)

OLAP系統(tǒng)(On-Line Analytical Processing聯(lián)機(jī)分析處理系統(tǒng))也是一種典型的數(shù)據(jù)挖掘系統(tǒng)。這是一種含有數(shù)據(jù)導(dǎo)航、數(shù)據(jù)查詢、建模、預(yù)測和數(shù)據(jù)挖掘的數(shù)據(jù)分析系統(tǒng)。其中OLAP引擎可以在前端接口接受用戶提交的多維提問,并轉(zhuǎn)換成SQL語句,然后將提問查詢提交數(shù)據(jù)庫,最后以圖表的形式輸出。

3 數(shù)據(jù)挖掘的步驟

(1)確定應(yīng)用領(lǐng)域:包括此領(lǐng)域的基本知識和目標(biāo);(2)建立目標(biāo)數(shù)據(jù)集:選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;(3)數(shù)據(jù)預(yù)處理:在大數(shù)據(jù)集中,根據(jù)需求,利用數(shù)據(jù)凈化和整合技術(shù),選擇與任務(wù)相關(guān)數(shù)據(jù),在不降低其準(zhǔn)確度的狀況下減少處理數(shù)據(jù)量;(4)數(shù)據(jù)轉(zhuǎn)換:找到數(shù)據(jù)的特征進(jìn)行編碼,減少有效變量的數(shù)目;(5)數(shù)據(jù)挖掘:根據(jù)數(shù)據(jù)和所要發(fā)現(xiàn)知識的種類來確定相應(yīng)的挖掘算法;(6)數(shù)據(jù)評價:將挖掘出的知識和數(shù)據(jù)以各種可視化方式顯示,并將其以圖形、文本等方式存儲在庫中,以便對它們進(jìn)一步挖掘,直至滿意為止;(7)實(shí)施和應(yīng)用:實(shí)施和應(yīng)用階段是指利用數(shù)據(jù)挖掘技術(shù)所建立模型在實(shí)際項(xiàng)目中的應(yīng)用,包括數(shù)據(jù)庫的構(gòu)建,個性化用戶服務(wù)、基于知識的企業(yè)信息管理(MIS)、金融、證券、股票分析、電子商務(wù)、企業(yè)目標(biāo)管理、決策支持等等。

4 數(shù)據(jù)挖掘服務(wù)的實(shí)現(xiàn)

4.1 數(shù)據(jù)挖掘?yàn)閭€性化服務(wù)打下基礎(chǔ)

收集用戶有關(guān)的信息,建立用戶信息庫。用戶是數(shù)字圖書館的重要資源,一個信息完整的用戶信息庫,能保證在充分挖掘的基礎(chǔ)上,了解用戶的普遍性需求與特殊性需求,從而開展有針對性的個性化服務(wù)。通過對用戶訪問日志記錄信息的挖掘,把握用戶興趣,有助于開展網(wǎng)絡(luò)信息推送服務(wù)以及個人信息的定制服務(wù)。但從用戶群整體來看,用戶的信息需求又是隨機(jī)的,這為一般用戶需求信息分析帶來了很大困難。數(shù)據(jù)挖掘從全局出發(fā),以豐富、動態(tài)的聯(lián)機(jī)查詢和分析來了解用戶的信息需求。通過在線提問、調(diào)查表等方式,系統(tǒng)可以獲取關(guān)于用戶的用戶名、用戶訪問IP地址、用戶的職業(yè)、年齡、愛好等原始信息。然后,采取一定的挖掘規(guī)則(如關(guān)聯(lián)規(guī)則、聯(lián)機(jī)分析處理等),對這些數(shù)據(jù)進(jìn)行融合分析,其結(jié)果是為每個用戶建立一個信息需求模型。根據(jù)用戶需求,主動跟蹤本地信息庫和網(wǎng)絡(luò)相關(guān)信息,收集用戶所需信息。為了提高準(zhǔn)確度,還應(yīng)對所收集的信息進(jìn)行相關(guān)性分析,可以根據(jù)用戶提供的檢索詞,確定所檢索到的信息與該檢索詞的相關(guān)度。同時還可以利用智能推送技術(shù)將用戶所需信息推到用戶的計(jì)算機(jī)、電子信箱,甚至手機(jī)、PDA上。

4.2 數(shù)據(jù)挖掘使網(wǎng)絡(luò)資源的內(nèi)容檢索成為可能

網(wǎng)絡(luò)內(nèi)容挖掘是一個從文本、圖像、音頻、視頻、元數(shù)據(jù)等形式的網(wǎng)絡(luò)源信息中采用分類、聚類等形式的挖掘方法,發(fā)現(xiàn)有用信息,并將這些信息按滿足某種檢索方式的形式加以組織的過程。通過對網(wǎng)站內(nèi)容的挖掘,主要是對文本內(nèi)容的挖掘,可以有效地組織網(wǎng)絡(luò)資源。有的學(xué)者應(yīng)用數(shù)據(jù)和文本挖掘技術(shù)在網(wǎng)絡(luò)上進(jìn)行問題跟蹤,從而獲得了以前未知的有用知識,為信息內(nèi)容分析提供了極大的可能性。網(wǎng)絡(luò)內(nèi)容挖掘是目前網(wǎng)絡(luò)信息檢索發(fā)展的一個關(guān)鍵,通過對網(wǎng)頁內(nèi)容挖掘,可以實(shí)現(xiàn)對網(wǎng)頁的聚類、分類,實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;通過對用戶所使用的提問式(query)的歷史記錄分析,可以有效地進(jìn)行提問擴(kuò)展(query expansion),提高查全率和查準(zhǔn)率;可以運(yùn)用網(wǎng)絡(luò)內(nèi)容挖掘技術(shù)進(jìn)行關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度,從而改善檢索效果。

篇2

關(guān)鍵詞:數(shù)據(jù)挖掘;方法;數(shù)據(jù)挖掘技術(shù);數(shù)據(jù)倉庫

中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2008)34-2030-03

Brief Analysis of Data Mining Techniques

WEI Xiao-ling

(Department of Primary education, Qinzhou University, Qinzhou 535000, China)

Abstract: Data mining techniques is an emerging research field in database and artificial intelligence.Is present widespread research data bank technology Is present widespread research data bank technology, It may refine usefully, the latent information from the massive data, After ten several years research and application, Had already established the quite solid rationale, at present, is closely integrated with applications, Further reform of the existing technology development.

Key words: data mining; methods; data mining; techniques data warehouse

1 引言

隨著計(jì)算機(jī)技術(shù),特別是數(shù)據(jù)庫技術(shù)的快速發(fā)展和廣泛應(yīng)用,各行各業(yè)積累的數(shù)據(jù)量越來越大,傳統(tǒng)的數(shù)據(jù)處理方式已很難充分利用蘊(yùn)藏在這些數(shù)據(jù)中的有用知識,為適應(yīng)這種需求 ,數(shù)據(jù)挖掘(Data Mining,DM)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。

數(shù)據(jù)挖掘技術(shù)是人們長期對數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對數(shù)據(jù)庫的即時遍歷。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術(shù)進(jìn)入了一個更高級的階段,它不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進(jìn)信息的傳遞。

從80年代末數(shù)據(jù)挖掘開始出現(xiàn),短短二十多年它的發(fā)展速度很快。目前數(shù)據(jù)挖掘技術(shù)在零售業(yè)的購物籃分析、金融風(fēng)險預(yù)測 、產(chǎn)品質(zhì)量分析、通訊及醫(yī)療服務(wù) 、基因工程研究等許 多領(lǐng)域得到了成功的應(yīng)用.很多專題會議也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為議題之一。

2 數(shù)據(jù)挖掘技術(shù)概述

所謂數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。

數(shù)據(jù)挖掘的核心模塊技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計(jì)、人工智能、機(jī)器學(xué)習(xí)。今天,這些成熟的技術(shù),加上高性能的關(guān)系數(shù)據(jù)庫引擎以及廣泛的數(shù)據(jù)集成,讓數(shù)據(jù)挖掘技術(shù)在當(dāng)前的數(shù)據(jù)倉庫環(huán)境中進(jìn)入了實(shí)用的階段。

數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個特征。

3 數(shù)據(jù)挖掘技術(shù)功能

1) 自動預(yù)測趨勢和行為

數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預(yù)測性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。一個典型的例子是市場預(yù)測問題,數(shù)據(jù)挖掘使用過去有關(guān)促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預(yù)測的問題包括預(yù)報破產(chǎn)以及認(rèn)定對指定事件最可能作出反應(yīng)的群體。

2) 關(guān)聯(lián)分析

數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。

3) 聚類

數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。80年代初,Mchalski提出了概念聚類技術(shù)其要點(diǎn)是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。

4) 概念描述

概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。

5) 偏差檢測

數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。

4 數(shù)據(jù)挖掘常用技術(shù)

在數(shù)據(jù)挖掘中最常用的技術(shù)有:

人工神經(jīng)網(wǎng)絡(luò):人工神經(jīng)網(wǎng)絡(luò)方法從結(jié)構(gòu)上模仿生物神經(jīng)網(wǎng)絡(luò),是一種通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型。 它將每一個連接看作一個處理單元(PE),試圖模擬人腦神經(jīng)元的功能。它可以完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。

決策樹:決策樹是數(shù)據(jù)挖掘中經(jīng)常要用到的一種技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。它利用樹的結(jié)構(gòu)將數(shù)據(jù)記錄進(jìn)行分類,樹的一個葉結(jié)點(diǎn)就代表某個條件下的一個記錄集,根據(jù)記錄字段的不同取值建立樹的分支;在每個分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,便可生成一棵決策樹。常用的算法有CHAID、 CART、 Quest 和C5.0。

遺傳算法:遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法。其基本思想是基于 Darwin的進(jìn)化論和 Mendel的遺傳學(xué)說。該算法由密執(zhí)安(Michigan)大學(xué)教授 Holland及其學(xué)生于 1975年創(chuàng)建。與傳統(tǒng)搜索算法不同,遺傳算法從一組隨機(jī)產(chǎn)生的初始解,稱為種群(Population),開始搜索過程。種群中的每個個體是問題的一個解,稱為染色體(Chromone)。染色體是一串符號,例如一個二進(jìn)制字符串。這些染色體在后續(xù)迭代中不斷進(jìn)化,稱為遺傳在每一代中用適應(yīng)度 (Fitness)來衡量染色體的好壞。生成下一代染色體,稱為后代(Offspring)。后代是由前一代染色體通過交叉(Crossover)或變異(Muration)運(yùn)算形成。根據(jù)適應(yīng)度大小選擇部分后代淘汰部分后代,從而保持種群大小是常數(shù)。適應(yīng)度高的染色體被選中的概率高。這樣,經(jīng)過若干代之后,算法收斂于最好的染色體,它很可能就是問題的最優(yōu)解或次優(yōu)解。

近鄰算法:將數(shù)據(jù)集合中每一個記錄進(jìn)行分類的方法。

規(guī)則推導(dǎo):從統(tǒng)計(jì)意義上對數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。

5 數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)

在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。

1) 數(shù)據(jù)的抽取

數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個方面的處理。在數(shù)據(jù)抽取方面,未來的技術(shù)發(fā)展將集中在系統(tǒng)功能集成化方面,以適應(yīng)數(shù)據(jù)倉庫本身或數(shù)據(jù)源的變化,使系統(tǒng)更便于管理和維護(hù)。

2) 數(shù)據(jù)的存儲和管理

數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。目前,許多數(shù)據(jù)庫廠家提供的技術(shù)解決方案是擴(kuò)展關(guān)系型數(shù)據(jù)庫的功能,將普通關(guān)系數(shù)據(jù)庫改造成適合擔(dān)當(dāng)數(shù)據(jù)倉庫的服務(wù)器。

3) 數(shù)據(jù)的展現(xiàn)

在數(shù)據(jù)展現(xiàn)方面主要的方式有:

查詢:實(shí)現(xiàn)預(yù)定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動態(tài)模擬、計(jì)算機(jī)動畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的知識。

4) 數(shù)據(jù)挖掘一般過程

圖1描述了數(shù)據(jù)挖掘的基本過程和主要步驟。

過程中各步驟的大體內(nèi)容如下:

5.1 確定業(yè)務(wù)對象

清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的

5.2 數(shù)據(jù)準(zhǔn)備

1) 數(shù)據(jù)的選擇

搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。

2) 數(shù)據(jù)的預(yù)處理

研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備。并確定將要進(jìn)行的挖掘操作的類型。

3) 數(shù)據(jù)的轉(zhuǎn)換

將數(shù)據(jù)轉(zhuǎn)換成一個分析模型。這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。

5.3 數(shù)據(jù)挖掘

對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成。

5.4 結(jié)果分析

解釋并評估結(jié)果。其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù)。

5.5 知識的同化

將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

6 數(shù)據(jù)挖掘技術(shù)的應(yīng)用

應(yīng)用是數(shù)據(jù)挖掘技術(shù)的發(fā)展動力,數(shù)據(jù)挖掘研究具有廣泛的應(yīng)用前景,因?yàn)閿?shù)據(jù)挖掘產(chǎn)生的知識可以用于決策支持、信息管理、科學(xué)研究等許多領(lǐng)域。數(shù)據(jù)挖掘技術(shù)與各個行業(yè)的有機(jī)結(jié)合體現(xiàn)了其蓬勃的生命力 ,且這種趨勢正在以前所未有的速度繼續(xù)向前發(fā)展。尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業(yè)領(lǐng)域。數(shù)據(jù)挖掘所能解決的典型商業(yè)問題包括:數(shù)據(jù)庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等。具體應(yīng)用實(shí)例如:IBM公司開發(fā)的QUEST和Intelligent Miner系統(tǒng)可以挖掘顧客的購物行為模式,預(yù)測銷售行情。AT& T實(shí)驗(yàn)室開發(fā)了Hancock系統(tǒng),該系統(tǒng)主要處理電信數(shù)據(jù)流,分析電話呼叫記錄。Bell通信研究所的Tribeca則是一個用于網(wǎng)絡(luò)監(jiān)控的系統(tǒng)。Google公司利用其數(shù)據(jù)挖掘技術(shù)Page Rank,在短短的幾年內(nèi)打敗所有競爭對手成為Internet上的贏家。

7 結(jié)束語

數(shù)據(jù)挖掘是當(dāng)前計(jì)算機(jī)工業(yè)最熱門的研究領(lǐng)域之一。它是一個不斷發(fā)展的、綜合交叉的學(xué)科。隨著數(shù)據(jù)挖掘成功案例的廣播,越來越多的行業(yè)采用數(shù)據(jù)挖掘技術(shù),它將會被廣泛而深入地應(yīng)用于人類生活的各個領(lǐng)域。

參考文獻(xiàn):

[1] 張士玲,楊林楠,孫向前,等.淺論數(shù)據(jù)挖掘技術(shù)[J].福建電腦,2005(8):61-62.

[2] 楊雪.淺析數(shù)據(jù)挖掘技術(shù)[J].華南金融電腦,2005(8):83-85.

[3] 張倩.數(shù)據(jù)挖掘技術(shù)綜述[J].甘肅科技,2005,21(7):92-93.

[4] 黃曉霞,蕭蘊(yùn)詩.數(shù)據(jù)挖掘應(yīng)用研究及展望[J].計(jì)算機(jī)輔助工程,2001(4):23-29.

篇3

[關(guān)鍵詞]大數(shù)據(jù);數(shù)據(jù)挖掘

中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2014)35-0286-01

當(dāng)“大數(shù)據(jù)”鋪天蓋地般向我們涌來,人們往往期冀能夠?qū)Υ髷?shù)據(jù)能夠有更進(jìn)一步的了解,“數(shù)據(jù)挖掘”因此成為我們理解大數(shù)據(jù)概念繞不過去的“坎”。通過將大數(shù)據(jù)與數(shù)據(jù)挖掘進(jìn)行對比分析,將有助于人們了解大數(shù)據(jù)的來龍去脈和未來真實(shí)走向。

1.基本概念

數(shù)據(jù)挖掘,顧名思義就是從大量的數(shù)據(jù)中挖掘出有用的信息,即從大量的、不完全的、有噪聲的、隨機(jī)的、模糊的數(shù)據(jù)中,提取隱含其中的、規(guī)律性的、人們事先未知的、但又是潛在的有用信息和知識的過程。數(shù)據(jù)挖掘是一個在海量數(shù)據(jù)中利用各種分析工具發(fā)現(xiàn)模型與數(shù)據(jù)間關(guān)系的過程,它可以幫助決策者尋找數(shù)據(jù)間潛在的某種關(guān)聯(lián),發(fā)現(xiàn)被隱藏的、被忽略的因素,因而被認(rèn)為是在這個數(shù)據(jù)爆炸時代解決信息貧乏問題的一種有效方法。數(shù)據(jù)挖掘作為一門交叉學(xué)科,融合了數(shù)據(jù)庫、人工智能、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等多領(lǐng)域的理論與技術(shù)。數(shù)據(jù)庫、人工智能與數(shù)理統(tǒng)計(jì)為數(shù)據(jù)挖掘的研究提供了三大技術(shù)支持。

大數(shù)據(jù)是通過高速捕捉、發(fā)現(xiàn)和分析,從大容量數(shù)據(jù)中獲取價值的一種新的技術(shù)架構(gòu)。著名研究機(jī)構(gòu)IDC給大數(shù)據(jù)的定義,有四個"V"字開頭的特征:Volume(體量大),Velocity(速度快),Variety(種類雜),Value(價值大)。Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性Velocity可以理解為更快地滿足實(shí)時性需求;Variety則意味著要在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián);Value最重要,它是大數(shù)據(jù)的最終意義:挖掘數(shù)據(jù)存在的價值。

2.相互聯(lián)系

大數(shù)據(jù)是數(shù)據(jù)挖掘的概念再升級。相比于興起只有2~3年的大數(shù)據(jù)概念,已有20多年發(fā)展的數(shù)據(jù)挖掘可稱得上大數(shù)據(jù)的開山鼻祖。因?yàn)榇髷?shù)據(jù)和數(shù)據(jù)挖掘的本質(zhì)是相同的――對數(shù)據(jù)進(jìn)行挖掘分析,以發(fā)現(xiàn)有價值的信息。而且大數(shù)據(jù)的興起,正是在人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等技術(shù)基礎(chǔ)之上發(fā)展起來的,而人工智能、機(jī)器學(xué)習(xí)又是在為數(shù)據(jù)挖掘服務(wù)。從表面上看,大數(shù)據(jù)與數(shù)據(jù)挖掘的顯著區(qū)別在于“大”上。然而深入分析就會發(fā)現(xiàn):一方面,數(shù)據(jù)挖掘的對象不僅可以用于少量的數(shù)據(jù),而且同樣適用于海量數(shù)據(jù),只是由于挖掘方法和技術(shù)工具的不斷升級換代,換了個新的名稱而已;另一方面,大數(shù)據(jù)的本質(zhì)不在于“大”,而是以嶄新的思維和技術(shù)去分析海量數(shù)據(jù),揭示其中隱藏的人類行為等模式,由此創(chuàng)造新產(chǎn)品和服務(wù),或是預(yù)測未來趨勢。所以大數(shù)據(jù)和數(shù)據(jù)挖掘的概念在一定時期還會并存,因應(yīng)于使用的時機(jī)、場合或使用人的習(xí)慣,真正的關(guān)鍵點(diǎn)是如何體現(xiàn)出數(shù)據(jù)的價值。

大數(shù)據(jù)是數(shù)據(jù)挖掘產(chǎn)業(yè)化的表現(xiàn)。長久以來,數(shù)據(jù)挖掘的經(jīng)典案例――“啤酒與尿布”被廣為傳頌,然而這一傳奇故事顯然跟不上時代大發(fā)展的步伐,取而代之的是谷歌成功預(yù)測流感的案例。數(shù)據(jù)的價值在于信息,而技術(shù)的價值在于利潤,數(shù)據(jù)挖掘可以看作是專業(yè)技術(shù)領(lǐng)域的專業(yè)名詞,到了商業(yè)領(lǐng)域就需要進(jìn)一步的包裝與升級。只有這樣,一系列的開放式平臺、技術(shù)解決方案才能迅速“火”起來。顯而易見,這種商業(yè)的運(yùn)作模式已經(jīng)非常成熟和成功。目前,大數(shù)據(jù)已被視為創(chuàng)新和生產(chǎn)力提升的下一個前沿,正成為國家競爭力的要素之一,在世界范圍內(nèi)日益受到重視,多國政府加大了對大數(shù)據(jù)發(fā)展的扶持力度,甚至上升到國家戰(zhàn)略的高度。某咨詢公司研究顯示,全球?qū)Υ髷?shù)據(jù)項(xiàng)目投資總額2012年已達(dá)45億歐元(約60億美元),2013、2014兩年均會保持約40%的增長速度。

3.簡要小結(jié)

當(dāng)前,數(shù)據(jù)挖掘在專業(yè)領(lǐng)域的地位已經(jīng)非常牢固,但大數(shù)據(jù)還受到民眾和業(yè)界的諸多質(zhì)疑,認(rèn)為是一種商業(yè)噱頭和忽悠。其實(shí)很多爭論實(shí)質(zhì)上并非在討論同一問題。比如,有人舉例說,《大數(shù)據(jù)時代》的作者維克托?邁爾―舍恩伯格認(rèn)為 , “人們處理的數(shù)據(jù)從樣本數(shù)據(jù)變成全部數(shù)據(jù)”的結(jié)論至少從目前的數(shù)據(jù)收集和分析能力來說是不可能實(shí)現(xiàn)的。我們應(yīng)該看到,沒有不變的真理,只有客觀規(guī)律。任何技術(shù)都不是萬能的,作為一種技術(shù)而言,它僅代表了一種發(fā)展方向,它因?yàn)槟軌蚪鉀Q某一現(xiàn)實(shí)問題而具備存在的價值;至于技術(shù)的商業(yè)化運(yùn)用成不成功,則還受制于運(yùn)用推廣的方式等其它諸多因素。例如,對比上世紀(jì)末“互聯(lián)網(wǎng)經(jīng)濟(jì)泡沫”破滅時的哀鴻遍野和前不久阿里巴巴在美國上市的一片贊歌,可以看出:互聯(lián)網(wǎng)技術(shù)的發(fā)展勢不可擋,互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展一波三折,只能說產(chǎn)業(yè)和技術(shù)緊密相聯(lián),但終究不是一回事。

參考文獻(xiàn)

[1] 維克托?邁爾―舍恩伯格著,周濤譯.大數(shù)據(jù)時代:生活、工作與思維的大變革[M] .浙江:浙江人民出版社,2012.12

[2] 朱明.數(shù)據(jù)挖掘(第二版)[M] .合肥:中國科學(xué)技術(shù)大學(xué)出版社,2008.11

作者簡介

篇4

數(shù)據(jù)挖掘的英語名稱是Data Mining,又譯為資料探勘、數(shù)據(jù)采礦。所謂數(shù)據(jù)挖掘,是指從大量不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中,通過設(shè)置一定的學(xué)習(xí)算法,提取那些隱含在其中的,然而人們事先不知道卻有潛在用途信息的過程。它是根據(jù)數(shù)據(jù)的微觀特征,發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的知識,是信息優(yōu)勢成為知識優(yōu)勢的基礎(chǔ)工程。數(shù)據(jù)挖掘萌芽于“情報深加工”,其實(shí)質(zhì)就是發(fā)現(xiàn)情報背后的情報。在大數(shù)據(jù)時代,數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中尋找到自己需要的信息,我們常用的百度、谷歌等搜索引擎完成的工作也屬于數(shù)據(jù)挖掘的范疇。

隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的迅速崛起與普及,人們(當(dāng)然包括犯罪分子和)已經(jīng)離不開手機(jī)、電腦、智能電視等智能終端設(shè)備,不少日?;顒踊旧隙伎梢詳?shù)字化地表示。幾點(diǎn)幾分從家出門,坐什么車花了多長時間到了工作地點(diǎn)。這期間,無論是誰,每發(fā)一次微博和打一次電話,包括經(jīng)緯度在內(nèi)的精確地理位置信息都被記錄在案,而通話記錄在許多年之后仍可以被調(diào)閱查詢??傊?,在通信技術(shù)無孔不入的時代,人們的一舉一動都產(chǎn)生了大量的數(shù)據(jù)。而在很多時候,這些原始數(shù)據(jù)就會成為司法部門破案時所需要分析的材料。

數(shù)據(jù)挖掘是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以可理解的方式(如可視化)將找出的規(guī)律表示出來。由于人類從來沒有像今天這樣如此依賴網(wǎng)絡(luò)和電子設(shè)備,因此,信息時代眾多的電子蹤跡讓研究每個人、每個群體,甚至整個人類的習(xí)慣成為了可能。

目前,美國安全局已經(jīng)開始利用數(shù)據(jù)挖掘技術(shù)追蹤和監(jiān)控社會情緒。比如,美國安全局和交通安全局曾經(jīng)基于數(shù)據(jù)挖掘技術(shù),開發(fā)出計(jì)算機(jī)輔助乘客篩選系統(tǒng)。該系統(tǒng)為美國本土各個機(jī)場提供接口,當(dāng)乘客購買機(jī)票時,系統(tǒng)利用乘客提供的信息確定乘客是否是需要額外安全篩選的人員。該系統(tǒng)將乘客購買機(jī)票時提供的信息輸入到商用數(shù)據(jù)提供商提供的數(shù)據(jù)庫,這些信息包括全名、地址、電話號碼以及出生日期。商用數(shù)據(jù)庫然后將隱含特殊危險等級的數(shù)字分值傳送給交通安全局。帶有“綠色”分值的乘客將接受“正常篩選”,帶有“黃色”分值的乘客將接受“額外篩選”,而帶有“紅色”分值的乘客將被禁止登機(jī)而且還將接受“法律強(qiáng)制性的關(guān)照”。在利用商用數(shù)據(jù)庫信息時,交通安全局聲稱工作人員不會看到用于計(jì)算分值的實(shí)際信息,也不會保留乘客的信息,以此保障乘客的隱私。

篇5

[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價值,要對這些規(guī)則要進(jìn)行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點(diǎn)的檢測。并非由聚類分析算法得到的類對決策都有效,在運(yùn)用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個結(jié)點(diǎn)說明了對實(shí)例的某個屬性的測試,該結(jié)點(diǎn)的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測試這個結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計(jì)算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強(qiáng)的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進(jìn)行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。

三、結(jié)束語

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

篇6

系統(tǒng)采用C/S+B/S結(jié)構(gòu),主要由前端數(shù)據(jù)采集設(shè)備(位移及載荷傳感器)、站點(diǎn)客戶端、數(shù)據(jù)庫及Web服務(wù)器等組成。各部分采取分布式協(xié)同處理運(yùn)行方式,站點(diǎn)客戶端利用前端采集的數(shù)據(jù)獨(dú)立分析計(jì)算,分析完成后上傳至數(shù)據(jù)庫服務(wù)器,并通過網(wǎng)頁服務(wù)器對外。

2系統(tǒng)數(shù)據(jù)

2.1系統(tǒng)數(shù)據(jù)結(jié)構(gòu)系統(tǒng)采用MicrosoftSQLServer,創(chuàng)建了WPGUI與WPCHQ數(shù)據(jù)庫來管理3萬余口油井?dāng)?shù)據(jù)采集、處理及存儲等,建設(shè)數(shù)據(jù)表65張(見主要數(shù)據(jù)表的關(guān)系圖2),主要包括生產(chǎn)井的完井?dāng)?shù)據(jù)、靜態(tài)數(shù)據(jù)、動態(tài)數(shù)據(jù)、采集數(shù)據(jù)、原油物性數(shù)據(jù)、機(jī)桿管泵等技術(shù)數(shù)據(jù),同時系統(tǒng)保存了油井近兩年功圖電參數(shù)據(jù)(每天每口井到少100張),以及根據(jù)這些數(shù)據(jù)分析計(jì)算出來的結(jié)果和匯總生成的數(shù)據(jù)。

3數(shù)據(jù)挖掘應(yīng)用

數(shù)據(jù)挖掘是從大量數(shù)據(jù)集中發(fā)現(xiàn)可行信息的過程,是統(tǒng)計(jì)分析技術(shù)、數(shù)據(jù)庫技術(shù)及人工智能技術(shù)的綜合。面對油井工況實(shí)時分析及功圖計(jì)產(chǎn)系統(tǒng)大量的油井生產(chǎn)完備數(shù)據(jù),長慶油田充分利用數(shù)據(jù)挖掘技術(shù),對數(shù)據(jù)進(jìn)一步清理、集成、轉(zhuǎn)換、挖掘應(yīng)用,深化功圖系統(tǒng)數(shù)據(jù)分析,先后開展了動液面計(jì)算,系統(tǒng)效率在線實(shí)時監(jiān)測、區(qū)塊動態(tài)分析研究等,并應(yīng)用于油田現(xiàn)場,取得了較好的效果,既節(jié)約了生產(chǎn)成本,又方便了現(xiàn)場管理應(yīng)用,進(jìn)一步提升系統(tǒng)在長慶油田數(shù)字化前端的核心地位。

3.1區(qū)塊動態(tài)分析

油井生產(chǎn)中,每天都會獲得大量的實(shí)時生產(chǎn)數(shù)據(jù),目前系統(tǒng)主要對單井完成工況分析及產(chǎn)液量計(jì)算,如何通過分析和處理這些數(shù)據(jù),及時全面了解油田區(qū)塊產(chǎn)油量、壓力、含水等變化規(guī)律是數(shù)據(jù)挖掘應(yīng)用又一問題。長慶油田開展了基于油井工況診斷及功圖計(jì)產(chǎn)系統(tǒng)的區(qū)塊動態(tài)分析,從空間和歷史角度,對油井分類、分級、分層次進(jìn)行統(tǒng)計(jì)分析,挖掘生產(chǎn)數(shù)據(jù)里有用的信息,提煉區(qū)塊共性問題,并按照設(shè)計(jì)的模板(區(qū)塊指標(biāo)統(tǒng)計(jì)圖表、供液能力分析、產(chǎn)量分析、故障井分析等)每月30日自動生成全面及時的區(qū)塊油井生產(chǎn)動態(tài)分析,從而指導(dǎo)區(qū)塊生產(chǎn)管理,實(shí)現(xiàn)油田的精細(xì)管理,為油田開發(fā)決策提供依據(jù)。

4結(jié)束語

隨著長慶油田數(shù)字化建設(shè)的不斷深入,各種生產(chǎn)、研究、管理等數(shù)據(jù)庫不斷增加,如何深化數(shù)據(jù)應(yīng)用,準(zhǔn)確迅速從數(shù)據(jù)庫是提取有用信息,已成為是數(shù)字油田生產(chǎn)管理的迫切需求。在基于油井工況實(shí)時分析及功圖計(jì)產(chǎn)系統(tǒng)數(shù)據(jù)挖掘應(yīng)用中我們積累了不少經(jīng)驗(yàn),拓展了系統(tǒng)功能,提升系統(tǒng)在長慶油田數(shù)字化前端的核心地位。在今后應(yīng)用中,油田數(shù)據(jù)挖掘應(yīng)用注意幾個問題:

(1)數(shù)據(jù)是數(shù)字油田的血液,為了保證數(shù)據(jù)挖掘效率,在數(shù)據(jù)庫建設(shè)中要規(guī)范數(shù)據(jù)存儲格式,保證數(shù)據(jù)源及數(shù)據(jù)類型的統(tǒng)一,同時加強(qiáng)數(shù)據(jù)審核,注重數(shù)據(jù)入庫的質(zhì)量;

(2)數(shù)據(jù)挖掘中盡可能使用可視化工具,一幅圖勝過千句話,數(shù)據(jù)挖掘可視化主要包括數(shù)據(jù)可視化、挖掘結(jié)果可視化、挖掘過程可視化等;

篇7

近年來,我國的部隊(duì)管理體系已經(jīng)逐漸向著自動化方向發(fā)展,部隊(duì)中各個部門都建立了一定的管理體系,也逐漸脫離了人工管理模式,實(shí)現(xiàn)信息現(xiàn)代化模式,很大程度提高了部隊(duì)工作的效率,但是由于外界因素與經(jīng)濟(jì)發(fā)展的多樣化以及人們的思維模式也在不斷改變,從而出現(xiàn)了一些新問題,使得部隊(duì)管理體系存在著一定問題:第一、關(guān)聯(lián)性小、系統(tǒng)比較獨(dú)立?,F(xiàn)階段,部隊(duì)采購食品系統(tǒng)的作用以及目的比較簡單,思維面也比較窄,也就是說按照清單進(jìn)行食品采購時,不能充分考慮到采購人員的健康、效率等問題,不能達(dá)到最優(yōu)化采購方式,因此就變得比較獨(dú)立;第二,數(shù)據(jù)功能簡單,可靠性不高?,F(xiàn)階段,部隊(duì)食品采購數(shù)據(jù)只是對采購的種類與過程進(jìn)行簡單記錄,時間一久,就會被損壞或者丟失;第三,數(shù)據(jù)分散不集中?,F(xiàn)階段與部隊(duì)人員健康、起居飲食、訓(xùn)練相關(guān)的數(shù)據(jù)分散在不同系統(tǒng)中,使得數(shù)據(jù)變得不一致、不完整,僅僅只能進(jìn)行簡單查詢、匯總、統(tǒng)計(jì)等工作,不能對數(shù)據(jù)進(jìn)行多角度分析、關(guān)聯(lián)等,不能為采購食品提供很好的政策支持。針對部隊(duì)采購存在的問題,可以利用數(shù)據(jù)倉庫以及數(shù)據(jù)挖掘技術(shù)建立多為數(shù)據(jù)庫,利用數(shù)據(jù)挖掘進(jìn)技術(shù)對食品采購數(shù)據(jù)進(jìn)行挖掘。依據(jù)現(xiàn)階段部隊(duì)的實(shí)際發(fā)展情況,建立一套新數(shù)據(jù)庫的成本代價比較高,因此,選用了目前社會上通用方法,對已經(jīng)存在的數(shù)據(jù)進(jìn)行一定改革與拓展,合理優(yōu)化系統(tǒng)數(shù)據(jù),成為新的數(shù)據(jù)庫。并且選取對數(shù)據(jù)挖掘影響比較大的系統(tǒng)性分析,包括訓(xùn)練系統(tǒng),食品采購系統(tǒng)、人員管理系統(tǒng)以及醫(yī)療衛(wèi)生系統(tǒng)。針對食品采購采購系統(tǒng)建立數(shù)據(jù)模型。

二、在部隊(duì)食品采購系統(tǒng)中的應(yīng)用以及其價值評價

在部隊(duì)食品采購系統(tǒng)實(shí)際應(yīng)用工程中,其實(shí)可以運(yùn)用MicrosoftSQLServerAnalysisServices來對數(shù)據(jù)進(jìn)行分析,并且在數(shù)據(jù)挖掘過程中對多維數(shù)據(jù)進(jìn)行描述與查找起到一定作用。因?yàn)槎嗑S數(shù)據(jù)比較復(fù)雜,增長的也比較快,因此,進(jìn)行手動查找是很困難的,數(shù)據(jù)挖掘技術(shù)提供的計(jì)算模式可以很好的對數(shù)據(jù)進(jìn)行分析與查找。在建設(shè)部隊(duì)食品采購倉庫數(shù)據(jù)的時候,數(shù)據(jù)內(nèi)容主要包括了人員的健康、兵員的飲食以及訓(xùn)練等,進(jìn)行數(shù)據(jù)挖掘主要包括以下內(nèi)容:第一,把每個主題信息數(shù)據(jù)進(jìn)行收集、匯總、分析等,對人員情況、健康、飲食、訓(xùn)練等進(jìn)行合理分析;第二,多維分析數(shù)據(jù)信息。根據(jù)部隊(duì)的實(shí)際情況,利用數(shù)據(jù)挖掘技術(shù)對部隊(duì)人員健康、飲食、訓(xùn)練等數(shù)據(jù)信息進(jìn)行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內(nèi)在關(guān)系。根據(jù)數(shù)據(jù)庫中許多面向主題的歷史數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析與演算得到部隊(duì)人員的訓(xùn)練和健康情況與部隊(duì)飲食之間內(nèi)在關(guān)系,以便于為部隊(duì)食品采購提供合理的、有效的保障,從而提高部隊(duì)整體人員的健康水平、身體素質(zhì)以及訓(xùn)練質(zhì)量,對提高我國部隊(duì)?wèi)?zhàn)斗力有著深遠(yuǎn)的意義。

三、結(jié)束語

篇8

(荊楚理工學(xué)院 計(jì)算機(jī)工程學(xué)院,湖北 荊門 448000)

摘 要:本文旨在研究數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理技術(shù),首先通過簡單介紹數(shù)據(jù)挖掘的基本概念以及數(shù)據(jù)挖掘的邏輯構(gòu)成,介紹了數(shù)據(jù)預(yù)處理在整個數(shù)據(jù)挖掘過程中所處的階段,然后從數(shù)據(jù)預(yù)處理的數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)簡化等數(shù)據(jù)預(yù)處理操作入手,詳細(xì)介紹了填充缺失值、弱化噪聲數(shù)據(jù)、數(shù)據(jù)集成等數(shù)據(jù)預(yù)處理技術(shù),最后給予專門的數(shù)據(jù)預(yù)處理的流程來實(shí)現(xiàn)數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理的過程.

關(guān)鍵詞 :數(shù)據(jù)預(yù)處理;噪聲數(shù)據(jù);數(shù)據(jù)冗余

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1673-260X(2015)03-0005-02

1 引言

隨著科學(xué)技術(shù)不斷發(fā)展,計(jì)算機(jī)信息技術(shù)在各個領(lǐng)域中得到了廣泛應(yīng)用,尤其是在原材料采購、金融、通信等方面,數(shù)據(jù)存儲和數(shù)據(jù)處理等技術(shù)更是被各個企業(yè)用來記錄企業(yè)運(yùn)營過程中各種信息數(shù)據(jù)的記錄和處理,以方便日后的企業(yè)財務(wù)管理和信息核對等操作.隨著時間的推移,各個領(lǐng)域的不同企業(yè)的數(shù)據(jù)信息存儲量越來越大,過量信息的處理是各個信息處理行業(yè)不得不面對的問題.同時由于這些信息對于日后用戶信息分類、信息推送、企業(yè)的決策等方面起著非常重要的作用,不可能人為地刪減信息來減少數(shù)據(jù)處理工作量,所以如何從爆炸式的數(shù)據(jù)信息中及時地提取有用的數(shù)據(jù)進(jìn)而為企業(yè)的各種信息分類和決策提供合理、科學(xué)的數(shù)據(jù)決策依據(jù),已經(jīng)成為了我們當(dāng)前面臨的亟需解決的重要課題.為了能夠使海量數(shù)據(jù)成為寶貴的資源,必須采取數(shù)據(jù)挖掘技術(shù)手段,結(jié)合相關(guān)的業(yè)務(wù)決策和企業(yè)戰(zhàn)略發(fā)展計(jì)劃,才能使企業(yè)在經(jīng)濟(jì)全球化的浪潮中在競爭日益激烈的環(huán)境下奪得先機(jī)而立于不敗之地.

2 數(shù)據(jù)挖掘及其過程介紹

數(shù)據(jù)挖掘的英文名稱為Data Mining(DM),是從企業(yè)的大型關(guān)系型數(shù)據(jù)庫中或數(shù)據(jù)倉庫中提取一些人們感興趣的潛在有用的信息數(shù)據(jù)處理過程,是一門從大型關(guān)系型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的預(yù)測性信息的新技術(shù).

數(shù)據(jù)挖掘的數(shù)據(jù)來源是數(shù)據(jù)挖掘技術(shù)處理的大數(shù)據(jù),常見數(shù)據(jù)挖掘的數(shù)據(jù)來源于有關(guān)系型數(shù)據(jù)庫、事務(wù)型數(shù)據(jù)庫等,然后經(jīng)過一定的清理和集成的過程以數(shù)據(jù)倉庫的形式存儲起來,為數(shù)據(jù)挖掘提供數(shù)據(jù)源.數(shù)據(jù)挖掘的邏輯過程是利用人工智能的、機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘技術(shù)對源數(shù)據(jù)進(jìn)行數(shù)據(jù)處理并提取對企業(yè)決策有用的數(shù)據(jù)過程.數(shù)據(jù)挖掘的過程是一個完整的系統(tǒng),是結(jié)合了多項(xiàng)技術(shù)完整的一個整體.從數(shù)據(jù)源開始,根據(jù)數(shù)據(jù)的挖掘?qū)τ诖髷?shù)據(jù)處理的邏輯過程大致可以分為以下:目標(biāo)數(shù)據(jù)樣本的準(zhǔn)備、數(shù)據(jù)挖掘過程以及挖掘結(jié)果分為三級,包含多個處理步驟,如圖1.所示,為數(shù)據(jù)挖掘的邏輯過程結(jié)構(gòu)示意圖.

由圖1可知,整個數(shù)據(jù)挖掘的過程包括從最原始的數(shù)據(jù)開始數(shù)據(jù)選取的過程,這里的原始數(shù)據(jù)一般指的是存在企業(yè)各種信息管理數(shù)據(jù)庫中的海量數(shù)據(jù),是雜亂無章的、不能以專業(yè)的良好的形式展現(xiàn)出來的原始數(shù)據(jù).通數(shù)據(jù)選取的過程,主要是選擇能夠參與數(shù)據(jù)挖掘過程的數(shù)據(jù),從而生成目標(biāo)數(shù)據(jù).得到目標(biāo)數(shù)據(jù)之后,就需要對其進(jìn)行數(shù)據(jù)預(yù)處理的過程,囊括了數(shù)據(jù)清洗(Data Cleaning)、數(shù)據(jù)變換(Data Transformation)、數(shù)據(jù)集成(Data Integration)、數(shù)據(jù)簡化(Data Reduction)等數(shù)據(jù)處理過程,主要包括了消除噪聲數(shù)據(jù)、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、按成數(shù)據(jù)類型轉(zhuǎn)換等數(shù)據(jù)操作.得到預(yù)處理數(shù)據(jù)之后,就可以利用數(shù)據(jù)挖掘的技術(shù),對這些數(shù)據(jù)進(jìn)行智能挖掘和分類的過程,主要是基于某種思想,設(shè)計(jì)相應(yīng)的算法,最后通過對預(yù)處理之后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘算法的處理,最終是生成而分類的數(shù)據(jù).當(dāng)然,這時數(shù)據(jù)挖掘的過程并沒有結(jié)束,這些數(shù)據(jù)只是以某種數(shù)據(jù)挖掘的思想進(jìn)行分類存儲,并沒有以具有現(xiàn)實(shí)意義的形式展現(xiàn)出來,所以此時還需要開發(fā)人員,基于自己的業(yè)務(wù)邏輯和需求,開發(fā)相應(yīng)的分析或評估功能,對數(shù)據(jù)挖掘之后的數(shù)據(jù)進(jìn)行形象顯示,從而形成對企業(yè)有用的知識.

3 數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中必不可少的一部分,進(jìn)行數(shù)據(jù)預(yù)處理過程的主要原因是因?yàn)閺脑紨?shù)據(jù)選取的目標(biāo)數(shù)據(jù),是以原有的數(shù)據(jù)庫初始定義的格式和結(jié)構(gòu)進(jìn)行存儲的數(shù)據(jù),存在很多空白數(shù)據(jù)、重復(fù)數(shù)據(jù)、復(fù)雜數(shù)據(jù)、不可用數(shù)據(jù)等,這些數(shù)據(jù)對于數(shù)據(jù)挖掘來說非常不適用,而且會增加數(shù)據(jù)挖掘的復(fù)雜度,所以需要數(shù)據(jù)預(yù)處理的過程來對目標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,從而生成預(yù)處理之后的數(shù)據(jù).由圖1.可以看出,數(shù)據(jù)預(yù)處理的過程對于數(shù)據(jù)挖掘來說是非常重要的,是為后期數(shù)據(jù)挖掘過程奠定堅(jiān)實(shí)基礎(chǔ)的過程.常見的數(shù)據(jù)預(yù)處理的過程包括,數(shù)據(jù)清洗(Data Cleaning)、數(shù)據(jù)變換(Data Transformation)、數(shù)據(jù)集成(Data Integration)、數(shù)據(jù)簡化(Data Reduction)等內(nèi)容.其中數(shù)據(jù)清洗(Data Cleaning)的主要操作就是在根據(jù)一定的原則和規(guī)定對目標(biāo)數(shù)據(jù)樣本進(jìn)行消除無關(guān)數(shù)據(jù)或者噪聲數(shù)據(jù)的操作,包括處理數(shù)據(jù)樣本內(nèi)的重復(fù)數(shù)據(jù)以及缺省數(shù)據(jù)等.數(shù)據(jù)變換(Data Transformation)的操作主要是對處理后的數(shù)據(jù)進(jìn)行降維處理,從而消除原始特征力度無效屬性,找到真正有用的特征,以方便后期數(shù)據(jù)挖掘的處理和計(jì)算.數(shù)據(jù)集成(Data Integration)的操作主要是合并目標(biāo)數(shù)據(jù)樣本內(nèi)存在的異構(gòu)數(shù)據(jù),主要包括數(shù)據(jù)的選擇、不同數(shù)據(jù)庫文件之間的數(shù)據(jù)沖突以及不一致等問題的處理操作.數(shù)據(jù)簡化(Data Reduction)的過程是在挖掘目標(biāo)的有用特征以及對數(shù)據(jù)自身內(nèi)容理解的基礎(chǔ)上,盡量保持目標(biāo)數(shù)據(jù)樣本原有的數(shù)據(jù)特性的基礎(chǔ)上,最大限度地對目標(biāo)數(shù)據(jù)樣本進(jìn)行精簡處理的過程,主要包括數(shù)據(jù)樣本的參考屬性選擇以及數(shù)據(jù)抽樣的數(shù)據(jù)處理.

3.1數(shù)據(jù)預(yù)處理主要方法

數(shù)據(jù)預(yù)處理的主要方法是填充目標(biāo)數(shù)據(jù)缺失值、消弱噪聲數(shù)據(jù)、數(shù)據(jù)集成等.

在我們設(shè)計(jì)信息管理系統(tǒng)伊始,會考慮到各種各樣的問題,所以在設(shè)計(jì)數(shù)據(jù)存儲表時會牽涉到各方面的信息,而在實(shí)際的應(yīng)用過程中,之前設(shè)計(jì)的數(shù)據(jù)表的內(nèi)容有很多時候并未有實(shí)際的數(shù)據(jù),而是使用了缺失值存儲,如果這些數(shù)據(jù)作為數(shù)據(jù)挖掘處理,會帶來諸多不便,所以對于這些缺失值的處理,可以直接使用人工填寫的方法來彌補(bǔ)缺失值,或者用該字段的所有屬性值的均值,其他同類的屬性值,利用回歸或貝葉形式化的推理工具得出的最有可能值或最鄰近的值的來代替,從而對缺失值進(jìn)行填充彌補(bǔ),形成完成的數(shù)據(jù).

此外,在目標(biāo)數(shù)據(jù)中,統(tǒng)一類的屬性值可能有某些偏離正常數(shù)據(jù),這些數(shù)據(jù)我們稱之為噪聲數(shù)據(jù),對于噪聲數(shù)據(jù)的數(shù)據(jù)預(yù)處理也需要專門的方法或技術(shù)來對其進(jìn)行噪聲消除.常見的方法有分箱法,即對某一個區(qū)域內(nèi)的近鄰數(shù)據(jù)進(jìn)行觀察,從而形成局部噪聲消除;回歸法則是利用回歸函數(shù)找出某兩個屬性值的回歸線,通過一個屬性來對另外一個屬性進(jìn)行預(yù)測;中心點(diǎn)距離法就是計(jì)算目標(biāo)數(shù)據(jù)的該屬性值的平均值,然后計(jì)算所有數(shù)據(jù)對象與中心點(diǎn)的歐氏距離,并對其進(jìn)行排序,而后根據(jù)數(shù)據(jù)性質(zhì)和背景知識確定一個距離閾值,而與中心點(diǎn)距離大于該閾值的數(shù)據(jù)對象則為孤立點(diǎn).

在我們設(shè)計(jì)信息系統(tǒng)數(shù)據(jù)表時,各個表格之間需要存在一些冗余來提高各個表之間的關(guān)聯(lián)性,方便信息系統(tǒng)的數(shù)據(jù)表的關(guān)聯(lián)查詢.這也就導(dǎo)致了在得到的目標(biāo)數(shù)據(jù)中,可能是因?yàn)閿?shù)據(jù)信息的相同或者業(yè)務(wù)邏輯數(shù)據(jù)信息的類似,會有一部分的數(shù)據(jù)信息冗余,這些冗余對于數(shù)據(jù)挖掘來說也是沒有必要的,或者最后需要數(shù)據(jù)挖掘的對象是來自不通數(shù)據(jù)庫內(nèi)容的信息,所以要通過數(shù)據(jù)集成的方法來對冗余數(shù)據(jù)或者不同數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)進(jìn)行集成.在使用數(shù)據(jù)集成的方法來對數(shù)據(jù)信息進(jìn)行預(yù)處理時,需要考慮到以下問題,第一就是集成的模式與原數(shù)據(jù)對象之間的匹配度的問題,現(xiàn)實(shí)生活中的很多數(shù)據(jù)存儲的形式多種多樣,在數(shù)據(jù)庫存儲的格式、類型、形式也不盡相同,而統(tǒng)一業(yè)務(wù)數(shù)據(jù)在不同的數(shù)據(jù)庫之間存儲后,能否最終以一種統(tǒng)一的數(shù)據(jù)格式來存儲;第二個問題就是不同屬性之間的冗余度的問題,不同的屬性值之間是否冗余,是否需要刪除某個屬性值來使最終得到的數(shù)據(jù)最大化精簡.關(guān)于不同屬性之間的相關(guān)度,可以通過專門的公式進(jìn)行計(jì)算,假如判斷A屬性和B屬性兩者之間是否是相互冗余的,可以通過以下公式來計(jì)算.

3.2數(shù)據(jù)預(yù)處理過程

數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的一個前期過程,是一個完整的數(shù)據(jù)操作階段,上述的數(shù)據(jù)預(yù)處理的操作步驟和預(yù)處理方法都是在數(shù)據(jù)預(yù)處理過程中應(yīng)用到的.在整個數(shù)據(jù)預(yù)處理的過程中,首先需要得到目標(biāo)數(shù)據(jù),然后利用數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)簡化等數(shù)據(jù)挖掘的操作,利用填充缺失值、弱化噪聲數(shù)據(jù)、數(shù)據(jù)集成等數(shù)據(jù)預(yù)處理方法,來完成數(shù)據(jù)預(yù)處理的過程.整個過程的實(shí)施,可以通過人工檢查的方式來實(shí)現(xiàn),也可以通過編寫專門的數(shù)據(jù)預(yù)處理軟件來實(shí)現(xiàn),或針對某個特定區(qū)域或接近某一類應(yīng)用于的數(shù)據(jù)預(yù)處理問題等來實(shí)現(xiàn)數(shù)據(jù)預(yù)處理的前期操作.然后要遵循某種模式或者基于某種統(tǒng)計(jì)方法、識別方法等發(fā)現(xiàn)目標(biāo)數(shù)據(jù)中的異常數(shù)據(jù),同時對這些異常數(shù)據(jù)進(jìn)行處理,例如通過校驗(yàn)的方法來識別元素的一致性以及內(nèi)容上的錯誤,通過觀察記錄來找出數(shù)據(jù)中的重復(fù)或異常的數(shù)據(jù)等.最后要對這些數(shù)據(jù)進(jìn)行記錄,并以檔案化的形式存儲起來,從而使用戶對數(shù)據(jù)有更加深刻的認(rèn)識.

4 總結(jié)

數(shù)據(jù)挖掘的過程是一個復(fù)雜的過程,數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘中對目標(biāo)數(shù)據(jù)進(jìn)行預(yù)先處理的過程,為后期的數(shù)據(jù)挖掘過程奠定基礎(chǔ).主要的數(shù)據(jù)預(yù)處理操作包括數(shù)據(jù)清洗、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)簡化等,并通過填充缺失值、弱化噪聲數(shù)據(jù)、數(shù)據(jù)集成等技術(shù)并給予專門的數(shù)據(jù)預(yù)處理的流程來實(shí)現(xiàn)數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理的過程.

參考文獻(xiàn):

〔1〕白鳳偉.數(shù)據(jù)預(yù)處理系統(tǒng)的幾個關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].北京交通大學(xué),2012.

篇9

[關(guān)鍵詞] 數(shù)據(jù)流 數(shù)據(jù)流挖掘 模型 算法

近年來,隨著計(jì)算機(jī)技術(shù)和通信網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,由于眾多應(yīng)用領(lǐng)域的需求,數(shù)據(jù)流處理問題,特別是基于數(shù)據(jù)流的挖掘問題已受到越來越多的研究人員關(guān)注。

一、數(shù)據(jù)流以及數(shù)據(jù)流挖掘

1.數(shù)據(jù)流。數(shù)據(jù)流由一系列按序到達(dá)的數(shù)據(jù)組成,也可看作是信息傳輸過程中經(jīng)編碼處理的數(shù)字信號串。若令t表示任一時間戳,at表示在t時刻到達(dá)的數(shù)據(jù)元素,則數(shù)據(jù)流可以表示為無限集合{…,at-1,,at,at+1,…}。

2.數(shù)據(jù)流挖掘。數(shù)據(jù)流挖掘就是在數(shù)據(jù)流上發(fā)現(xiàn)提取隱含在其中的。人們事先不知道的,但又潛在有用的信息和知識的過程。流數(shù)據(jù)挖掘方面的研究主要包括多數(shù)據(jù)流挖掘和單數(shù)據(jù)流挖掘,挖掘多條數(shù)據(jù)流的主要目的是分析多條并行到達(dá)的數(shù)據(jù)流之間的關(guān)聯(lián),對單數(shù)據(jù)流的挖掘則涵蓋了分類、頻繁模式挖掘、聚類等多項(xiàng)傳統(tǒng)數(shù)據(jù)挖掘中的主要任務(wù),挖掘變化的數(shù)據(jù)流是一項(xiàng)特殊的任務(wù),目前主要是以單數(shù)據(jù)流為對象進(jìn)行研究的。

二、數(shù)據(jù)流挖掘的模型

按算法處理數(shù)據(jù)流時所選取的時序范圍,數(shù)據(jù)流模型可分為以下幾類。

1.快照模型:處理數(shù)據(jù)的范圍限制在兩個預(yù)定義的時間戳之間。

2.界標(biāo)模型:處理數(shù)據(jù)的范圍從某一個已知的初始時間點(diǎn)到當(dāng)前時間點(diǎn)為止。

3.滑動窗口模型:處理數(shù)據(jù)的范圍由某個固定大小的滑動窗口確定,此滑動窗口的終點(diǎn)永遠(yuǎn)為當(dāng)前時刻,其中,滑動窗口的大小可以由一個時間區(qū)間定義,也可以由窗口所包含的數(shù)據(jù)項(xiàng)數(shù)目定義。

典型的數(shù)據(jù)流挖掘模型如圖所示。

三、數(shù)據(jù)流挖掘算法

目前數(shù)據(jù)流挖掘方面的研究成果主要集中在數(shù)據(jù)流的聚類、分類和頻繁模式挖掘方面。

1.數(shù)據(jù)流分類算法。數(shù)據(jù)流分類就是提出一個分類模型(或函數(shù)),并通過單遍掃描數(shù)據(jù)流,持續(xù)地利用分類模型將數(shù)據(jù)對象(數(shù)據(jù)流的數(shù)據(jù)點(diǎn)或元組等)映射到某一個給定的類別中。P.Domingos 和 G..Hulten他們提出了一種Hoeffding決策樹分類算法VFDT(Very Fast Decision Tree),使用恒定的內(nèi)存大小和時間處理每個樣本,有效地解決了時間、內(nèi)存和樣本對數(shù)據(jù)挖掘,特別是高速數(shù)據(jù)流上的數(shù)據(jù)挖掘的限制。VFDT使用信息熵選擇屬性,通過建立Hoeffding樹來進(jìn)行決策支持,并使用 Hoeffding 約束來保證高精度地處理高速數(shù)據(jù)流。

由于VFDT算法假設(shè)數(shù)據(jù)是從靜態(tài)分布中隨機(jī)獲取的,所以不能反映數(shù)據(jù)隨時間變化的趨勢。因此,P.Domingos和G..Hulten引入了滑動窗口技術(shù),對VFDT算法進(jìn)行改進(jìn),提出了CVFDT (Concept-adapting Very Fast Decision Tree)算法,除了保留VFDT算法在速度和精度方面的優(yōu)點(diǎn)外,增加了對數(shù)據(jù)產(chǎn)生過程中變化趨勢的檢測和響應(yīng),使得算法更好地適應(yīng)對高速時變流數(shù)據(jù)的分類。

2.數(shù)據(jù)流聚類算法。流數(shù)據(jù)本身所具有的特征使得傳統(tǒng)的聚類算法不可能直接應(yīng)用于(甚至不能應(yīng)用于)流數(shù)據(jù)聚類, 數(shù)據(jù)流聚類算法就是通過單遍掃描數(shù)據(jù)流,持續(xù)地將數(shù)據(jù)流數(shù)據(jù)對象(數(shù)據(jù)點(diǎn)、元組等)分組成多個類或簇,在同一個簇中的數(shù)據(jù)對象之間具有較高的相似度,而不同簇間的數(shù)據(jù)對象的相似度很小。近年來,學(xué)者們提出的應(yīng)用于大規(guī)模數(shù)據(jù)集的一趟聚類算法,如Squeezer算法和BIRCH算法,也可以應(yīng)用于某些數(shù)據(jù)流問題,也有學(xué)者提出了針對流數(shù)據(jù)的聚類算法,典型的有STREAM算法和CluStream算法。

3.數(shù)據(jù)流頻繁模式挖掘算法。數(shù)據(jù)流頻繁模式挖掘就是單遍掃描數(shù)據(jù)流,來連續(xù)地發(fā)現(xiàn)其中的頻繁項(xiàng)集。頻繁項(xiàng)集是滿足最小支持度的項(xiàng)集(Itemset)。對于數(shù)據(jù)流上的頻繁項(xiàng)集挖掘的研究方法大多數(shù)都采用ε-算法和基于FP-tree模型的有效算法FP-stream。FP-stream算法采用傾斜時間窗口技術(shù)來維護(hù)頻繁模式以解決時間敏感問題,研究了在數(shù)據(jù)流中構(gòu)造、維護(hù)和更新 FP-stream 結(jié)構(gòu)的有效算法,提出了計(jì)算和維護(hù)所有頻率模式并動態(tài)更新它們。建立一個框架來挖掘帶近似支持度的時間敏感模式,為每個模式在多時間粒度上增量維護(hù)一個傾斜時間窗口,在這種框架下可以構(gòu)建和回答感興趣的查詢。

四、結(jié)語

由于數(shù)據(jù)流具有獨(dú)特的性質(zhì),對其進(jìn)行挖掘是一個挑戰(zhàn)性的問題,當(dāng)前的有關(guān)算法的研究有很多是在傳統(tǒng)的增量式挖掘技術(shù)基礎(chǔ)之上發(fā)展而來的,探索數(shù)據(jù)流挖掘技術(shù)與傳統(tǒng)的靜態(tài)數(shù)據(jù)挖掘技術(shù)之間的本質(zhì)區(qū)別,提出更有效、新穎、快速挖掘算法是當(dāng)前研究面臨的重要問題。

參考文獻(xiàn):

[1]Gibbons P B,Matias Y:New sampling based summary statistic for improving approximate query answers[A].Proc of the ACM SIGMOD Int’l Confon Management of Data [C].Seattle:ACMPress,1998.331~342

[2]金澈清 錢衛(wèi)寧 周傲英:流數(shù)據(jù)分析與管理綜述.軟件學(xué)報,2004,15(8):1172~1181

篇10

關(guān)聯(lián)規(guī)則最初是針對購物籃分析問題提出的,目的是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(TransactionDatabase)中不同商品之間的聯(lián)系。關(guān)聯(lián)規(guī)則是形如A=》B的蘊(yùn)涵式,其中A稱為該關(guān)聯(lián)規(guī)則的前項(xiàng),B稱為該關(guān)聯(lián)規(guī)則的后項(xiàng)。事務(wù),是一個明確定義的商業(yè)行為,如顧客在商店購物就是一次典型的事務(wù)。由用戶設(shè)定的支持度和置信度的門檻值,當(dāng)sup-port(A=>B)、confidence(A=>B)分別大于等于各自的門檻值時,認(rèn)為A=>B是有趣的,此兩值稱為最小支持度(minsupport)和最小置信度(minconfidence)。同時滿足minsupport和minconfidence的這種關(guān)聯(lián)規(guī)則就叫做強(qiáng)的關(guān)聯(lián)規(guī)則。設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事物的集合,當(dāng)項(xiàng)集的支持計(jì)數(shù)≥D中事務(wù)總數(shù)|D|與minsup-port的乘積時,就叫做頻繁項(xiàng)集,當(dāng)項(xiàng)集的支持計(jì)數(shù)可能≥D中事務(wù)總數(shù)|D|與minsupport的乘積時,就叫做侯選項(xiàng)集。所有侯選項(xiàng)集K-項(xiàng)集的集合記作Ck,所有頻繁項(xiàng)集K-項(xiàng)集的集合常記作Lk,很明顯Lk奐Ck。如果僅依賴最小支持度和最小置信度這兩個參數(shù)的限制,所挖掘出的強(qiáng)關(guān)聯(lián)規(guī)則不一定是用戶感興趣的,因此,用戶可以根據(jù)實(shí)際應(yīng)用的需求,再結(jié)合自身的領(lǐng)域知識,通過選擇與實(shí)際分析任務(wù)有關(guān)的數(shù)據(jù)集,設(shè)置不同的參數(shù),限定前項(xiàng)和后項(xiàng)的個數(shù),選擇前項(xiàng)和后項(xiàng)包含的屬性等操作,對關(guān)聯(lián)規(guī)則的挖掘進(jìn)行約束。

2模糊集理論的引入

在討論實(shí)際問題的時候,需要判定模糊概念涵義,如判斷某個數(shù)據(jù)在模糊集的定義和歸屬,這時就需要普通集合與模糊集合可依某種法則相互轉(zhuǎn)換。模糊理論中的截集是模糊集合和普通集合之間相互轉(zhuǎn)換的一座橋梁。

3基于事務(wù)間數(shù)值型關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法

假設(shè)有一就業(yè)數(shù)據(jù)庫,先通過數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個單位。由此就得到了經(jīng)過偏置后的數(shù)據(jù)庫記錄。再依滑動窗口方法,設(shè)maxspan=1(該值可以依實(shí)際情況的需要來定),就可將偏置后的數(shù)據(jù)庫數(shù)據(jù)整理轉(zhuǎn)化為擴(kuò)展事務(wù)數(shù)據(jù)庫。再把擴(kuò)展事務(wù)數(shù)據(jù)庫記錄通過隸屬度函數(shù)轉(zhuǎn)化為對應(yīng)的隸屬度。

4結(jié)語