數(shù)據(jù)挖掘總結(jié)范文
時(shí)間:2023-04-23 11:55:45
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇數(shù)據(jù)挖掘總結(jié),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
[關(guān)鍵詞]聯(lián)通業(yè)務(wù) 客戶關(guān)系 數(shù)據(jù)挖掘
中圖分類號(hào):TN 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2015)23-0208-01
一 概述
客戶決定企業(yè)命運(yùn)。企業(yè)關(guān)注重點(diǎn)從產(chǎn)品逐步轉(zhuǎn)換到客戶,逐漸形成客戶為中心的客戶關(guān)系管理理念??蛻絷P(guān)系管理是信息技術(shù)和商業(yè)發(fā)展過(guò)程中得出的理論體系,客戶管理需要客戶的支持??蛻絷P(guān)系管理是企業(yè)利用信息技術(shù)和企業(yè)生產(chǎn)銷售相結(jié)的產(chǎn)物??蛻絷P(guān)系管理核心價(jià)值就是實(shí)現(xiàn)客戶價(jià)值??蛻絷P(guān)系管理利用計(jì)算機(jī)技術(shù),實(shí)現(xiàn)市場(chǎng)信息化、銷售自動(dòng)化過(guò)程、對(duì)客戶分析的全過(guò)程。客戶關(guān)系管理可以使企業(yè)及時(shí)了解客戶實(shí)際情況,增強(qiáng)客戶對(duì)企業(yè)歸屬感和信任感。它是一種全新的管理客戶模式。數(shù)據(jù)挖掘在客戶關(guān)系管理研究與實(shí)踐,大大促進(jìn)客戶價(jià)值實(shí)現(xiàn)。數(shù)據(jù)挖掘?qū)蛻敉诰蚪Y(jié)果會(huì)給企業(yè)帶來(lái)指導(dǎo)意見(jiàn),決定企業(yè)未來(lái)發(fā)展方向。
聯(lián)通的客戶關(guān)系管理系統(tǒng)是基于客戶戰(zhàn)略的,它為企業(yè)傳遞的是一種新的客戶服務(wù)理念,是聯(lián)通客戶需求的風(fēng)向標(biāo),它直接影響聯(lián)通如何認(rèn)識(shí)客戶以及如何對(duì)待客戶, 也直接影響聯(lián)通公司的客戶服務(wù)形象。通過(guò)數(shù)據(jù)挖掘系統(tǒng)與客戶管理系統(tǒng)的結(jié)合,可以有效的實(shí)現(xiàn)對(duì)客戶消費(fèi)模式和客戶市場(chǎng)推廣的分析,實(shí)現(xiàn)對(duì)客戶的動(dòng)態(tài)防欺詐、流失分析及競(jìng)爭(zhēng)對(duì)手分析。正確有效的運(yùn)用數(shù)據(jù)挖掘意義重大。
二 數(shù)據(jù)挖掘的步驟
1.理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源,進(jìn)行數(shù)據(jù)收集
大量全面豐富的數(shù)據(jù)是數(shù)據(jù)挖掘的前提,沒(méi)有數(shù)據(jù),數(shù)據(jù)挖掘也就無(wú)從做起。數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與規(guī)劃工作,事實(shí)上許多專家都認(rèn)為整套數(shù)據(jù)挖掘的過(guò)程中,有80%的時(shí)間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段,其中包括數(shù)據(jù)的凈化、數(shù)據(jù)格式轉(zhuǎn)換、變量整合,以及數(shù)據(jù)表的鏈接??梢?jiàn),在進(jìn)行數(shù)據(jù)挖掘技術(shù)的分析之前,還有許多準(zhǔn)備工作要完成。數(shù)據(jù)收集是數(shù)據(jù)挖掘的首要步驟。
2.整合與檢查數(shù)據(jù)
收集到的數(shù)據(jù)必須是有用的,避免可能存在自身的不一致性,或者有缺失數(shù)據(jù)的存在等,因此數(shù)據(jù)的整理是必須的。同時(shí),通過(guò)數(shù)據(jù)整理,可以對(duì)數(shù)據(jù)做簡(jiǎn)單的泛化處理,從而在原始數(shù)據(jù)的基礎(chǔ)上得到更為豐富的數(shù)據(jù)信息,進(jìn)而便于下一步數(shù)據(jù)挖掘的順利進(jìn)行。
3.利建立模型和假設(shè)
主要采用時(shí)序算法、聚類算法、關(guān)聯(lián)算法等,根據(jù)采集數(shù)據(jù)建立模型。
4.模型評(píng)估
模型建立完畢后,需要驗(yàn)證模型的正確性,并進(jìn)行調(diào)整。應(yīng)該利用未參與建模的數(shù)據(jù)對(duì)模型進(jìn)行檢驗(yàn)。這樣做的原因是按照使用建模的數(shù)據(jù)進(jìn)行檢驗(yàn),由于模型就是按照這些數(shù)據(jù)建立的,檢驗(yàn)結(jié)果自然會(huì)很好。但是一旦運(yùn)用到實(shí)際數(shù)據(jù)中,就會(huì)產(chǎn)生很大的偏差。檢驗(yàn)的方法是對(duì)已知客戶狀態(tài)的數(shù)據(jù)利用模型進(jìn)行預(yù)測(cè),并將所得到的模型預(yù)測(cè)值,和實(shí)際的客戶狀態(tài)相比較,預(yù)測(cè)正確值最多的模型就是最優(yōu)模型。不斷重復(fù)進(jìn)行數(shù)據(jù)挖掘一評(píng)估過(guò)程,多次的循環(huán)反復(fù),以達(dá)到預(yù)期的效果。
5.決策分析
數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結(jié)果,結(jié)合實(shí)際情況,調(diào)整競(jìng)爭(zhēng)策略等。
三.數(shù)據(jù)挖掘在聯(lián)通客戶管理業(yè)務(wù)中的作用
1 數(shù)據(jù)總結(jié)
數(shù)據(jù)總結(jié)目的是對(duì)大量的數(shù)據(jù)進(jìn)行濃縮,將數(shù)據(jù)庫(kù)中的有關(guān)數(shù)據(jù)從較低的個(gè)體層次抽象總結(jié)到較高的總體層次上,從而實(shí)現(xiàn)對(duì)原始基本數(shù)據(jù)的總體把握。是數(shù)據(jù)挖掘的基本作用。用統(tǒng)計(jì)學(xué)中的方法計(jì)算出數(shù)據(jù)庫(kù)的各個(gè)數(shù)據(jù)項(xiàng)的總和、平均、方差、最大值、最小值等基本描述統(tǒng)計(jì)量,或者通過(guò)利用統(tǒng)計(jì)圖形工具,對(duì)數(shù)據(jù)制作直方圖、餅狀圖等,是最簡(jiǎn)單的數(shù)據(jù)總結(jié)方法。另一種廣泛使用的數(shù)據(jù)總結(jié)方法是聯(lián)機(jī)分析處理,是對(duì)用戶當(dāng)前及歷史數(shù)據(jù)進(jìn)行分析、輔助領(lǐng)導(dǎo)決策,主要通過(guò)多維數(shù)據(jù)的查詢、旋轉(zhuǎn)、鉆取和切片等關(guān)鍵技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析和報(bào)表。
2 關(guān)聯(lián)分析
數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說(shuō),兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性。
3 分類
分析數(shù)據(jù)的各種屬性,一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中,并預(yù)測(cè)新數(shù)據(jù)將屬于哪一個(gè)組。
4 聚類
聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個(gè)集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。
四.數(shù)據(jù)挖掘技術(shù)在聯(lián)通客戶管理管理方面的應(yīng)用
1.客戶市場(chǎng)推廣分析
通過(guò)優(yōu)惠策略預(yù)測(cè)仿真的方法,利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)優(yōu)惠策略的仿真。根據(jù)數(shù)據(jù)挖掘模型,進(jìn)行模擬計(jì)費(fèi)和模擬出賬,其仿真結(jié)果可以揭示優(yōu)惠策略中存在的問(wèn)題,并進(jìn)行相應(yīng)的調(diào)整優(yōu)化,以達(dá)到優(yōu)惠促銷活動(dòng)的收益最大化。
2.客戶消費(fèi)模式分析
客戶分類是客戶數(shù)據(jù)分析基礎(chǔ),數(shù)據(jù)挖據(jù)對(duì)客戶分類使用聚類和分類。通過(guò)分類可以發(fā)現(xiàn)不同客戶群體的習(xí)慣和規(guī)律,找到客戶價(jià)值點(diǎn),準(zhǔn)確預(yù)測(cè)客戶消費(fèi)方向??蛻舴诸愖屖袌?chǎng)營(yíng)銷活動(dòng)更有目的性,提高市場(chǎng)營(yíng)銷效率,企業(yè)合理配置企業(yè)資源??蛻舴诸惤Y(jié)果實(shí)現(xiàn)客戶利益最大化。如固話及移動(dòng)話費(fèi)行為分析,是對(duì)客戶歷年來(lái)長(zhǎng)話、市話、信息臺(tái)的大量詳單數(shù)據(jù)以及客戶檔案資料等相關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,增值業(yè)務(wù)話費(fèi)分析,結(jié)合客戶的分類,可以從消費(fèi)能力、消費(fèi)習(xí)慣、消費(fèi)周期等諸方面對(duì)客戶的話費(fèi)行為進(jìn)行分析和預(yù)測(cè),從而為聯(lián)通全業(yè)務(wù)運(yùn)營(yíng)商的相關(guān)經(jīng)營(yíng)決策提供依據(jù)。
3.客戶流失分析
這是根據(jù)已有的客戶流失數(shù)據(jù),建立客戶屬性、服務(wù)屬性、客戶消費(fèi)情況等數(shù)據(jù)與客戶流失概率相關(guān)聯(lián)的數(shù)學(xué)模型,找出這些數(shù)據(jù)之間的關(guān)系,給出明確的數(shù)學(xué)公式,并根據(jù)此模型來(lái)監(jiān)控客戶流失的可能性。如果客戶流失的可能性過(guò)高,可通過(guò)促銷等手段來(lái)提高客戶忠誠(chéng)
度,防止客戶流失的發(fā)生,這就徹底改變了以往電信運(yùn)營(yíng)商在成功獲得客戶以后無(wú)法監(jiān)控客戶流失、無(wú)法有效實(shí)現(xiàn)客戶關(guān)懷等狀況。
4.對(duì)客戶欠費(fèi)進(jìn)行分析和動(dòng)態(tài)防欺詐
通過(guò)數(shù)據(jù)挖掘,總結(jié)現(xiàn)存的各種騙費(fèi)及其欠費(fèi)行為的內(nèi)在規(guī)律,并建立一套防欺詐和防欠費(fèi)行為的規(guī)則庫(kù),當(dāng)客戶的話費(fèi)行為與該庫(kù)中規(guī)則吻合時(shí),系統(tǒng)可以提示運(yùn)營(yíng)商相關(guān)部門采取措施,從而降低運(yùn)營(yíng)商的損失風(fēng)險(xiǎn)。
5.競(jìng)爭(zhēng)對(duì)手分析
準(zhǔn)確定位通信群體的屬,預(yù)測(cè)對(duì)手市場(chǎng)政策和活動(dòng)規(guī)律,提前做好市場(chǎng)競(jìng)爭(zhēng)準(zhǔn)備。 通過(guò)對(duì)競(jìng)爭(zhēng)對(duì)手的客戶消費(fèi)行為研究與分析,搭建競(jìng)爭(zhēng)對(duì)手模型。通過(guò)模型研究市場(chǎng),利用對(duì)競(jìng)爭(zhēng)對(duì)手的客戶群體數(shù)量和增長(zhǎng)情況,推出競(jìng)爭(zhēng)對(duì)手的客戶群體。
篇2
[關(guān)鍵詞]零售業(yè);數(shù)據(jù)挖掘;技術(shù);運(yùn)用
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2014)29-0354-01
數(shù)據(jù)挖掘技術(shù)是近年來(lái)興起的被各方關(guān)注的技術(shù)之一,其在實(shí)際應(yīng)用中的顯著優(yōu)勢(shì)。我國(guó)零售業(yè)在近幾年的發(fā)展速度越來(lái)越快,對(duì)零售業(yè)中的量級(jí)較大的數(shù)據(jù)及信息需要專業(yè)化、科學(xué)化、有笑話的提取方法以供零售業(yè)行業(yè)的持續(xù)發(fā)展。
一、 零售業(yè)領(lǐng)域中數(shù)據(jù)挖掘技術(shù)應(yīng)用概況
數(shù)據(jù)挖掘技術(shù)以數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、模糊邏輯等多門學(xué)科的理論為基礎(chǔ)依托,結(jié)合不斷的探索、實(shí)踐、規(guī)律總結(jié)不斷演化出來(lái)的具有高端應(yīng)用價(jià)值的技術(shù)。
(一)零售業(yè)數(shù)據(jù)挖掘技術(shù)的發(fā)展歷程
從數(shù)據(jù)挖掘技術(shù)的發(fā)展可以清晰看出人類對(duì)社會(huì)認(rèn)知的轉(zhuǎn)變歷程。就數(shù)據(jù)挖掘技術(shù)而言,其核心技術(shù)在于數(shù)理統(tǒng)計(jì)理論,人們對(duì)于數(shù)據(jù)、信息的敏感程度可以對(duì)數(shù)據(jù)挖掘技術(shù)的不斷提升有所幫助。鑒于數(shù)據(jù)挖掘技術(shù)的優(yōu)點(diǎn),零售業(yè)領(lǐng)域中復(fù)雜多樣的數(shù)據(jù)屬性,不斷與該項(xiàng)技術(shù)融合,促進(jìn)零售業(yè)領(lǐng)域企業(yè)的商業(yè)利益最大化。
在應(yīng)用數(shù)據(jù)挖掘技術(shù)的眾多行業(yè)中,零售業(yè)可以說(shuō)是最早將此項(xiàng)具有現(xiàn)代化意義的技術(shù)應(yīng)用于自身行業(yè)中的領(lǐng)軍行業(yè)。從摸索階段到現(xiàn)如今的已有基本規(guī)律的狀態(tài),數(shù)據(jù)挖掘技術(shù)的應(yīng)有優(yōu)勢(shì)愈發(fā)凸顯,零售業(yè)相關(guān)企業(yè)期待著更好利用數(shù)據(jù)挖掘技術(shù)促進(jìn)企業(yè)做出有利決策。比如在零售業(yè)領(lǐng)域中關(guān)于數(shù)據(jù)挖掘技術(shù)的經(jīng)典例子包括沃爾瑪超市對(duì)啤酒和尿布在銷售方面的規(guī)律的提煉,以及臺(tái)風(fēng)天氣對(duì)巧克力等食品的更多需求的研究。
在零售業(yè)領(lǐng)域嘗到數(shù)據(jù)挖掘技術(shù)的顯著優(yōu)勢(shì)后,包括制造業(yè)、財(cái)務(wù)金融保險(xiǎn)業(yè)、醫(yī)療企業(yè)等多個(gè)其余行業(yè)也紛紛開(kāi)始效仿,鑒于數(shù)據(jù)挖掘技術(shù)鮮明的實(shí)用性及可操作性,一些公司運(yùn)用數(shù)據(jù)挖掘的成功案例,充分顯示了這項(xiàng)技術(shù)的強(qiáng)大生命力。
(二)零售業(yè)數(shù)據(jù)挖掘技術(shù)研究的意義
在零售業(yè)領(lǐng)域中,條形碼管理、銷售管理系統(tǒng)、客戶資料管理系統(tǒng)等關(guān)于商品信息、客戶信息、供應(yīng)商信息、店鋪信息、會(huì)員信息等海量數(shù)據(jù),以零散狀態(tài)呈現(xiàn)在人們面前,表面看,這些類別的數(shù)據(jù)之間毫無(wú)關(guān)聯(lián),但透過(guò)數(shù)據(jù)挖掘的眼光便可以清晰看出這些類別數(shù)據(jù)之間、同一類別數(shù)據(jù)之間存在著千絲萬(wàn)縷的聯(lián)系。大數(shù)據(jù)理論提出以來(lái),零售業(yè)領(lǐng)域研究者們變采取研究手段探究領(lǐng)域內(nèi)海量數(shù)據(jù)與商品銷售、客戶群體選擇等眾多零售商們頭疼的問(wèn)題之間的關(guān)系。實(shí)踐證明,利用數(shù)據(jù)挖掘技術(shù)可以幫助零售商們解決上述看似無(wú)解決方法的疑難雜癥。比如,購(gòu)物籃分析可以探究商品搭配方式與用戶訴求之間的匹配程度、消費(fèi)者對(duì)于商品擺放樣式的好感度等。
從反方向看數(shù)據(jù)挖掘技術(shù)對(duì)于零售業(yè)領(lǐng)域的應(yīng)用意義,對(duì)于零售業(yè)領(lǐng)域內(nèi)的規(guī)律,人們僅憑經(jīng)驗(yàn)、人工查找總結(jié)的方法將很難實(shí)現(xiàn),缺乏有效數(shù)據(jù)挖掘手段的零售業(yè)領(lǐng)域的規(guī)律的探究的可能性非常小。而數(shù)據(jù)挖掘技術(shù)恰恰可以迎合人們這一需求,省去了人工查找的麻煩與困擾。特別是在銷售相關(guān)數(shù)據(jù)越來(lái)越多的環(huán)境中,依靠人工積累的方法很難實(shí)現(xiàn)行業(yè)發(fā)展的突破,對(duì)于海量數(shù)據(jù)問(wèn)題的解決,數(shù)據(jù)挖掘技術(shù)是非常好的選擇。
可見(jiàn),零售業(yè)領(lǐng)域中數(shù)據(jù)挖掘技術(shù)的應(yīng)用不僅歷史久遠(yuǎn),并且成果顯著。但人們不能將眼光僅僅停留在數(shù)據(jù)挖掘技術(shù)給零售業(yè)領(lǐng)域帶來(lái)的已有成功影響,隨著社會(huì)的不斷發(fā)展、市場(chǎng)經(jīng)濟(jì)環(huán)境的不斷變化,業(yè)內(nèi)人士需要對(duì)于社會(huì)市場(chǎng)體系未來(lái)的發(fā)展要素予以準(zhǔn)確把握,并將此作為零售業(yè)領(lǐng)域內(nèi)數(shù)據(jù)挖掘技術(shù)研究的方向。本文的議題設(shè)置初衷也在于此。
二、零售業(yè)領(lǐng)域中數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍
查閱大量相關(guān)資料、整合已有成功經(jīng)驗(yàn)后,可以發(fā)現(xiàn),數(shù)據(jù)挖掘技術(shù)在零售業(yè)領(lǐng)域內(nèi)的功能性體現(xiàn)在三個(gè)方面:
首先,數(shù)據(jù)挖掘技術(shù)以海量數(shù)據(jù)為基礎(chǔ)的技術(shù)要求恰恰符合了零售業(yè)領(lǐng)域內(nèi)超大數(shù)量級(jí)的數(shù)據(jù)現(xiàn)狀。數(shù)據(jù)挖掘技術(shù)利用計(jì)算機(jī)設(shè)備的準(zhǔn)確、快速的算法更新技術(shù),實(shí)現(xiàn)了短時(shí)間內(nèi)對(duì)零售業(yè)領(lǐng)域內(nèi)的數(shù)據(jù)進(jìn)行聚類、提煉規(guī)律性成果的可能。
其次,數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)算法的出現(xiàn),進(jìn)一步提升了零售業(yè)領(lǐng)域內(nèi)數(shù)據(jù)挖掘的應(yīng)用效率。這一新型算法的出現(xiàn)有效緩解了外部商業(yè)競(jìng)爭(zhēng)對(duì)于零售業(yè)領(lǐng)域發(fā)展的影響。零售業(yè)領(lǐng)域內(nèi)企業(yè)的發(fā)展離不開(kāi)高端有效的數(shù)據(jù)挖掘技術(shù)。
再次,數(shù)據(jù)挖掘技術(shù)令企業(yè)充分了解客戶對(duì)于商品銷售的喜好及興趣,幫助企業(yè)有效、準(zhǔn)確、及時(shí)了解并掌握市場(chǎng)的動(dòng)態(tài)變化,可以做到及時(shí)針對(duì)市場(chǎng)環(huán)境的變化調(diào)整自身企業(yè)的銷售模式及銷售方案。在對(duì)市場(chǎng)動(dòng)態(tài)變化的及時(shí)掌握中,零售業(yè)企業(yè)可以及時(shí)洞察市場(chǎng)上的新商機(jī),謀求企業(yè)緊急效益。
三、零售業(yè)領(lǐng)域中數(shù)據(jù)挖掘技術(shù)應(yīng)用存在的問(wèn)題及未來(lái)的發(fā)展趨勢(shì)
第一,零售業(yè)中數(shù)據(jù)挖掘技術(shù)在分析變量的選擇上仍有不足。數(shù)據(jù)挖掘的技術(shù)關(guān)鍵在于聚類方式的確定,而就相對(duì)更加復(fù)雜的零售業(yè)領(lǐng)域內(nèi)的有關(guān)數(shù)據(jù)信息而言,其在分析變量的確定方式上仍舊需要持續(xù)關(guān)注實(shí)踐結(jié)果進(jìn)行及時(shí)調(diào)整。選擇合適的數(shù)據(jù)挖掘分析變量,可以明顯提升數(shù)據(jù)挖掘技術(shù)在零售業(yè)領(lǐng)域中的應(yīng)用效率。
第二,數(shù)據(jù)挖掘技術(shù)所依托的數(shù)據(jù)抽取方式需要結(jié)合用戶需要進(jìn)行及時(shí)調(diào)整。抽取數(shù)據(jù)的目的在于從眾多雜亂數(shù)據(jù)中提煉有用信息,減少不必要的工作量。比如求和、平均值、方差、直方圖、餅狀圖等方式都可以結(jié)合實(shí)際情況嘗試。
第三,數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)趨勢(shì)需要有效預(yù)測(cè)。在紛繁復(fù)雜的數(shù)據(jù)信息中,也是有一些規(guī)律性的趨勢(shì)可以預(yù)測(cè)的。在零售業(yè)領(lǐng)域中,數(shù)據(jù)趨勢(shì)的預(yù)測(cè)工作十分重要。
四、結(jié)語(yǔ)
截至目前,真正適合零售業(yè)領(lǐng)域的數(shù)據(jù)挖掘模型還缺乏統(tǒng)一化,真正具有意義、有效性的數(shù)據(jù)模型的應(yīng)用范圍應(yīng)該是在各個(gè)行業(yè)中都具有互通性的,即便行業(yè)在特點(diǎn)方面存在差異,但符合當(dāng)前社會(huì)發(fā)展形勢(shì)的數(shù)據(jù)挖掘技術(shù)需要往統(tǒng)一化中帶有特色化的方向發(fā)展。因此,要保障數(shù)據(jù)挖掘的基礎(chǔ)數(shù)據(jù)模型可靠。數(shù)據(jù)模型包括的種類很多,比如概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理模型、采集模型、處理模型、其他模型等。但目前情況看,上述模型的可靠性均需要經(jīng)過(guò)時(shí)間的考驗(yàn),因此,在零售業(yè)領(lǐng)域中的數(shù)據(jù)挖掘技術(shù)需要加大對(duì)模型可靠性的研究力度。
參考文獻(xiàn)
篇3
【關(guān)鍵詞】 數(shù)據(jù)挖掘 數(shù)據(jù)倉(cāng)庫(kù) 流失預(yù)警
一、引言
客戶保有的前提是理解客戶行為,電信運(yùn)營(yíng)商已經(jīng)積累了大量的客戶行為信息,有效結(jié)合數(shù)據(jù)挖掘技術(shù),對(duì)已有的無(wú)規(guī)則客戶行為信息進(jìn)行分析識(shí)別,并通過(guò)各類算法歸納總結(jié)出客戶流失的規(guī)律及特點(diǎn),最終建立起數(shù)據(jù)挖掘模型,經(jīng)過(guò)不斷的校驗(yàn),可以預(yù)測(cè)客戶流失傾向,并將預(yù)測(cè)結(jié)果轉(zhuǎn)化為企業(yè)客戶保有行為,為企業(yè)的營(yíng)銷工作提供幫助、指導(dǎo),為企業(yè)決策提供支持,最終實(shí)現(xiàn)電信企業(yè)客戶保有及價(jià)值提升的目的。
二、數(shù)據(jù)挖掘概述
(1)數(shù)據(jù)挖掘概念。數(shù)據(jù)挖掘是指從大量的、隨機(jī)的、不規(guī)則的應(yīng)用數(shù)據(jù)中通過(guò)算法(如分類、總結(jié)、關(guān)聯(lián)規(guī)則、聚類等)搜索隱藏于其中的不為人知的、但潛在的有用知識(shí)的過(guò)程。數(shù)據(jù)挖掘提供預(yù)測(cè)性的信息,質(zhì)上是一個(gè)歸納推理的過(guò)程,不是驗(yàn)證一個(gè)假定模型的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。數(shù)據(jù)挖掘是多學(xué)科的產(chǎn)物,包含數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、可視化、高性能計(jì)算、人工智能、機(jī)器學(xué)習(xí)。數(shù)據(jù)挖掘的三個(gè)過(guò)程,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評(píng)估。(2)數(shù)據(jù)挖掘方法。數(shù)據(jù)挖掘常用的方法有關(guān)聯(lián)分析、分類、聚類、回歸分析、神經(jīng)網(wǎng)絡(luò)等,這些方法從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘分析,可以應(yīng)用到企業(yè)客戶行為分析、決策支撐等不同階段和領(lǐng)域。
三、電信客戶流失預(yù)警中數(shù)據(jù)挖掘的實(shí)施步驟
(1)明確目標(biāo)。要充分發(fā)揮數(shù)據(jù)挖掘的作用,必須明確目標(biāo)。電信客戶流失預(yù)警的重要目標(biāo)就是提前預(yù)知客戶流失風(fēng)險(xiǎn),從而指導(dǎo)維系人員準(zhǔn)確定位目標(biāo)客戶,及時(shí)給與流失干預(yù),提升電信客戶保有率。(2)建立數(shù)據(jù)挖掘庫(kù)。我們需要從各類海量電信客戶數(shù)據(jù)庫(kù)中抽取與客戶流失相關(guān)數(shù)據(jù)內(nèi)容,建立獨(dú)立的客戶流失預(yù)警挖掘數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)可以是已有數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯子集,而不一定非要是物理上獨(dú)立的數(shù)據(jù)庫(kù)。單獨(dú)設(shè)立的客戶預(yù)警數(shù)據(jù)庫(kù)可以提高分析效率、避免由于數(shù)據(jù)巨大帶來(lái)的數(shù)據(jù)沖突問(wèn)題的解決。通過(guò)對(duì)客戶流失關(guān)鍵點(diǎn)的數(shù)據(jù)抽取、精選,可以極大的減少數(shù)據(jù)處理量,節(jié)約系統(tǒng)資源,更好的輔助數(shù)據(jù)分析目標(biāo)的達(dá)成。(3)數(shù)據(jù)分析。需要從海量客戶、海量信息、海量數(shù)據(jù)中找到客戶流失的關(guān)鍵點(diǎn),不斷從流失數(shù)據(jù)挖掘庫(kù)中找到相應(yīng)的規(guī)律和潛在趨勢(shì),使用聚類分析的方法進(jìn)行客戶信息類別區(qū)分,逐步梳理出影響客戶流失的眾多因素,并進(jìn)行重要性分析,找出這些因素之間相互影響、牽連的關(guān)系,從而發(fā)現(xiàn)因素之間的相關(guān)性。(4)準(zhǔn)備及調(diào)整數(shù)據(jù)。通過(guò)數(shù)據(jù)分析步驟,將符合分析要求數(shù)據(jù)進(jìn)行數(shù)據(jù)庫(kù)導(dǎo)入,并對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的調(diào)整,關(guān)鍵是實(shí)現(xiàn)進(jìn)一層次的明確及量化,為模型化奠定基礎(chǔ)。(5)建立模型。建立模型是數(shù)據(jù)挖掘的核心環(huán)節(jié),在分析數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行系統(tǒng)調(diào)整的基礎(chǔ)上即可以開(kāi)始建立模型。通常我們利用聚類分析、時(shí)間序列分析等方法來(lái)實(shí)現(xiàn)建模。(6)評(píng)價(jià)及解釋。從之前的步驟中我們已經(jīng)很明確的得出客戶流失的一系列分析數(shù)據(jù)及模型,我們會(huì)得出對(duì)客戶流失問(wèn)題多種描述,綜合各類描述的規(guī)律性,提供合理的分析支持信息。
四、數(shù)據(jù)挖掘在電信客戶維系中的應(yīng)用
1、流失客戶分析及建模
以往運(yùn)營(yíng)商服務(wù)模型基本圍繞全生命周期時(shí)間軸主線,重點(diǎn)描述單客戶服務(wù)動(dòng)作,缺少客戶聚類特征總結(jié)。結(jié)合客戶流失特征,運(yùn)用聚類統(tǒng)計(jì)分析方法將客戶進(jìn)行特征聚類,區(qū)分為入網(wǎng)半年內(nèi)客戶群、入網(wǎng)半年至一年客戶群、入網(wǎng)一年以上客戶群,其客戶流失特征及原因存在區(qū)隔,入網(wǎng)半年內(nèi)客戶的流失與前期客戶發(fā)展質(zhì)量關(guān)系密切,主要取決于在新發(fā)展客戶營(yíng)銷過(guò)程中存在的問(wèn)題或弊端;而入網(wǎng)半年至一年客戶群的流失與功能性的服務(wù)感知相關(guān);入網(wǎng)一年以上或更長(zhǎng)時(shí)間的客戶流失與后期客戶持續(xù)提供的服務(wù)及感知密切相關(guān)。同時(shí)三大聚類客戶群又分別具有三個(gè)流失關(guān)鍵點(diǎn),我們可以運(yùn)用數(shù)據(jù)挖掘技術(shù)“信息熵理論”、“二元分類模型”,找到幾個(gè)聚類群體流失相關(guān)因子,從而構(gòu)建針對(duì)性精準(zhǔn)的維系模型,如圖1所示。
在基于聚類模型構(gòu)建起精準(zhǔn)的客戶維系體系后,對(duì)應(yīng)影響三個(gè)聚類群體的核心因子及模型分析,針對(duì)性制定標(biāo)準(zhǔn)化維系動(dòng)作及強(qiáng)化服務(wù)方案,增強(qiáng)原有的客戶服務(wù)體系,從而達(dá)到提升客戶感知及粘性的目的。
結(jié)合三個(gè)關(guān)鍵點(diǎn),從現(xiàn)有的海量客戶行為數(shù)據(jù)中找到維系因子,對(duì)影響用戶群流失的因子做聚類分析,梳理出關(guān)鍵因子,并進(jìn)行重要性分析,選定對(duì)整體流失影響力較大的因子作為高危挽留的重點(diǎn)突破口,如表1所示。
通過(guò)高危因子重要度的區(qū)分,每月月初系統(tǒng)自動(dòng)預(yù)警,為客戶挽留提供數(shù)據(jù)支持。
2、客戶挽留流程
(1)挽留機(jī)會(huì)分析。根據(jù)三大聚類客戶群特點(diǎn),對(duì)三類客戶流失傾向進(jìn)行評(píng)價(jià),按風(fēng)險(xiǎn)的高低進(jìn)行評(píng)判,入網(wǎng)初期客戶流失風(fēng)險(xiǎn)最高,其次是高危客戶流失傾向明顯,一年以上到期合約客戶也存在流失風(fēng)險(xiǎn),根據(jù)風(fēng)險(xiǎn)度及入網(wǎng)時(shí)間的不同,進(jìn)行流失客戶預(yù)測(cè),從而及時(shí)找到挽留機(jī)會(huì)。(2)挽留策略的制定。通過(guò)高危因子重要度分析,系統(tǒng)自動(dòng)預(yù)警圈定需要挽留的客戶群,對(duì)不同因子客戶進(jìn)行分析逐一制定挽留策略。針對(duì)新入網(wǎng)客戶流失分析,梳理主要流失原因,制定相應(yīng)的入網(wǎng)門檻,并配合相應(yīng)酬金發(fā)放機(jī)制,在入網(wǎng)半年內(nèi)分批分比例發(fā)放酬金,提升入網(wǎng)質(zhì)量;針對(duì)入網(wǎng)半年以上客戶,結(jié)合高危因子,梳理不同因子客戶群流失原因,針對(duì)性制定挽留策略,如合約計(jì)劃、網(wǎng)齡升級(jí)計(jì)劃、流量回饋等;對(duì)于一年以上合約到期客戶,制定老客戶合約續(xù)費(fèi)政策,提升合約續(xù)費(fèi)率。(3)采取保有行為并反饋。通過(guò)以上兩個(gè)步驟,找到挽留機(jī)會(huì),并制定相應(yīng)策略后,需將挽留行為分配給不同的渠道人員實(shí)施,新入網(wǎng)客戶的入網(wǎng)策略由各發(fā)展渠道落實(shí)并反饋客戶信息;半年以上中期高??蛻艏耙荒暌陨虾霞s到期客戶的挽留與維系需由維系中心與各實(shí)體渠道相互配合,由維系中心進(jìn)行電話回訪式維系,實(shí)體渠道配合通過(guò)理財(cái)專席等方式在日常業(yè)務(wù)辦理中提高客戶在網(wǎng)粘性。
五、結(jié)束語(yǔ)
事實(shí)上,流失模型的建立不可能直接帶來(lái)客戶流失率的減少,但基于數(shù)據(jù)挖掘的客戶流失預(yù)警模型的應(yīng)用,可以很大程度上提升客戶維系與挽留的有效性,有效的預(yù)警、預(yù)測(cè)結(jié)合針對(duì)性的挽留策略及有效的挽留行為,才能夠真正實(shí)現(xiàn)客戶流失率的降低,達(dá)到提升客戶感知及粘性的最終目的。
參 考 文 獻(xiàn)
篇4
【關(guān)鍵詞】搜索引擎 網(wǎng)絡(luò)數(shù)據(jù)挖掘相關(guān)技術(shù) 研究
在社會(huì)的發(fā)展之下,網(wǎng)絡(luò)已經(jīng)成為人們生活與生產(chǎn)中必不可少的工具,但是網(wǎng)絡(luò)中充斥的大量繁雜信息也在一定程度上影響著人們的信息獲取速度,網(wǎng)絡(luò)信息檢索在檢準(zhǔn)率與檢全率方面依然難以滿足人們的需求,而將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中即可很好的解決這一問(wèn)題。
1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)就是從大量模糊、隨機(jī)、不完全、有噪聲信息中提出有用信息的一個(gè)過(guò)程,與數(shù)據(jù)挖掘技術(shù)相關(guān)的技術(shù)還有數(shù)據(jù)分析技術(shù)、數(shù)據(jù)融合技術(shù)、知識(shí)發(fā)現(xiàn)技術(shù)等等,在技術(shù)水平的發(fā)展下,統(tǒng)計(jì)學(xué)方法、決策樹(shù)、關(guān)聯(lián)分析等一些新型數(shù)據(jù)挖掘技術(shù)也相繼出現(xiàn)。與數(shù)據(jù)挖掘不同,信息檢索實(shí)質(zhì)上是一種信息發(fā)現(xiàn)任務(wù),也是知識(shí)發(fā)展過(guò)程中的重要環(huán)節(jié),信息檢索能夠幫助人們了解各項(xiàng)靜態(tài)信息,但是難以分析到數(shù)據(jù)間的關(guān)系及其未來(lái)發(fā)展趨勢(shì)。而應(yīng)用數(shù)據(jù)挖掘技術(shù)則可以有效提升系統(tǒng)檢索能力,預(yù)測(cè)出未來(lái)的走勢(shì),因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中也是大勢(shì)所趨。
2 搜索引擎與網(wǎng)絡(luò)數(shù)據(jù)挖掘
網(wǎng)絡(luò)數(shù)據(jù)挖掘是一種將數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)融合的一種新模式,網(wǎng)絡(luò)數(shù)據(jù)挖掘也能夠稱之為Web挖掘,網(wǎng)絡(luò)數(shù)據(jù)的頁(yè)面復(fù)雜、數(shù)據(jù)內(nèi)容繁雜,文章也具有不規(guī)則性,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在數(shù)據(jù)挖掘中可以有效的解決上述問(wèn)題,根據(jù)處理對(duì)象,網(wǎng)絡(luò)數(shù)據(jù)挖掘任務(wù)有三種類型,即網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)使用挖掘與網(wǎng)絡(luò)結(jié)構(gòu)挖掘。
2.1 網(wǎng)絡(luò)內(nèi)容的挖掘
網(wǎng)絡(luò)內(nèi)容挖掘就是從網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)內(nèi)容與網(wǎng)絡(luò)文檔中挖掘信息,很多網(wǎng)絡(luò)信息是能夠在網(wǎng)絡(luò)中過(guò)去的,但是依然有很大一部分?jǐn)?shù)據(jù)難以采用該種方法獲取,如使用PHP、JSP與ASP的動(dòng)態(tài)網(wǎng)頁(yè),拒絕訪問(wèn)的網(wǎng)站,商業(yè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)。這些內(nèi)容都能夠使用網(wǎng)絡(luò)內(nèi)容挖掘法來(lái)獲取,這可以使用兩個(gè)方法:網(wǎng)絡(luò)頁(yè)面內(nèi)容挖掘法與搜索結(jié)果再挖掘法。
2.2 網(wǎng)絡(luò)結(jié)構(gòu)挖掘法
網(wǎng)絡(luò)結(jié)構(gòu)挖掘法強(qiáng)調(diào)挖掘網(wǎng)頁(yè)中的鏈接結(jié)構(gòu),并從中推導(dǎo)相關(guān)的知識(shí),這種挖掘法與引文分析有著密切的關(guān)系,網(wǎng)絡(luò)中的鏈接信息能夠?yàn)閿?shù)據(jù)挖掘提供全面的支持,為了獲取到理想的效果,可以來(lái)分析網(wǎng)頁(yè)鏈接與鏈接數(shù)量,并建立起鏈接結(jié)構(gòu)模式。其常用的算法有Propriteary算法、Google算法、HITS算法與PageRank算法四種。
2.3 網(wǎng)絡(luò)使用挖掘法
網(wǎng)絡(luò)使用挖掘法就是通過(guò)日志發(fā)現(xiàn)來(lái)訪問(wèn)頁(yè)面的一種模式,與網(wǎng)絡(luò)內(nèi)容挖掘模式和網(wǎng)絡(luò)結(jié)構(gòu)挖掘模式不同,網(wǎng)絡(luò)使用挖掘法的挖掘?qū)ο蠓鞘蔷W(wǎng)絡(luò)與用戶交互中的二手?jǐn)?shù)據(jù),這些數(shù)據(jù)大多來(lái)自Cookies或者Web服務(wù)器中的信息、系統(tǒng)交互信息與訪問(wèn)記錄。
3 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息檢索中的應(yīng)用作用
目前,人們已經(jīng)進(jìn)入了一個(gè)信息爆炸時(shí)代,雖然眾多搜索引擎網(wǎng)絡(luò)可以滿足人們對(duì)于信息檢索的基本需求,但是還是有很多地方不到位,目前,網(wǎng)絡(luò)挖掘技術(shù)已經(jīng)開(kāi)始在網(wǎng)絡(luò)領(lǐng)域中得到了應(yīng)用,也取得了一定的成效。實(shí)踐顯示,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在網(wǎng)絡(luò)信息檢索中能夠取得如下的效用:
3.1 提升標(biāo)引準(zhǔn)確性
標(biāo)引能夠準(zhǔn)確選擇出文獻(xiàn)的檢索標(biāo)示,網(wǎng)絡(luò)信息范圍廣、復(fù)雜性高、數(shù)量多,使用人工標(biāo)引很難取得理想的檢索效果,因此,必須要使用自動(dòng)標(biāo)引。將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在其中能夠深刻的揭示出相關(guān)信息的聯(lián)系,幫助用戶在文檔中進(jìn)行標(biāo)注,提升信息攝取的準(zhǔn)確性。而以此為基礎(chǔ)來(lái)應(yīng)用加權(quán)算法則能夠得出具體的信息關(guān)聯(lián),對(duì)于提升檢索效果有著十分積極的效用。
3.2 可以對(duì)檢索結(jié)果進(jìn)行分類
在網(wǎng)絡(luò)世界中,各個(gè)網(wǎng)站之間的轉(zhuǎn)載情況嚴(yán)重,用戶在使用搜索引擎時(shí)必然會(huì)檢索出大量的重復(fù)信息,這不僅會(huì)降低檢索效率,也會(huì)浪費(fèi)資源。將數(shù)據(jù)挖掘技術(shù)應(yīng)用在檢索工作中就能夠挖掘出網(wǎng)頁(yè)中的語(yǔ)義內(nèi)容,有效提升檢索效率。此外,數(shù)據(jù)挖掘技術(shù)也可以有效提升檢索質(zhì)量,該種方法是建立在層次法與劃分法基礎(chǔ)上,如果檢索文檔相似性大,即可進(jìn)行聚類處理,將處理后的信息用層次化方式提供給用戶,用戶可以根據(jù)自己的需要自行選擇,這就有效減少了瀏覽數(shù)量。
3.3 能夠提升自動(dòng)摘要質(zhì)量
自動(dòng)摘要即利用網(wǎng)絡(luò)來(lái)分析文章結(jié)構(gòu)、主題語(yǔ)句的方式,自動(dòng)摘要可以有效幫助用戶來(lái)加工與整合信息,與自動(dòng)摘要相比,人工編制摘要會(huì)浪費(fèi)大量的時(shí)間,將網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)用在搜索引擎中能夠提升自動(dòng)摘要的質(zhì)量,該種技術(shù)是通過(guò)文檔內(nèi)容來(lái)總結(jié)文本信息,能夠?qū)eb中的重要內(nèi)容總結(jié)起來(lái),并提取出摘要。這對(duì)于優(yōu)化網(wǎng)絡(luò)信息資源的處理質(zhì)量有著十分積極的意義。
4 結(jié)語(yǔ)
總而言之,將數(shù)據(jù)網(wǎng)絡(luò)挖掘技術(shù)應(yīng)用在搜索引擎中已經(jīng)成為了一個(gè)大勢(shì)所趨,采用該種技術(shù)可以有效提升標(biāo)引、自動(dòng)分類、自動(dòng)摘要以及自動(dòng)聚類的準(zhǔn)確性,可以根據(jù)用戶的具體需求來(lái)建立模型,從而為用戶提供出更加針對(duì)性的信息支持。其中,最為常用的技術(shù)就是自由分類法,自由分類法能夠?qū)㈦y以用傳統(tǒng)方式細(xì)化的信息歸入熟悉類目中,并在排序檢索與信息組織上很好的彌補(bǔ)與了傳統(tǒng)搜索方法的缺陷,但是,該種方法也存在一些局限性,多應(yīng)用在小范圍網(wǎng)絡(luò)中,相信在不久的將來(lái),網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)定可以在搜索引擎中得到更加廣泛的使用。
參考文獻(xiàn):
[1]狄浩林. 面向精確營(yíng)銷基于數(shù)據(jù)挖掘的3G用戶行為模型及實(shí)證研究[D]. 北京郵電大學(xué) 2012
篇5
1.1數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(DataMining[1])是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過(guò)程。數(shù)據(jù)挖掘可粗略地理解為三部分:數(shù)據(jù)準(zhǔn)備(DataPreparation)、數(shù)據(jù)挖掘,以及結(jié)果的解釋評(píng)估(InterpretationandEvaluation)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到醫(yī)學(xué)信息數(shù)據(jù)庫(kù)中,可以發(fā)現(xiàn)其中的醫(yī)學(xué)診斷規(guī)則和模式,從而輔助醫(yī)生進(jìn)行疾病診斷,實(shí)現(xiàn)臨床決策支持的效果。
1.2數(shù)據(jù)挖掘的功能[2-6]
1.2.1關(guān)聯(lián)分析
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。
1.2.2分類
分類就是找出一組能夠描述數(shù)據(jù)集合典型特征的模型(或函數(shù)),以便能夠分類識(shí)別未知數(shù)據(jù)的歸屬或類別,即將未知事例映射到某種離散類別之一。
1.2.3聚類
數(shù)據(jù)庫(kù)中的記錄可被化分為一系列有意義的子集,即聚類。
1.2.4概念描述
對(duì)含有大量數(shù)據(jù)的數(shù)據(jù)集合進(jìn)行概述性的總結(jié)并獲得簡(jiǎn)明、準(zhǔn)確的描述,這種描述就稱為概念描述。
1.2.5預(yù)測(cè)
數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問(wèn)題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。
1.2.6異常檢測(cè)
一個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)一般不可能都符合分類預(yù)測(cè)或聚類分析所獲得的模型,那些不符合大多數(shù)數(shù)據(jù)對(duì)象所構(gòu)成的規(guī)律的數(shù)據(jù)對(duì)象就被稱為異常數(shù)據(jù)。
1.3數(shù)據(jù)挖掘的過(guò)程
數(shù)據(jù)挖掘過(guò)程[7-9]是在設(shè)計(jì)者的主動(dòng)參與下進(jìn)行的知識(shí)發(fā)現(xiàn)過(guò)程,是在積累了大量的數(shù)據(jù)后,從中識(shí)別出有效的、新穎的、潛在的、最終可以理解并加以有目的運(yùn)用的知識(shí)。一般分為以下步驟:?jiǎn)栴}定義:清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。數(shù)據(jù)準(zhǔn)備:①數(shù)據(jù)理解---將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型。這個(gè)分析模型是針對(duì)挖掘算法建立的。②數(shù)據(jù)的選擇及簡(jiǎn)化—是根據(jù)用戶的需要從原始數(shù)據(jù)庫(kù)中抽取的一組數(shù)據(jù)。③數(shù)據(jù)的預(yù)處理--研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析做準(zhǔn)備。數(shù)據(jù)挖掘:對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。結(jié)果分析:解釋并評(píng)估結(jié)果。知識(shí)的優(yōu)化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
2醫(yī)院信息系統(tǒng)中數(shù)據(jù)挖掘的研究
2.1醫(yī)療數(shù)據(jù)挖掘主要分類
2.1.1從數(shù)據(jù)挖掘的處理過(guò)程、功能模型、算法研究,可以將醫(yī)用數(shù)據(jù)挖掘按功能模型和挖掘?qū)ο髢蓚€(gè)方面進(jìn)行如下分類[10-14]。
2.1.1.1按照功能模型分類:常用的數(shù)據(jù)挖掘技術(shù)可以分成統(tǒng)計(jì)分析類、知識(shí)發(fā)現(xiàn)類、和其他類型的數(shù)據(jù)挖掘技術(shù)三大類。①統(tǒng)計(jì)分析類:統(tǒng)計(jì)是數(shù)據(jù)搜集和描述數(shù)學(xué)的一個(gè)分支。在醫(yī)療數(shù)據(jù)挖掘中的應(yīng)用如:聚類分析方法可以對(duì)DNA分析、醫(yī)學(xué)影像數(shù)據(jù)自動(dòng)分析、多生理參數(shù)監(jiān)護(hù)數(shù)據(jù)分析、中醫(yī)診斷和方劑的研究、疾病危險(xiǎn)因素分析等。②知識(shí)發(fā)現(xiàn)類:知識(shí)發(fā)現(xiàn)是用一種間接的方式從數(shù)據(jù)中抽取信息的一種技術(shù),而這些信息是隱含的、未知的,并且具有潛在應(yīng)用價(jià)值。其中可分為:a.關(guān)聯(lián)規(guī)則型知識(shí)挖掘技術(shù),是醫(yī)用數(shù)據(jù)挖掘的一種主要形式。b.神經(jīng)網(wǎng)絡(luò)型知識(shí)挖掘技術(shù)。c.遺傳算法型知識(shí)挖掘技術(shù)。d.粗糙集型知識(shí)挖掘技術(shù)。如關(guān)聯(lián)分析可以用來(lái)分析預(yù)測(cè)手術(shù)術(shù)后和藥物治療的效果,可以對(duì)某種疾病的相關(guān)發(fā)病因素進(jìn)行分析以指導(dǎo)患者如何預(yù)防該疾病;可以對(duì)帶病DNA和健康組織的DNA基因序列進(jìn)行比較,以識(shí)別出兩類基因的差別,從而得出致病因素;可以對(duì)患者的生理參數(shù)進(jìn)行分析,分析各種生理參數(shù)之間的關(guān)系進(jìn)而得出有意義預(yù)防與治療方案等。e.機(jī)器學(xué)習(xí)類,歸納學(xué)習(xí)方法又可分為決策樹(shù)、規(guī)則歸納等。如決策樹(shù)用于前庭區(qū)與頭暈有關(guān)的疾病診斷規(guī)則的提取。③其他類型:除以上陳述的數(shù)據(jù)挖掘技術(shù)外,近年來(lái),隨著各種數(shù)據(jù)處理工具、先進(jìn)的數(shù)據(jù)庫(kù)技術(shù)與因特網(wǎng)技術(shù)的迅速發(fā)展,還出現(xiàn)了一些其他數(shù)據(jù)挖掘技術(shù)。如文本挖掘技術(shù)、Web挖掘技術(shù)、分類分析技術(shù)、地理信息系統(tǒng)與空間數(shù)據(jù)挖掘技術(shù)以及分布式數(shù)據(jù)挖掘技術(shù)等。
2.1.1.2按照挖掘?qū)ο蠓诸悾喊凑詹煌臄?shù)據(jù)類型,數(shù)據(jù)挖掘研究在時(shí)間序列數(shù)據(jù)、空間數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù)等方面展開(kāi)。①時(shí)間序列數(shù)據(jù)(TimeSeriesData)是與時(shí)間有關(guān)的一系列數(shù)據(jù)。對(duì)時(shí)間序列數(shù)據(jù)的挖掘主要是發(fā)現(xiàn)序列中事物出現(xiàn)的周期和規(guī)律,以及不同時(shí)間序列間的同步關(guān)系。如應(yīng)用時(shí)間序列預(yù)測(cè)方法可以對(duì)醫(yī)院藥品進(jìn)、銷、存產(chǎn)生的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。②序列(Sequential)模式序列模式與關(guān)聯(lián)模式相仿,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但是序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)之間的前因后果。如:對(duì)醫(yī)院門診和住院患者量進(jìn)行預(yù)測(cè),可以分析某種疾病發(fā)病率的變化趨勢(shì),病死率預(yù)測(cè)等。③文本數(shù)據(jù)(TextData)就是我們一般的文字,如報(bào)刊雜志、設(shè)備維護(hù)手冊(cè)、故障描述等的內(nèi)容。④多媒體數(shù)據(jù)(MultimediaData)是隨著多媒體技術(shù)而日益涌現(xiàn)的聲音、圖形、圖像、超文本等數(shù)據(jù)。應(yīng)用領(lǐng)域例如針對(duì)大量CT、MR圖像的存儲(chǔ)和查詢問(wèn)題而興起的基于內(nèi)容的圖像問(wèn)題。由于與傳統(tǒng)的文本數(shù)據(jù)不同,因此必須采用新的挖掘手段來(lái)發(fā)現(xiàn)內(nèi)容和形式間的內(nèi)在聯(lián)系。
2.1.2按應(yīng)用層面可醫(yī)院數(shù)據(jù)挖掘可分為診療信息挖掘和管理信息挖掘。診療應(yīng)用如:中山大學(xué)腫瘤防治中心的研究人員通過(guò)腫瘤分子信息和數(shù)據(jù)挖掘方法可以預(yù)測(cè)早期非小細(xì)胞肺癌5年內(nèi)是否死亡,這一預(yù)測(cè)的總正確率達(dá)87.2%,該技術(shù)一旦成熟,今后每個(gè)肺癌患者開(kāi)刀做完手術(shù)后,可借此預(yù)測(cè)其5年存活情況,而且檢測(cè)費(fèi)用遠(yuǎn)比國(guó)外的基因檢測(cè)便宜;上海同濟(jì)大學(xué)附屬醫(yī)院分析糖尿病患者肌肉組織和脂肪含量與骨密度之間的聯(lián)系,得出高肌肉和高脂肪含量可以降低患者髖骨骨折的危險(xiǎn)性;第四軍醫(yī)大利用數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘技術(shù)建立了惡性血液病數(shù)據(jù)庫(kù)分析系統(tǒng)等。管理應(yīng)用如:北京協(xié)和醫(yī)院開(kāi)展數(shù)據(jù)挖掘在臨床醫(yī)療管理上的研究,為醫(yī)院業(yè)務(wù)管理等提供支撐,并輔助領(lǐng)導(dǎo)決策;廣州南方醫(yī)院采用數(shù)據(jù)挖掘查詢系統(tǒng)查詢醫(yī)生有否開(kāi)大處方,患者是否花了不該花的醫(yī)藥費(fèi),且患者有望提前治愈出院。
2.2醫(yī)療數(shù)據(jù)挖掘的應(yīng)用研究
2.2.1診療信息挖掘
診療信息挖掘主要目的是通過(guò)患者信息分析,提供有參考作用的醫(yī)療方案。①建立患者隨訪信息庫(kù)。②臨床疾病分析、輔助診斷:如:a.判別分析:用于心臟疾病的分類;用于闌尾炎4種不同類型的判別。b.人工神系統(tǒng)網(wǎng)絡(luò):用于顱內(nèi)星形膠質(zhì)細(xì)胞瘤良、惡性的影像診斷;用于肺內(nèi)孤立結(jié)節(jié)的影像鑒別診斷。c.決策樹(shù):糖尿病分類規(guī)則建立;前庭區(qū)與頭暈有關(guān)的疾病診斷規(guī)則的提取。
2.2.2管理信息挖掘
2.2.2.1財(cái)務(wù)管理[15,16]
①患者費(fèi)用構(gòu)成分析:患者費(fèi)用由藥品、治療、檢查、手術(shù)、化驗(yàn)等組成。利用數(shù)據(jù)挖掘技術(shù)可以分析醫(yī)院、科室乃至各個(gè)病區(qū)??苾?nèi)的患者費(fèi)用構(gòu)成,從而能有針對(duì)性地控制費(fèi)用比例,探究醫(yī)療費(fèi)用項(xiàng)目結(jié)構(gòu)的合理性,使醫(yī)院管理者有針對(duì)性的控制醫(yī)療費(fèi)用。②同期費(fèi)用對(duì)比分析:利用數(shù)據(jù)挖掘技術(shù)可以按不同的時(shí)間對(duì)各個(gè)科室或各個(gè)病區(qū)同期的各種費(fèi)用進(jìn)行對(duì)比分析,并以各種專業(yè)報(bào)表、視圖的形式反映給醫(yī)院管理者,分析變化趨勢(shì)及可能原因。③成本效益分析:利用數(shù)據(jù)挖掘技術(shù)可以把各個(gè)不同系統(tǒng)如物資設(shè)備系統(tǒng)、財(cái)務(wù)系統(tǒng)等的數(shù)據(jù)匯總到數(shù)據(jù)倉(cāng)庫(kù),然后對(duì)醫(yī)院的成本效益情況進(jìn)行全面分析,以便能真正把握醫(yī)院的經(jīng)營(yíng)狀況,提高醫(yī)院的經(jīng)濟(jì)效益。例如:對(duì)醫(yī)院資金運(yùn)轉(zhuǎn)情況作財(cái)務(wù)分析,了解醫(yī)院財(cái)務(wù)狀況和資金流向,分析醫(yī)院運(yùn)營(yíng)風(fēng)險(xiǎn),利用數(shù)據(jù)挖掘中的環(huán)基比和定基比技術(shù)分析醫(yī)院財(cái)務(wù)資金的增長(zhǎng)速度,并用曲線擬合來(lái)預(yù)測(cè)未來(lái)的資金需求量,為管理者決策和促進(jìn)資源的有效配置提供依據(jù)。④醫(yī)保費(fèi)用構(gòu)成分析:利用醫(yī)院業(yè)務(wù)數(shù)據(jù)結(jié)合醫(yī)保中心返還數(shù)據(jù)對(duì)醫(yī)保分科的定額結(jié)算進(jìn)行分析,指導(dǎo)醫(yī)院各科室合理、高效的利用醫(yī)保資源,在醫(yī)保定額下提供更好的醫(yī)療服務(wù)。
2.2.2.2醫(yī)療質(zhì)量管理[17-19]
①單病種分析:以ICDlO疾病分類為標(biāo)準(zhǔn),利用數(shù)據(jù)挖掘技術(shù)對(duì)單病種進(jìn)行分析,包括住院費(fèi)用、住院天數(shù)、轉(zhuǎn)歸、病情、治療方案等方面,為醫(yī)療質(zhì)量管理提供依據(jù),使醫(yī)生能夠及時(shí)總結(jié)經(jīng)驗(yàn),找出最佳治療手段,既縮短了患者的就診住院時(shí)間,減輕了患者的負(fù)擔(dān),同時(shí)提高了醫(yī)療工作效率,增加了醫(yī)院經(jīng)濟(jì)效益。②手術(shù)室感染管理:a.手術(shù)室無(wú)菌物品及一次性用品智能備庫(kù)系統(tǒng);b.總結(jié)消毒滅菌工作與消毒效果的規(guī)律;c.預(yù)測(cè)術(shù)后切口感染合理安排手術(shù)并防止抗生素的濫用;d.利用HIS中知識(shí)解決消毒滅菌難點(diǎn)并杜絕差錯(cuò);e.對(duì)參觀手術(shù)人員和進(jìn)修生實(shí)習(xí)生的管理;f.對(duì)手術(shù)室消毒滅菌和醫(yī)院感染常規(guī)工作動(dòng)態(tài)監(jiān)測(cè)。③藥學(xué)管理:a.備藥量預(yù)測(cè):用時(shí)間序列預(yù)測(cè)方法,對(duì)HIS中現(xiàn)有的藥品用量信息進(jìn)行計(jì)算模擬,得出藥品消耗模型。b.制劑最佳批生產(chǎn)量預(yù)測(cè):在分析醫(yī)院制劑歷年用量及近期消耗趨勢(shì)下,得出該制劑效期內(nèi)用量,并通過(guò)計(jì)算得出該制劑的最佳批生產(chǎn)量預(yù)測(cè)模型。c.治療藥物監(jiān)測(cè):對(duì)藥物監(jiān)測(cè)(TDM)歷史數(shù)據(jù)分析、提取、加工、整合,更深層次挖掘(或發(fā)現(xiàn))一些新知識(shí),如開(kāi)展藥物群體藥動(dòng)學(xué)研究、藥物濃度影響因素相關(guān)度分析等,為臨床提供更多有價(jià)值的資料,實(shí)現(xiàn)給藥個(gè)體化、提高藥物療效、降低藥物毒副反應(yīng)等。d.抗生素合理應(yīng)用自動(dòng)監(jiān)控:對(duì)HIS中相關(guān)信息進(jìn)行提取、分析、挖掘,對(duì)抗生素的用量、耐藥性、聯(lián)合用藥、療程、圍手術(shù)期用藥、預(yù)防用藥、用藥途徑及治療效果等指標(biāo)實(shí)行自動(dòng)監(jiān)控,從而實(shí)時(shí)、有效地監(jiān)測(cè)抗生素使用情況。
2.2.2.3醫(yī)院經(jīng)營(yíng)目標(biāo)管理[20]
①患者構(gòu)成分析:運(yùn)用數(shù)據(jù)挖掘技術(shù)中的秩和比法對(duì)醫(yī)院門診和住院患者的地區(qū)分布、性別分布、身份分布、職業(yè)分布、年齡分布等方面進(jìn)行分析,從而得到不同類型患者的經(jīng)濟(jì)狀況、需求的主要醫(yī)療服務(wù)類型等信息,了解患者差異對(duì)醫(yī)院收益的影響,從而能夠有針對(duì)性的采取措施來(lái)提高服務(wù)質(zhì)量,增加門診量和住院量。②患者流動(dòng)情況分析:該功能可以分析門診患者從掛號(hào)到取藥再到離開(kāi)醫(yī)院的時(shí)間分布以及住院患者從入院到出院各個(gè)就醫(yī)環(huán)節(jié)的時(shí)間分布。分析出患者的就醫(yī)瓶頸,掌握影響患者診療效率的因素,以便能針對(duì)這些因素采取措施來(lái)幫助醫(yī)院管理者進(jìn)行業(yè)務(wù)流程的更新和改進(jìn),提高患者的就診效率。
2.2.2.4經(jīng)營(yíng)決策管理[21]
①患者就診時(shí)間分析:由于患者的入院季節(jié)性較強(qiáng),可以通過(guò)分析每月、每季度的門診人次、住院人次、床位周轉(zhuǎn)率,通過(guò)時(shí)間維度分析,建立灰色預(yù)測(cè)模型,來(lái)預(yù)測(cè)下一時(shí)期的門診和住院人次。根據(jù)預(yù)測(cè)信息,醫(yī)院管理者可以提出有針對(duì)性的措施,確定最優(yōu)的服務(wù)項(xiàng)目時(shí)間表,從而作出終止或開(kāi)拓某種醫(yī)療服務(wù)項(xiàng)目的決定,實(shí)現(xiàn)對(duì)人力資源、醫(yī)療設(shè)施、醫(yī)療設(shè)備的適當(dāng)配置。②醫(yī)療工作量影響分析:科學(xué)合理地評(píng)價(jià)醫(yī)療工作量,找出影響醫(yī)療工作量變化的主要因素,是進(jìn)行醫(yī)療工作量影響分析的目的。例如:醫(yī)院收治患者數(shù)是醫(yī)院工作量的重要指標(biāo)之一,直接影響醫(yī)院的經(jīng)濟(jì)效益和社會(huì)效益。利用數(shù)據(jù)挖掘技術(shù)中的灰色關(guān)聯(lián)分析方法對(duì)醫(yī)院收治患者數(shù)的影響因素進(jìn)行分析:病床周轉(zhuǎn)次數(shù)、住院患者手術(shù)人次、年收治患者人數(shù)、平均開(kāi)放病床數(shù)和年平均醫(yī)生人數(shù)與年收治患者數(shù)關(guān)聯(lián)程度等。
2.2.2.5醫(yī)院資源管理
①科室綜合評(píng)價(jià)分析:利用數(shù)據(jù)挖掘技術(shù)對(duì)醫(yī)院各科室進(jìn)行綜合評(píng)價(jià)分析,選出代表性強(qiáng)、獨(dú)立性好,能反映科室工作效率、治療質(zhì)量、經(jīng)濟(jì)效益、綜合管理等的多項(xiàng)指標(biāo)進(jìn)行綜合評(píng)價(jià)分析,找到科室的薄弱環(huán)節(jié),并采取相應(yīng)的措施,以提高科室的綜合水平。②醫(yī)療設(shè)備績(jī)效預(yù)測(cè)分析:從HIS中的患者信息中提取病種、數(shù)量、診療類別等信息后與醫(yī)療設(shè)備使用信息相關(guān)聯(lián),利用數(shù)據(jù)挖掘技術(shù)對(duì)所得到的信息進(jìn)行深層次的數(shù)據(jù)挖掘,構(gòu)建數(shù)據(jù)挖掘模型,利用已建立的數(shù)據(jù)挖掘模型,在醫(yī)療設(shè)備購(gòu)置前對(duì)其績(jī)效進(jìn)行預(yù)測(cè),使醫(yī)院領(lǐng)導(dǎo)的決策更為準(zhǔn)確、科學(xué);在醫(yī)療設(shè)備投入使用后,對(duì)其績(jī)效進(jìn)行準(zhǔn)確評(píng)價(jià),提高醫(yī)療設(shè)備的完好率和使用率。通過(guò)進(jìn)一步的數(shù)據(jù)挖掘,實(shí)現(xiàn)對(duì)醫(yī)療設(shè)備從購(gòu)置前的可行性論證到淘汰報(bào)廢的全程決策支持,使醫(yī)療設(shè)備的全壽命期都納入管理者的統(tǒng)籌管理之中,較好地解決醫(yī)療設(shè)備效益、代價(jià)、風(fēng)險(xiǎn)等互相制約的管理難題,充分發(fā)揮醫(yī)療設(shè)備的社會(huì)效益和經(jīng)濟(jì)效益。因此本研究具有明確的推廣應(yīng)用前景及重大應(yīng)用意義。
2.3醫(yī)療數(shù)據(jù)挖掘的熱點(diǎn)及前景
當(dāng)前,數(shù)據(jù)挖掘的研究方興未艾,其研究與開(kāi)發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫(kù)技術(shù)在20世紀(jì)70年代所處的地位,迫切需要類似于關(guān)系模式、數(shù)據(jù)挖掘系統(tǒng)和SQL查詢語(yǔ)言等理論和方法的指導(dǎo),才能使數(shù)據(jù)挖掘的應(yīng)用得以普遍推廣。其研究可能會(huì)集中到幾個(gè)方面,而生物信息或基因的數(shù)據(jù)挖掘則是熱點(diǎn)之一。數(shù)據(jù)挖掘在醫(yī)院管理中的應(yīng)用將會(huì)涉及醫(yī)療及管理的各個(gè)部分及層面,數(shù)據(jù)挖掘?qū)⑿纬上到y(tǒng),并通過(guò)廣泛深入的數(shù)據(jù)挖掘產(chǎn)生醫(yī)療方案數(shù)據(jù)庫(kù),為合理診斷、完善臨床路徑,提供有效幫助;通過(guò)數(shù)據(jù)挖掘分析達(dá)到人力資源合理配置;通過(guò)數(shù)據(jù)挖掘?yàn)閰^(qū)域性衛(wèi)生系統(tǒng)構(gòu)建提供有效依據(jù)等。
篇6
關(guān)鍵詞:網(wǎng)絡(luò)數(shù)據(jù)挖掘;遺傳算法;查詢優(yōu)化
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2010)02-385-03
Genetic Algorithm in Web Mining
WANG Xin-xin
(School of Software, MinJiang University, Fuzhou 350011, China)
Abstract: With the continued increase in the usage of the World Wide Web (WWW), Web mining has been established as an important area of research. The information in the WWW are instructed and distributed on numerous Web Servers over wide geographical regions. How to optimize query among the huge data has become a problem. Genetic algorithms (GA) are seen to be useful for prediction and description, efficient search, and complex objective functions in the dynamic and complex environments of the web.
Key words: web data mining; genetic algorithm; query optimization
隨著萬(wàn)維網(wǎng)使用越來(lái)越廣泛,網(wǎng)絡(luò)數(shù)據(jù)挖掘已成為一個(gè)重要的科學(xué)研究領(lǐng)域,得到越來(lái)越多的科研人員的重視。設(shè)計(jì)算法從已有信息中發(fā)掘新知識(shí),根據(jù)用戶情況定制信息,學(xué)習(xí)用戶行為是網(wǎng)絡(luò)數(shù)據(jù)挖掘所面臨的主要問(wèn)題。
在網(wǎng)絡(luò)工具中結(jié)合使用人工智能可消除網(wǎng)絡(luò)檢索中的人為因素。在客戶端和服務(wù)器端分別安裝智能系統(tǒng),使計(jì)算機(jī)通過(guò)Internet在Web服務(wù)器上進(jìn)行高效的知識(shí)發(fā)掘。通過(guò)網(wǎng)絡(luò)服務(wù)器檢索知識(shí)已經(jīng)引起機(jī)器學(xué)習(xí)、人工智能等領(lǐng)域?qū)W者的普遍注意。然而,網(wǎng)絡(luò)數(shù)據(jù)數(shù)量大、分布地域廣泛、類型差異大,要開(kāi)發(fā)一個(gè)智能工具對(duì)這樣的數(shù)據(jù)進(jìn)行檢索難度很大。
網(wǎng)絡(luò)挖掘技術(shù)在智能網(wǎng)絡(luò)的發(fā)展中發(fā)揮著重要的作用。網(wǎng)絡(luò)數(shù)據(jù)具有多樣性、分布廣泛等特點(diǎn),按照現(xiàn)有的算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行搜索具有相當(dāng)局限性。與其他傳統(tǒng)的優(yōu)化算法相比,遺傳算法在搜索的過(guò)程中采用群體搜索方式,有利于達(dá)到全局最優(yōu)。遺傳算法可采用和進(jìn)化出更優(yōu)的復(fù)合目標(biāo)函數(shù),以便在動(dòng)態(tài)而負(fù)責(zé)的網(wǎng)絡(luò)環(huán)境中實(shí)現(xiàn)高效的數(shù)據(jù)檢索和知識(shí)預(yù)測(cè)。A.Broder等人將網(wǎng)絡(luò)看作是一個(gè)由無(wú)數(shù)網(wǎng)頁(yè)組成的集合S,這些網(wǎng)頁(yè)構(gòu)成鄰接關(guān)系,使用適應(yīng)性函數(shù)f實(shí)現(xiàn)對(duì)這些網(wǎng)頁(yè)的評(píng)估[1]。
f:SR+
搜索引擎通過(guò)f函數(shù)的最優(yōu)值輸出搜索結(jié)果。通過(guò)激活基于遺傳算法的應(yīng)用來(lái)使這網(wǎng)絡(luò)關(guān)聯(lián)的搜索更加高效。在本文第二節(jié)中主要對(duì)網(wǎng)絡(luò)數(shù)據(jù)挖掘進(jìn)行討論,第三節(jié)介紹在網(wǎng)絡(luò)數(shù)據(jù)挖掘中使用遺傳算法的案例。
1 網(wǎng)絡(luò)數(shù)據(jù)挖掘
1.1 網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn)
S. Chakrabarti.指出網(wǎng)絡(luò)數(shù)據(jù)挖掘即是指在萬(wàn)維網(wǎng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)來(lái)提取人們感興趣的模式和知識(shí)[2]。網(wǎng)絡(luò)數(shù)據(jù)挖掘由于網(wǎng)絡(luò)的自身特點(diǎn)已經(jīng)成為一個(gè)獨(dú)立而重要的研究方向。對(duì)于網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn)可做以下歸納:未經(jīng)分類,海量,分布性廣泛,多種媒體類型并存,半結(jié)構(gòu)化,時(shí)間跨度大,維度高。
本文用圖1表示網(wǎng)絡(luò)。
在圖1中,結(jié)點(diǎn)表示網(wǎng)頁(yè),有向邊表示超鏈接,這些超鏈接包含了重要的信息,有助于實(shí)現(xiàn)信息的高效檢索。例如,在圖1中,許多結(jié)點(diǎn)的鏈接都指向A結(jié)點(diǎn),這就表明,結(jié)點(diǎn)A所代表的頁(yè)面很可能是某些領(lǐng)域的權(quán)威[3]。通常情況下,一個(gè)網(wǎng)站被描述成若干網(wǎng)頁(yè)的集合,在這個(gè)集合中,每個(gè)成員包含的對(duì)其他成員的連接數(shù)遠(yuǎn)多于外部網(wǎng)頁(yè)。
按照網(wǎng)絡(luò)數(shù)據(jù)挖掘的深度層次,可以將網(wǎng)絡(luò)數(shù)據(jù)挖掘歸為以下幾類:
1)基于內(nèi)容的數(shù)據(jù)挖掘:這種數(shù)據(jù)挖掘方式首先會(huì)對(duì)頁(yè)面中涉及的內(nèi)容進(jìn)行歸納總結(jié),生成摘要。而頁(yè)面的內(nèi)容種類很多,諸如文本、圖片、HTML代碼到圖和表等,根據(jù)這些內(nèi)容對(duì)網(wǎng)頁(yè)進(jìn)行分類,然后設(shè)計(jì)相應(yīng)的算法對(duì)這些網(wǎng)頁(yè)進(jìn)行檢索。對(duì)搜索結(jié)果進(jìn)行數(shù)據(jù)挖掘同樣是網(wǎng)絡(luò)內(nèi)容挖掘的一個(gè)組成部分。其中包括了對(duì)結(jié)果進(jìn)行總結(jié),將他們按照層次、標(biāo)題和摘要中的短語(yǔ)對(duì)文檔進(jìn)行歸類,以及對(duì)多個(gè)搜索引擎的搜索結(jié)果進(jìn)行合成和重組。最后將對(duì)數(shù)據(jù)進(jìn)行元數(shù)據(jù)挖掘。在信息檢索、文本挖掘、圖像挖掘和自然語(yǔ)言處理等方面的應(yīng)用都屬于這些類型。
2)基于網(wǎng)絡(luò)信息結(jié)構(gòu)的數(shù)據(jù)挖掘:這種挖掘方式涉及到通過(guò)萬(wàn)維網(wǎng)中文檔之間的超鏈接來(lái)提取知識(shí),這一做法往往能夠發(fā)現(xiàn)諸多網(wǎng)頁(yè)中某方面主題的權(quán)威頁(yè)面。結(jié)構(gòu)挖掘方面的重要應(yīng)用包括了查找重要的頁(yè)面、關(guān)聯(lián)頁(yè)面和主頁(yè),識(shí)別重要的模式和它們之間的相互關(guān)系。然而,網(wǎng)頁(yè)的信息不單單來(lái)自于這個(gè)頁(yè)面本身所含的內(nèi)容,還來(lái)自于其相鄰的頁(yè)面。在這里同時(shí)使用基于內(nèi)容的挖掘和基于結(jié)構(gòu)的挖掘可以達(dá)到效果互補(bǔ)的目的。
3)基于網(wǎng)絡(luò)數(shù)據(jù)用途的挖掘:此類數(shù)據(jù)挖掘從本質(zhì)上說(shuō)是對(duì)數(shù)據(jù)用途的挖掘。以網(wǎng)站為例進(jìn)行說(shuō)明:在客戶端,通過(guò)用戶的瀏覽歷史記錄來(lái)搜集數(shù)據(jù);在服務(wù)器端,通過(guò)請(qǐng)求日志搜集數(shù)據(jù)。通過(guò)這樣的數(shù)據(jù)挖掘,可以發(fā)現(xiàn)用戶訪問(wèn)頁(yè)面的類型,訪問(wèn)的時(shí)間和訪問(wèn)持續(xù)的時(shí)間,以及這個(gè)頁(yè)面被引用的次數(shù)。此類信息有助于實(shí)現(xiàn)對(duì)頁(yè)面的整理,最終實(shí)現(xiàn)高效快速的信息檢索。在商業(yè)領(lǐng)域中使用這一技術(shù)可以實(shí)現(xiàn)客戶價(jià)值評(píng)估、產(chǎn)品潛力發(fā)掘、客戶行為預(yù)測(cè)等。
1.2 網(wǎng)絡(luò)數(shù)據(jù)挖掘的組成和方法
Etzioni. O.提出可將網(wǎng)絡(luò)數(shù)據(jù)挖掘的過(guò)程分成信息檢索、信息提取、知識(shí)集成和分析四個(gè)部分[4]。圖2對(duì)網(wǎng)絡(luò)數(shù)據(jù)挖掘的四個(gè)組成部分進(jìn)行說(shuō)明:
圖2
信息檢索(Information Retrieval,IR):信息檢索是自動(dòng)對(duì)網(wǎng)絡(luò)中相關(guān)聯(lián)的文檔進(jìn)行搜索,其過(guò)程主要包括對(duì)文檔的表示、索引和搜索。
信息提取(Information Extraction,IE):信息提取是在文檔被檢索之后,自動(dòng)從中提取知識(shí),這一過(guò)程主要實(shí)現(xiàn)對(duì)文檔中主要字段的語(yǔ)義進(jìn)行識(shí)別。
信息集成(Generation):這一過(guò)程對(duì)已有的文檔進(jìn)行歸納,得到概要知識(shí)。在這里將使用分類、規(guī)則關(guān)聯(lián)等模式識(shí)別和機(jī)器學(xué)習(xí)的技術(shù)來(lái)提取信息。例如,將一個(gè)網(wǎng)站的主頁(yè)和其他頁(yè)面區(qū)分開(kāi)就是一個(gè)集成工作。
數(shù)據(jù)分析(Analysis):這一階段將對(duì)信息集成階段所生成的模式進(jìn)行解釋說(shuō)明。數(shù)據(jù)分析是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的問(wèn)題,必須在數(shù)據(jù)充足的前提下才可能提取有用的信息。
1.3 網(wǎng)絡(luò)數(shù)據(jù)挖掘面臨的挑戰(zhàn)與局限性
由于網(wǎng)絡(luò)數(shù)據(jù)本身的特身,網(wǎng)絡(luò)數(shù)據(jù)挖掘面臨如下問(wèn)題:1)由于網(wǎng)絡(luò)數(shù)據(jù)的匿名性和人為破壞而造成了數(shù)據(jù)的不可靠。2)存在噪聲。3)網(wǎng)絡(luò)數(shù)據(jù)是動(dòng)態(tài)的,且存在時(shí)間短暫。3)網(wǎng)絡(luò)數(shù)據(jù)缺乏結(jié)構(gòu)化處理,且類型各異。4)語(yǔ)義存在二義性。5)數(shù)據(jù)高度冗余。使用我們現(xiàn)有的工具和算法難以應(yīng)付如此復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)。在下一節(jié)中提出在查詢中使用遺傳算法實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)數(shù)據(jù)的搜索和數(shù)據(jù)挖掘的優(yōu)化。
2 在網(wǎng)絡(luò)數(shù)據(jù)挖掘中使用遺傳算法
遺傳算法和相關(guān)技術(shù)在網(wǎng)絡(luò)數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用包括信息查詢檢索、查詢優(yōu)化、文檔表示和分布式數(shù)據(jù)挖掘等[5],本文就信息查詢和查詢優(yōu)化方面對(duì)遺傳算法的應(yīng)用進(jìn)行闡述。
2.1 查詢和檢索
Marghny等人將遺傳算法用于元數(shù)據(jù)搜尋[6],使用這一方法對(duì)標(biāo)準(zhǔn)搜索引擎的搜索結(jié)果以一種優(yōu)化方式進(jìn)行組合,生成更令用戶感興趣的頁(yè)面,在文獻(xiàn)[6]中對(duì)適配函數(shù)進(jìn)行如下定義:
(a) 鏈接質(zhì)量函數(shù)
n表示用戶輸入的關(guān)鍵字的個(gè)數(shù),#Ki表示在鏈接L中關(guān)鍵字Ki出現(xiàn)的次數(shù)。
(b) 頁(yè)面質(zhì)量函數(shù)
m表示每個(gè)頁(yè)面中總的鏈接數(shù)。
(c) 平均質(zhì)量函數(shù)
Fmax(P)和Fmin(P)分別表示采用遺傳算法后頁(yè)面質(zhì)量函數(shù)的最大值和最小值。Fmax(P)的最大值是m*n,而Fmin(P)的最小值是0.
研究人員分別使用Yahoo,Google,AltaVista和MSN這四個(gè)搜索引擎針對(duì)不同的主題下載了300個(gè)頁(yè)面。在雜交點(diǎn)之后對(duì)選中的頁(yè)面交換雙親的鏈接,以實(shí)現(xiàn)雜交。
2.2 查詢優(yōu)化
查詢優(yōu)化使用一種基于適度回饋機(jī)制的技術(shù)。使用回饋的目的是通過(guò)使用相關(guān)和無(wú)關(guān)文檔集合來(lái)修改用戶的查詢,使用戶的查詢結(jié)果更接近于目標(biāo)文檔。將之前的查詢得到的關(guān)鍵字添加到當(dāng)前查詢中,同時(shí)將早期文檔中不相關(guān)的關(guān)鍵字刪除,通過(guò)這種辦法可以檢索到更多的關(guān)聯(lián)度更大的結(jié)果。
遺傳算法在查詢優(yōu)化上能夠發(fā)揮很大的作用。Z. Z. Nick和P. Themis.通過(guò)長(zhǎng)期監(jiān)控用戶的瀏覽習(xí)慣創(chuàng)建用戶模型[7]。使用遺傳算法對(duì)用戶查詢進(jìn)行修改,在這里文檔和查詢被表示成向量。每個(gè)個(gè)體被表示成查詢向量,用染色體表示關(guān)鍵字的權(quán)重或者關(guān)鍵字出現(xiàn)或未出現(xiàn)的頻率。M. Boughanem等人研制了一種新的查詢優(yōu)化技術(shù),在這一技術(shù)中,通過(guò)使用遺傳算法生成多個(gè)查詢,對(duì)文檔的不同區(qū)域進(jìn)行搜索,最終得到最優(yōu)查詢結(jié)果[8]。
Leroy等人在文獻(xiàn)[9]中解釋了在對(duì)上下文進(jìn)行動(dòng)態(tài)查詢時(shí)使用基于遺傳算法的優(yōu)化策略有助于提高偶然用戶的查詢效率。由于偶然用戶在Internet上進(jìn)行查詢的時(shí)候只使用少數(shù)的關(guān)鍵字,這樣得到的查詢結(jié)果很少而且相當(dāng)不精確。但是,大多數(shù)用戶在查詢時(shí)使用相同的搜索引擎,在某一主題的查詢方面,可總結(jié)大多數(shù)用戶的查詢行為,從中提取有價(jià)值的信息,從而對(duì)偶然用戶的查詢要求能夠進(jìn)行更高效的處理。在遺傳編程的實(shí)現(xiàn)上,每個(gè)染色體被設(shè)計(jì)成一個(gè)查詢,它有五個(gè)位,每個(gè)位由一個(gè)適當(dāng)?shù)年P(guān)鍵字填充。在計(jì)算染色體適應(yīng)度時(shí),將查詢編碼發(fā)送給查詢引擎,查詢引擎將返回十條最主要的文檔。
3 小結(jié)
為了充分發(fā)揮網(wǎng)絡(luò)的潛能,讓網(wǎng)絡(luò)查詢更加智能化,需要對(duì)查詢進(jìn)行改進(jìn)。在網(wǎng)絡(luò)數(shù)據(jù)挖掘及其相關(guān)領(lǐng)域的研究在查詢優(yōu)化方面發(fā)揮著十分重要的作用。網(wǎng)絡(luò)數(shù)據(jù)挖掘是一個(gè)快速發(fā)展的領(lǐng)域,在這個(gè)領(lǐng)域,研究人員提出各種方法對(duì)計(jì)算方法進(jìn)行改進(jìn)。在該文中,闡述了網(wǎng)絡(luò)數(shù)據(jù)挖掘過(guò)程、組成、特點(diǎn)以及網(wǎng)絡(luò)數(shù)據(jù)挖掘所面臨的挑戰(zhàn)。詳細(xì)討論了使用遺傳算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)挖掘中不同問(wèn)題的解決方法。
雖然使用遺傳算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘很有發(fā)展?jié)摿?但是目前這方面的應(yīng)用和相關(guān)文獻(xiàn)還比較有限,為研究人員的進(jìn)一步研究留下很大的空間。
參考文獻(xiàn):
[1] Broder A,Kumar R,Maghoul F,Raghavan P,Rajagopalan S,Stata R,Tomkins A,Wiener J.Graph structure in the Web[C].In Proceedings of the Ninth International World Wide Web Conference.Elsevier,2000.
[2] Chakrabarti S.Mining the Web:Discovering Knowledge from Hypertext Data[M].Morgan Kaufmann,2002.
[3] Kleinberg M.Authoritative sources in hyperlinked environment[J].In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms,1998.
[4] Etzioni.,O."The World Wide Web:Quagmire or gold mine?"[J].Communications of the ACM 1996,39(11):65-68.
[5] Pal,S.K.,V.Talwar,et al."Web mining in soft computing framework:Relevance,state of the art and future directions"[J].IEEE Transactions Neural Networks 2002,13(5):1163-1177.
[6] Marghny,M.H.and A.F.Ali.Web mining based on genetic algorithm[J].In Proceedings of ICGST International Conference on Articial Intelligence and Machine Learning(AIML-05),2005.
[7] Nick Z Z,Themis P.Web search using a genetic algorithm[J].IEEE Internet Comput,2001,5(2):18-26.
篇7
關(guān)鍵詞:隱私保護(hù);數(shù)據(jù)挖掘;數(shù)據(jù)庫(kù)應(yīng)用
0、引言
隨著網(wǎng)絡(luò)技術(shù)和通信技術(shù)的日益成熟以及網(wǎng)絡(luò)通信帶寬的不斷增加,越來(lái)越多的數(shù)據(jù)在網(wǎng)上進(jìn)行和交換,豐富的數(shù)據(jù)資源一方面加大了數(shù)據(jù)分析和數(shù)據(jù)挖掘的需求,另一方面,數(shù)據(jù)資源的隱私保護(hù)問(wèn)題給數(shù)據(jù)挖掘提出了新的挑戰(zhàn)。
1 隱私保護(hù)中的關(guān)鍵問(wèn)題
1.1 隱私
隱私是指?jìng)€(gè)人、機(jī)構(gòu)等實(shí)體不愿意被外部知曉的信息[1]。比如,個(gè)人的行為模式、興趣愛(ài)好、健康狀況、公司的財(cái)務(wù)狀況等。個(gè)人隱私即為數(shù)據(jù)所有者不愿意被披露的敏感信息,如個(gè)人的收入水平、健康狀況、興趣愛(ài)好等。由于人們對(duì)隱私的限定標(biāo)準(zhǔn)不同,對(duì)隱私的定義也有所差異。一般來(lái)說(shuō),任何可以確認(rèn)特定個(gè)人的,但個(gè)人不愿意披露的信息都可以稱為個(gè)人隱私。
1.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),就是從大量數(shù)據(jù)中獲取有效地、新穎的、潛在有用的、最終可理解的模式的非平凡過(guò)程,簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)[2]。數(shù)據(jù)挖掘可以對(duì)得到的數(shù)據(jù)庫(kù)查詢結(jié)果進(jìn)行高效、智能化的處理,從中自動(dòng)獲取先前未知的模式和信息。但是,倘若毫無(wú)限制地進(jìn)行挖掘,必然會(huì)對(duì)一些隱私數(shù)據(jù)造成侵犯。從本質(zhì)上說(shuō),數(shù)據(jù)挖掘是研究如何利用數(shù)據(jù)庫(kù)中現(xiàn)有的數(shù)據(jù)推導(dǎo)出未知的數(shù)據(jù),而隱私保護(hù)則是防止用戶推出敏感數(shù)據(jù)。形象地說(shuō),數(shù)據(jù)挖掘是進(jìn)攻,而隱私保護(hù)則是防守。
1.3 隱私保護(hù)度量標(biāo)準(zhǔn)
隱私保護(hù)技術(shù)在保護(hù)隱私的同時(shí),還要兼顧應(yīng)用價(jià)值和計(jì)算開(kāi)銷。綜合起來(lái),隱私保護(hù)技術(shù)的度量標(biāo)準(zhǔn)有以下三個(gè)方面:
(1)隱私保護(hù)度。 一般通過(guò)數(shù)據(jù)隱私的披露風(fēng)險(xiǎn)來(lái)反映,披露風(fēng)險(xiǎn)越小,隱私保護(hù)度越高[3]。
(2)數(shù)據(jù)質(zhì)量/服務(wù)質(zhì)量。在數(shù)據(jù)中,數(shù)據(jù)質(zhì)量是指數(shù)據(jù)的可用性,數(shù)據(jù)的可用性越高,數(shù)據(jù)質(zhì)量越好。一般采用信息丟失率(即信息扭曲度)[4]來(lái)衡量數(shù)據(jù)質(zhì)量的好壞。
(3)算法性能。一般利用時(shí)間復(fù)雜度對(duì)算法性能進(jìn)行度量。例如,時(shí)間復(fù)雜度為O(k)的近似k-匿名算法,顯然優(yōu)于復(fù)雜度為O(klogk)的近似算法。
2 數(shù)據(jù)隱私保護(hù)技術(shù)
在上述度量標(biāo)準(zhǔn)的基礎(chǔ)上,下面開(kāi)始對(duì)幾種主流的數(shù)據(jù)隱私保護(hù)技術(shù)進(jìn)行介紹和分析。
2.1 基于匿名的隱私保護(hù)技術(shù)
匿名技術(shù)是隱私保護(hù)中廣泛使用的技術(shù),通過(guò)隱藏或不收集用戶的身份敏感信息,允許用戶提交數(shù)據(jù)而且不暴露自己的身份[5]。因其處理簡(jiǎn)單,在數(shù)據(jù)庫(kù)應(yīng)用中較容易使用。然而通過(guò)匿名技術(shù)收集的數(shù)據(jù)難以保證質(zhì)量,因?yàn)樵跊](méi)有身份確認(rèn)的情況下大量用戶會(huì)提交無(wú)用的隨機(jī)數(shù)據(jù)。并且系統(tǒng)容易受到競(jìng)爭(zhēng)對(duì)手的攻擊。例如一個(gè)公司在數(shù)據(jù)庫(kù)系統(tǒng)中輸入大量的偽造數(shù)據(jù)來(lái)使自己生產(chǎn)的產(chǎn)品獲得更多的推薦。因此在數(shù)據(jù)庫(kù)應(yīng)用中確認(rèn)用戶的身份是十分必要的。
2.2 基于關(guān)聯(lián)規(guī)則的隱私保護(hù)技術(shù)
關(guān)聯(lián)規(guī)則挖掘是一種典型的數(shù)據(jù)挖掘方法,最早由Agrawal等人提出。關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)存在于數(shù)據(jù)庫(kù)中的項(xiàng)目或?qū)傩蚤g的有趣關(guān)系。這些關(guān)系是預(yù)先未知的和被隱藏的,也就是說(shuō)不能通過(guò)數(shù)據(jù)庫(kù)管理系統(tǒng)所提供的邏輯操作或統(tǒng)計(jì)的方法得出?,F(xiàn)有的各種關(guān)聯(lián)規(guī)則挖掘算法大致可分為搜索算法、層次算法、數(shù)據(jù)集劃分算法、抽樣算法等。關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘中最重要的方法之一,已經(jīng)也在隱私保護(hù)方面取得了一定的研究成果,可以利用到基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)服務(wù)中。關(guān)聯(lián)規(guī)則中隱私保護(hù)的基本策略有數(shù)據(jù)干擾和查詢限制兩大類[6]。
數(shù)據(jù)干擾策略就是對(duì)原始數(shù)據(jù)按照一定的規(guī)則進(jìn)行預(yù)變換,然后在經(jīng)過(guò)干擾的數(shù)據(jù)上運(yùn)行數(shù)據(jù)挖掘算法,得到所需的模式和規(guī)則。
查詢限制策略則是通過(guò)數(shù)據(jù)隱藏等方式來(lái)改變特定規(guī)則的支持度和置信度,然后用概率統(tǒng)計(jì)的方法或者分布式計(jì)算的方法得到所需的挖掘結(jié)果。
2.3 基于協(xié)同過(guò)濾的隱私保護(hù)技術(shù)
協(xié)同過(guò)濾推薦技術(shù)基于相似用戶群的興趣向目標(biāo)用戶產(chǎn)生推薦,是當(dāng)前數(shù)據(jù)庫(kù)服務(wù)中最成功、使用最廣泛的推薦技術(shù)之一。它只依賴于用戶對(duì)項(xiàng)目的評(píng)分矩陣,因此對(duì)于各種特定應(yīng)用都有很好的適應(yīng)性,可提高數(shù)據(jù)應(yīng)用系統(tǒng)的可擴(kuò)展性和推薦質(zhì)量。與其他數(shù)據(jù)挖掘技術(shù)一起,在協(xié)同過(guò)濾算法中加入隱私保護(hù)機(jī)制近年來(lái)引起了越來(lái)越多的學(xué)者的研究興趣,是一個(gè)嶄新的領(lǐng)域,需要得到更多的關(guān)注。目前協(xié)同過(guò)濾中隱私保護(hù)技術(shù)基本可以分為基于密碼學(xué)的方法和數(shù)據(jù)變換兩大類[7]。
基于密碼學(xué)的方法是通過(guò)對(duì)原始數(shù)據(jù)進(jìn)行加密處理的方法。安全多方計(jì)算是分布式環(huán)境下的一種加密方法,是目前數(shù)據(jù)服務(wù)協(xié)同過(guò)濾中最行之有效的隱私保護(hù)方法。
數(shù)據(jù)變換是對(duì)原始數(shù)據(jù)進(jìn)行變換處理的方法。Clifton等人討論了幾種防止對(duì)數(shù)據(jù)過(guò)分挖掘的方法,主要包括對(duì)數(shù)據(jù)增加噪聲、消除數(shù)據(jù)中的附加信息、故意增加錯(cuò)誤數(shù)據(jù)等。數(shù)據(jù)變換在協(xié)同過(guò)濾的隱私保護(hù)中得到了廣泛應(yīng)用。
3 數(shù)據(jù)隱私保護(hù)技術(shù)的發(fā)展
在總結(jié)當(dāng)前數(shù)據(jù)隱私保護(hù)現(xiàn)狀的前提下,對(duì)于未來(lái)數(shù)據(jù)隱私保護(hù)技術(shù)的發(fā)展,可以從如下幾點(diǎn)入手:
(1)高準(zhǔn)確度的方法。盡可能完整地生成相應(yīng)規(guī)則,而不遺漏重要規(guī)則,并且所生成規(guī)則的準(zhǔn)確度也不應(yīng)有明顯的降低。
(2)高性能的方法。提出具有優(yōu)良性能的相關(guān)方法,包括時(shí)間性能與空間開(kāi)銷,以及網(wǎng)絡(luò)開(kāi)銷。
(3)適用于分布環(huán)境的方法。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,如何在分布式環(huán)境下進(jìn)行各種隱私保護(hù)的數(shù)據(jù)挖掘,也將是一個(gè)重要的研究方向。
4 結(jié)束語(yǔ)
本文綜述了數(shù)據(jù)隱私保護(hù)技術(shù)研究的發(fā)展現(xiàn)狀,并分別對(duì)當(dāng)前主流的三類隱私保護(hù)技術(shù)進(jìn)行了分析總結(jié),還對(duì)未來(lái)數(shù)據(jù)隱私保護(hù)技術(shù)的發(fā)展提出了幾點(diǎn)看法。然而數(shù)據(jù)隱私保護(hù)技術(shù)的研究仍然面臨著許多挑戰(zhàn),需要更深入的研究使其在實(shí)際系統(tǒng)中得到更多應(yīng)用,真正有效保護(hù)用戶的信息和隱私安全。隨著信息技術(shù)的發(fā)展,數(shù)據(jù)庫(kù)系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫(kù)服務(wù)中隱私保護(hù)技術(shù)也會(huì)得到更多的重視和研究。(作者單位:天津師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院)
參考文獻(xiàn):
[1] 周水庚,李豐,陶宇飛,等.面向數(shù)據(jù)庫(kù)應(yīng)用的隱私保護(hù)研究綜述[J].軟件學(xué)報(bào),2009,32(5):847-858.
[2] 華蓓,鐘誠(chéng).?dāng)?shù)據(jù)挖掘中的隱私保護(hù)技術(shù)進(jìn)展分析[J].微電子學(xué)與計(jì)算機(jī),2009,26(8):38-41.
[3] 田秀霞,王曉玲,高明,等.?dāng)?shù)據(jù)庫(kù)服務(wù)——安全與隱私保護(hù)[J].軟件學(xué)報(bào),2010,21(5):991-1006.
[4] 朱勤,駱軼姝,樂(lè)嘉錦.?dāng)?shù)據(jù)庫(kù)隱私保護(hù)技術(shù)研究[J].東華大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,32(5):21-25.
[5] 王平水,王建.匿名化隱私保護(hù)技術(shù)研究綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32(2):248-252.
篇8
【關(guān)鍵詞】可視化 數(shù)據(jù)挖掘 技術(shù)分析
傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)在應(yīng)用過(guò)程中,應(yīng)用者是無(wú)法觀察到數(shù)據(jù)挖掘的過(guò)程,只能夠獲得結(jié)果,在數(shù)據(jù)分析與挖掘的過(guò)程中使用者并不能直觀的觀察過(guò)程,其往往會(huì)導(dǎo)致使用者更與單一性的分析數(shù)據(jù)挖掘結(jié)果,失去數(shù)據(jù)挖掘的意義??梢暬瘮?shù)據(jù)挖掘技術(shù)結(jié)合了計(jì)算機(jī)與用戶的視覺(jué)感受,是一種能夠直觀觀察的數(shù)據(jù)挖掘方式,在數(shù)據(jù)挖掘過(guò)程為用戶提供直觀性的信息數(shù)據(jù),便于用戶交互流量數(shù)據(jù),從而極大程度提升數(shù)據(jù)挖掘的效率、準(zhǔn)確性、有效性,獲得更有使用價(jià)值意義的數(shù)據(jù)結(jié)果。
1 可視化及數(shù)據(jù)挖掘的含義
所謂的可視化,也就是指人借助視覺(jué)觀察并在思維中形成客觀事物影像的過(guò)程,這是一種心智處理的過(guò)程??梢暬軌蛱嵘藗儗?duì)事物的觀察準(zhǔn)確性并形成一個(gè)完整的整體概念??梢暬Y(jié)果能夠便于人們理解和記憶,并且對(duì)于信息的表達(dá)方式、處理方式是其他方式無(wú)法替代的??梢暬夹g(shù)普遍是以人所習(xí)慣的圖形、圖像為工具融入到信息處理技術(shù)當(dāng)中,主要是將信息化數(shù)據(jù)以更加直觀的方式讓人所接受和理解。通過(guò)仿真化、形象化、模擬化等全新技術(shù)方式重現(xiàn)出來(lái)??梢暬粌H可以以客觀的現(xiàn)實(shí)展現(xiàn)數(shù)據(jù)內(nèi)容,還可以為使用者提供富有規(guī)律、客觀、真實(shí)的數(shù)據(jù)信息。數(shù)據(jù)挖掘主要是指借助檢測(cè)和分析數(shù)據(jù),獲得更多潛在的有使用價(jià)值的信息。數(shù)據(jù)挖掘的定義主要分為狹x與廣義。狹義的數(shù)據(jù)挖掘主要是按照已經(jīng)處理過(guò)或分析過(guò)的數(shù)據(jù),從當(dāng)中提煉出有使用意義的信息數(shù)據(jù),從廣義上分析,主要是在數(shù)據(jù)庫(kù)當(dāng)中分析出富有應(yīng)用價(jià)值的數(shù)據(jù)信息??梢暬瘮?shù)據(jù)挖掘?qū)τ诋?dāng)前許多企業(yè)而言均有著顯著的應(yīng)用意義,尤其是在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)局逐漸成為現(xiàn)代化企業(yè)分析市場(chǎng)需求、掌握企業(yè)客戶群體的主要手段。
2 可視化數(shù)據(jù)挖掘的提出
由上述分析可以發(fā)現(xiàn),可視化技術(shù)與數(shù)據(jù)挖掘技術(shù)本質(zhì)上是兩個(gè)不同的領(lǐng)域,但是都與計(jì)算機(jī)技術(shù)有一定程度的關(guān)聯(lián)性。數(shù)據(jù)挖掘的過(guò)程需要可視化技術(shù)的支持,可視化分析本身也是數(shù)據(jù)挖掘的一個(gè)過(guò)程。其中,可視化主要是指將某一些無(wú)法看見(jiàn)的或抽象的事物通過(guò)能夠看見(jiàn)的圖像或圖形可視化出來(lái);可視化主要是采用計(jì)算機(jī)創(chuàng)建相應(yīng)的圖形,從而理解哪些大量、復(fù)雜、無(wú)需的數(shù)據(jù)信息??梢暬瘮?shù)據(jù)挖掘主要有三個(gè)階段,數(shù)據(jù)準(zhǔn)備、模型生成、知識(shí)使用以及流程可視化。
數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)的準(zhǔn)備階段主要是借助可視化數(shù)據(jù)挖掘技術(shù)將數(shù)據(jù)預(yù)處理的過(guò)程展現(xiàn)出來(lái),簡(jiǎn)單而言,就是將復(fù)雜、大量的原始數(shù)據(jù)通過(guò)某種規(guī)律進(jìn)行展現(xiàn)和規(guī)劃,這里所致的可視化技術(shù)主要是包括數(shù)據(jù)的轉(zhuǎn)換、丟失值得處理、數(shù)據(jù)的裁剪以及數(shù)據(jù)的采樣等;生成模型:生成模型這一過(guò)程中主要是將目標(biāo)數(shù)據(jù)庫(kù)通過(guò)數(shù)據(jù)挖掘操作技術(shù)細(xì)化數(shù)據(jù)挖掘每一個(gè)細(xì)節(jié)、過(guò)程,并將其展現(xiàn)出來(lái)。其中主要包括模型的選擇、參數(shù)的設(shè)計(jì)、數(shù)據(jù)的訓(xùn)練集、數(shù)據(jù)的挖掘細(xì)節(jié)以及結(jié)果的儲(chǔ)存等過(guò)程;數(shù)據(jù)使用。在數(shù)據(jù)使用這一階段中,可視化數(shù)據(jù)挖掘技術(shù)的操作目的主要是把數(shù)據(jù)挖掘的結(jié)果通過(guò)某種可視化方式展現(xiàn)出來(lái),例如將結(jié)果通過(guò)樹(shù)形圖形展現(xiàn)出來(lái),從而為數(shù)據(jù)使用者提供更加真實(shí)、可靠、完整的數(shù)據(jù)分析結(jié)果。普遍狀況下,數(shù)據(jù)挖掘的結(jié)果抓喲分為分類與關(guān)聯(lián)兩種,其都是以人類視覺(jué)能容易接受的方式展現(xiàn);流程的可視化。數(shù)據(jù)挖掘的流程可視化最終目的是將數(shù)據(jù)挖掘的整個(gè)過(guò)程以某種可視化方式顯示出來(lái),讓用戶看懂,這也是為知識(shí)分析師、企業(yè)管理者提供更多依據(jù)進(jìn)行決策和分析。
3 可視化數(shù)據(jù)挖掘的主要技術(shù)分析
可視化數(shù)據(jù)挖掘的主要技術(shù)主要是以下四種:1、標(biāo)準(zhǔn)2D與3D技術(shù)。這一技術(shù)主要是用于統(tǒng)計(jì)應(yīng)用,但是不是能應(yīng)用于多維數(shù)據(jù)。主要是借助條形圖、柱形圖和餅圖等常用的標(biāo)準(zhǔn)2D、3D技術(shù),這也是可視化的主要方式和結(jié)果;2、分層技術(shù)。分層技術(shù)的基本意義就是按照層次的特征,將多維數(shù)據(jù)空間劃分為多個(gè)子空間,并按照各個(gè)層之間的關(guān)聯(lián)性,將子空間以層次的結(jié)構(gòu)形式重新進(jìn)行組建,并以圖形的形式顯示。分層技術(shù)主要依據(jù)層次軸、雙曲線、錐形圖等時(shí)機(jī)方式進(jìn)行描述;3、幾何變換技術(shù)。幾何變換技術(shù)主要是對(duì)數(shù)據(jù)集進(jìn)行降維處理。其基本意思就是借助投影、映射將多維數(shù)據(jù)轉(zhuǎn)變?yōu)?D、2D的形式,準(zhǔn)便成為人視覺(jué)所能夠理解的投影。幾何變換技術(shù)適用于多維數(shù)、低數(shù)據(jù)量的數(shù)據(jù)庫(kù)。其實(shí)施方式主要有平行坐標(biāo)法與投影追蹤等;4、面向像素技術(shù)。面向像素技術(shù)主要是分析像素點(diǎn)在屏幕當(dāng)中的分布狀況,其能對(duì)于一些數(shù)據(jù)量龐大的數(shù)據(jù)庫(kù)進(jìn)行細(xì)致的分析,進(jìn)而獲得數(shù)據(jù)的整體結(jié)構(gòu)和分布狀況。因?yàn)槊嫦蛳袼丶夹g(shù)分析的是像素點(diǎn),所以其能夠按照分析目標(biāo)的不同,選擇不同的排列方式,其應(yīng)用方式主要是遞歸技術(shù)與數(shù)據(jù)管道技術(shù)。
例如,在信貸方面的應(yīng)用中,信貸數(shù)據(jù)的挖掘和普通數(shù)據(jù)挖掘不相同,主要是統(tǒng)計(jì)和挖掘一些信用度較高的用戶。金融行業(yè)的信貸欺騙行為不斷增多,這也為可視化數(shù)據(jù)挖掘技術(shù)的應(yīng)用提供了更多的空間,借助挖掘技術(shù)防止信貸欺騙的發(fā)生,從而提高信貸企業(yè)的經(jīng)濟(jì)利益。借助可視化數(shù)據(jù)挖掘技術(shù),應(yīng)用異常檢測(cè)與人工神經(jīng)網(wǎng)絡(luò)的方式檢測(cè)信貸申請(qǐng)的過(guò)程,并借助Clementine軟件對(duì)所獲得的數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)一性分析和記錄,對(duì)具備信貸欠款和拖欠的信貸人統(tǒng)計(jì)到一起,并在信用貸款的申請(qǐng)中計(jì)算其可能存在的信用欺騙度,首先,是多次申請(qǐng)信貸的記錄;其次,個(gè)人或企業(yè)的經(jīng)濟(jì)狀況以及信貸類型是否符合企業(yè)的記錄。對(duì)于一些偏離長(zhǎng)條的行為進(jìn)行記錄并標(biāo)記,借助可視化的數(shù)據(jù)挖掘過(guò)程,決策者能夠更加準(zhǔn)確的掌握是否能夠放貸于該個(gè)人或企業(yè)。
4 總結(jié)
綜上所述,在大數(shù)據(jù)時(shí)代環(huán)境下,做好數(shù)據(jù)挖掘工作有著非常明顯的作用和意義,假設(shè)如果無(wú)法完成良好的數(shù)據(jù)挖掘技術(shù)工作,便無(wú)法展現(xiàn)大數(shù)據(jù)的優(yōu)勢(shì),導(dǎo)致缺乏針對(duì)性的數(shù)據(jù)信息,從而逐漸降低企業(yè)的競(jìng)爭(zhēng)力。此外,伴隨著信息技術(shù)與計(jì)算機(jī)技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)必然會(huì)隨之創(chuàng)新,對(duì)此,就必須相關(guān)工作者及時(shí)掌握社會(huì)上全新的數(shù)據(jù)挖掘技術(shù),并將其合理應(yīng)用。
參考文獻(xiàn)
[1]耿學(xué)華,傅德勝.可視化數(shù)據(jù)挖掘技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2006(02):85-87.
[2]段曉君,杜小勇,易東云.可視化數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2000(01):54-56.
[3]張俊.可視化數(shù)據(jù)挖掘技術(shù)的研究與實(shí)現(xiàn)[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2013(03):58-61+92.
篇9
關(guān)鍵詞:信息技術(shù);數(shù)據(jù)挖掘;醫(yī)院管理;應(yīng)用
中圖分類號(hào):R954;F230 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2017)11-0186-02
一、醫(yī)院管理數(shù)據(jù)挖掘應(yīng)用過(guò)程
1.確定挖掘?qū)ο?。醫(yī)院管理工作是一個(gè)復(fù)雜的系統(tǒng),涉及到醫(yī)生、患者、財(cái)務(wù)和后勤保障等多個(gè)方面,使用數(shù)據(jù)挖掘技術(shù)應(yīng)當(dāng)確定挖掘的對(duì)象和具體的內(nèi)容,圍繞著具體問(wèn)題和具體目標(biāo)開(kāi)展數(shù)據(jù)挖掘工作。否則數(shù)據(jù)挖掘工作是不可停止和無(wú)法有效預(yù)測(cè)的。盲目進(jìn)行數(shù)據(jù)挖掘,不僅難度較大,而且難以評(píng)價(jià)其有效性。
2.做好準(zhǔn)備工作。圍繞著挖掘?qū)ο?,還應(yīng)當(dāng)確定需要哪些數(shù)據(jù)支持,從可供挖掘的數(shù)據(jù)資源中篩選出對(duì)問(wèn)題或目標(biāo)有價(jià)值的數(shù)據(jù)源,保證挖掘篩選出的數(shù)據(jù)信息對(duì)解決問(wèn)題有價(jià)值。在確定選擇數(shù)據(jù)的基本標(biāo)準(zhǔn)后,還要對(duì)數(shù)據(jù)進(jìn)行預(yù)先處理,著力做好數(shù)據(jù)清洗工作,消除可能存在的數(shù)據(jù)冗余和數(shù)據(jù)值不一致問(wèn)題,避免錯(cuò)誤數(shù)據(jù)的存在,著重保證最終測(cè)量結(jié)果的準(zhǔn)確性。通常數(shù)據(jù)準(zhǔn)備階段在數(shù)據(jù)挖掘中占有重要的工作量,數(shù)據(jù)挖掘的時(shí)間主要消耗在準(zhǔn)備階段。
3.建立分析模型。建立數(shù)據(jù)分析模型是數(shù)據(jù)挖掘工作的核心,應(yīng)當(dāng)從數(shù)據(jù)分析階段開(kāi)始,就要為最終的數(shù)據(jù)模型選擇確定變量,從數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)信息中找出相應(yīng)的數(shù)據(jù)集合,然后進(jìn)行必要的數(shù)據(jù)轉(zhuǎn)換,最后得到需要的變量。數(shù)據(jù)分析模型的建立應(yīng)當(dāng)保證其精確性、可理解性,以及發(fā)揮出性能方面的作用。
4.數(shù)據(jù)挖掘。根據(jù)數(shù)據(jù)模型,對(duì)數(shù)據(jù)庫(kù)中的信息進(jìn)行換算篩選,這一過(guò)程主要通過(guò)計(jì)算機(jī)自動(dòng)完成,最終要圍繞篩選出的數(shù)據(jù)信息,對(duì)挖掘結(jié)果進(jìn)行評(píng)估和解釋工作,使數(shù)據(jù)信息得到有效應(yīng)用,從而形成關(guān)于醫(yī)院管理的新知識(shí)。
5.數(shù)據(jù)呈現(xiàn)。在數(shù)據(jù)挖掘處理后,需要對(duì)數(shù)據(jù)挖掘工作獲得的新知識(shí)進(jìn)行重新的組織,把新的管理方式以簡(jiǎn)單的方式呈現(xiàn)給醫(yī)院的管理人員,使新知識(shí)在醫(yī)院管理中得到有效的利用。
二、醫(yī)院管理數(shù)據(jù)挖掘基本方法
1.數(shù)據(jù)描述方法。數(shù)據(jù)挖掘的主要應(yīng)用方向在于挖掘出醫(yī)院數(shù)據(jù)信息庫(kù)中潛藏的和被忽略的具體細(xì)節(jié)數(shù)據(jù)。首先,采用數(shù)據(jù)挖掘的描述方法可以找到潛藏在醫(yī)院數(shù)據(jù)庫(kù)中的各種數(shù)據(jù)信息,實(shí)現(xiàn)醫(yī)療數(shù)據(jù)的分類匯總目標(biāo)。其次,可以把醫(yī)院數(shù)據(jù)庫(kù)中的數(shù)據(jù)信息按照不同的特征予以分類處理,實(shí)現(xiàn)數(shù)據(jù)的一般與個(gè)別的有效對(duì)比,從而用個(gè)別數(shù)據(jù)更好進(jìn)行醫(yī)學(xué)研究和指導(dǎo)醫(yī)院管理工作。例如,數(shù)據(jù)描述法可以用來(lái)確定不同患者的不同醫(yī)療需求類型,通過(guò)對(duì)患者年齡、性別、職業(yè)、地區(qū)等特征數(shù)據(jù)的采集,能夠掌握不同類型患者的醫(yī)療需求,從而采用有針對(duì)性的措施來(lái)切實(shí)提高對(duì)患者的服務(wù)質(zhì)量,切實(shí)解決患者就醫(yī)存在的瓶頸問(wèn)題,不斷提高患者的就診效率。
2.聚類分析方法。聚類分析的主要做法對(duì)同一類數(shù)據(jù)的相似性進(jìn)行分析,在同類的內(nèi)部找出數(shù)據(jù)的相似與差異性,它的主要目的是盡可能的綜合縮小數(shù)據(jù)之間的距離,或是同一類數(shù)據(jù)中的相似性進(jìn)行放大,從而得出同類數(shù)據(jù)之間的異同。例如,數(shù)控挖掘可以廣泛的應(yīng)用到醫(yī)生評(píng)價(jià)中,醫(yī)院管理部門可以將患者對(duì)醫(yī)生的選項(xiàng)轉(zhuǎn)換成相應(yīng)的分值,從而找出患者對(duì)醫(yī)生專業(yè)水平、職業(yè)道德、處置措施等方面的問(wèn)題。在剔除不全面的評(píng)價(jià)信息后,就可以得到所有病人對(duì)醫(yī)生的基本態(tài)度,如果對(duì)醫(yī)生的評(píng)價(jià)過(guò)低,說(shuō)明醫(yī)生的工作存在著需要改進(jìn)的地方,這樣可以得到更精準(zhǔn)的評(píng)價(jià)。
3.關(guān)聯(lián)分析方法。關(guān)聯(lián)分析主要目的是在散亂的數(shù)據(jù)信息中找出數(shù)據(jù)之間的關(guān)聯(lián)性,從而分析量與量之間的變化關(guān)系,進(jìn)一步達(dá)到對(duì)數(shù)據(jù)的合理控制目的,通過(guò)量與量之間關(guān)系的確定,可以形成描述對(duì)象之間關(guān)系的報(bào)告,進(jìn)而對(duì)醫(yī)院的具體工作項(xiàng)目之間的關(guān)聯(lián)性進(jìn)行評(píng)估,為順利的實(shí)現(xiàn)醫(yī)院部分與部分之是的改革提供必要依據(jù),促進(jìn)醫(yī)院管理秩序的進(jìn)一步提高。例如,為了提高醫(yī)院質(zhì)量管理水平,可以對(duì)患者的住院天數(shù)、診療費(fèi)用、方案等進(jìn)行綜合的對(duì)比,找出不同類別數(shù)據(jù)之間的關(guān)聯(lián)性,在保證主要指標(biāo)不變的前提下,盡可能的優(yōu)化某種數(shù)據(jù),從而找出診療質(zhì)量對(duì)患者承擔(dān)費(fèi)用、住院時(shí)間的影響。再如,探究滅菌與消毒效果之間的關(guān)系,可以提高手術(shù)室感染工作的管理,切提高無(wú)菌器械的質(zhì)量,并且建立起診療環(huán)境的實(shí)時(shí)監(jiān)控系統(tǒng),全面提高診療環(huán)境監(jiān)控質(zhì)量。
4.時(shí)序模式分析。以時(shí)間作為基本的標(biāo)準(zhǔn)對(duì)各種數(shù)據(jù)信息進(jìn)行分析,對(duì)數(shù)據(jù)中重復(fù)出現(xiàn)和重復(fù)發(fā)生的現(xiàn)象進(jìn)行分析,這種模式主要用來(lái)對(duì)醫(yī)院管理的趨勢(shì)進(jìn)行分析,從而達(dá)到合理預(yù)判醫(yī)院管理工作的時(shí)效性,未來(lái)可能遇到的問(wèn)題等。例如,通過(guò)對(duì)患者的入院季節(jié)性分析,就可以用來(lái)預(yù)測(cè)門診的階段性就診人數(shù)據(jù)的變化,從而更好的分配醫(yī)療資源,使醫(yī)院管理者在合理預(yù)判的基礎(chǔ)上,能夠多儲(chǔ)備季節(jié)性的藥品,以防備接下來(lái)可能到來(lái)的某種疾病的高發(fā)期,進(jìn)一步起到積極預(yù)防和有備無(wú)患的效果,而且還能提高患者的滿意度。
三、醫(yī)院管理數(shù)據(jù)挖掘應(yīng)用方向
1.實(shí)現(xiàn)各種管理功能。數(shù)據(jù)挖掘可以廣泛應(yīng)用于醫(yī)院管理的各個(gè)方面,全面提高醫(yī)院管理的水平,可以說(shuō),數(shù)據(jù)挖掘技術(shù)在醫(yī)院管理方面有著無(wú)限的應(yīng)用廣度。首先,它可以用來(lái)進(jìn)行全面的數(shù)據(jù)統(tǒng)計(jì)工作,運(yùn)用先進(jìn)的數(shù)學(xué)統(tǒng)計(jì)方法對(duì)醫(yī)院日常運(yùn)行中產(chǎn)生的所有數(shù)據(jù)信息進(jìn)行積累,并且從定量和定性角度對(duì)數(shù)據(jù)進(jìn)行研究。例如,在影像醫(yī)學(xué)中可以對(duì)病人的影像學(xué)數(shù)據(jù)進(jìn)行分析,對(duì)病人的被監(jiān)護(hù)情況進(jìn)行統(tǒng)計(jì),找出病人的共同特殊以便對(duì)癥治療。其次,可以用來(lái)發(fā)現(xiàn)新知識(shí)。在醫(yī)院日常管理中有大量的數(shù)據(jù)信息是隱含的和不易被察覺(jué)的,通過(guò)數(shù)據(jù)關(guān)聯(lián)的分析方式,可以發(fā)現(xiàn)某些治療效果的共同特征以及個(gè)性特征,從而起到對(duì)患者的提醒作用,指導(dǎo)病人對(duì)各種情況進(jìn)行有效預(yù)防,并總結(jié)出更為科學(xué)的治療方案。
2.實(shí)現(xiàn)對(duì)象有效管理。數(shù)據(jù)挖掘技術(shù)可以用于專門提升醫(yī)院某項(xiàng)工作的管理水平,全面提升醫(yī)院各種資源的使用效率,針對(duì)醫(yī)院存在的具體問(wèn)題,從數(shù)據(jù)分析的角度予以有效解決。例如,在時(shí)間管理上,醫(yī)院管理可以通過(guò)數(shù)據(jù)分析的方式掌握年時(shí)間范圍內(nèi),不同月份、每天不同時(shí)段病人的就診情況,從而制訂科學(xué)的導(dǎo)診方案以及網(wǎng)上預(yù)約方案,實(shí)現(xiàn)對(duì)醫(yī)院資源和時(shí)間的有效分配。再如,醫(yī)院通過(guò)對(duì)各種數(shù)據(jù)信息的不同時(shí)空順序的排列,可以對(duì)各科室、各部門、醫(yī)療器材的使用、更換維修等得到更科學(xué)的把握,有助于降低醫(yī)院行動(dòng)的成本開(kāi)銷,找出日常管理中存在的漏洞,從而全面提高日常管理水平,實(shí)現(xiàn)對(duì)醫(yī)院工作的細(xì)化和標(biāo)準(zhǔn)化目標(biāo)。
3.數(shù)據(jù)挖掘應(yīng)用方向。數(shù)據(jù)應(yīng)用方向主要可以用在以患者為中心的診療數(shù)據(jù)挖掘上,以可以用在以醫(yī)院為中心的管理信息的挖掘上。首先,在診療信息的挖掘上,可以對(duì)患者的各種診療信息進(jìn)行挖掘,以便更好的發(fā)現(xiàn)病人的醫(yī)療規(guī)律,提高治療效率。其次,在醫(yī)院管理數(shù)據(jù)挖掘上,例如,可以通過(guò)對(duì)財(cái)務(wù)數(shù)據(jù)的重分析各種費(fèi)用的比例,各科室的支出情況,全面實(shí)現(xiàn)對(duì)醫(yī)療資源的科學(xué)化管理。
四、醫(yī)院管理數(shù)據(jù)挖掘存在的問(wèn)題
1.挖掘的時(shí)效性。醫(yī)院數(shù)據(jù)庫(kù)的規(guī)格相對(duì)較高,通過(guò)精密儀器測(cè)得的醫(yī)療數(shù)據(jù)信息更精確,可以說(shuō)醫(yī)院數(shù)據(jù)信息的精確性相對(duì)更高,但是醫(yī)院數(shù)據(jù)挖掘工作的問(wèn)題主要體現(xiàn)在時(shí)效性上,首先,醫(yī)院數(shù)據(jù)挖掘工作是否能夠定期開(kāi)展成為制約數(shù)據(jù)挖掘效率的重要因素,其次,只有加快挖掘的速度,才能提高挖掘的知識(shí)量,為醫(yī)院科學(xué)管理提供可靠的數(shù)據(jù)依據(jù)。再次,數(shù)據(jù)挖掘速度較慢常會(huì)影響到管理的績(jī)效,無(wú)法滿足現(xiàn)代醫(yī)院管理工作需求。
2.挖掘工具問(wèn)題??茖W(xué)先進(jìn)的分析軟件是保證數(shù)據(jù)挖掘工作順利開(kāi)展的重要前提和基礎(chǔ)。醫(yī)院數(shù)據(jù)挖掘的操作界面是否友好對(duì)數(shù)據(jù)挖掘的質(zhì)量有著重要的影響。當(dāng)前,還缺少針對(duì)醫(yī)院管理工作的專門數(shù)據(jù)挖掘操作系統(tǒng),還沒(méi)能根據(jù)醫(yī)院的實(shí)際情況開(kāi)發(fā)出符合醫(yī)院需要的數(shù)據(jù)挖掘軟件系統(tǒng),從而影響了數(shù)據(jù)挖掘的質(zhì)量與效果。當(dāng)前的數(shù)據(jù)挖掘工具主要有IM智能挖掘器、SPSS軟件、Red Brick軟件等,這些挖掘器在實(shí)際挖掘過(guò)程中很難對(duì)算法進(jìn)行優(yōu)化處理,可供醫(yī)院數(shù)據(jù)挖掘使用的范圍相對(duì)有限。
五、醫(yī)院管理數(shù)據(jù)挖掘的展望
1.促進(jìn)醫(yī)療改革深入進(jìn)行。當(dāng)前醫(yī)療改革的瓶頸問(wèn)題就是如何合理分配有限的醫(yī)療資源,隨著數(shù)據(jù)挖掘技術(shù)的廣泛使用,可以更好的挖掘現(xiàn)有醫(yī)療資源,使醫(yī)療資源得到充分的利用。首先,隨著網(wǎng)絡(luò)信息技術(shù)和人功智能技術(shù)的不發(fā)展,醫(yī)院管理日益向著信息化的方向發(fā)展,在這一主流趨勢(shì)的影響下,醫(yī)院管理數(shù)據(jù)挖掘技術(shù)會(huì)越來(lái)越先進(jìn),發(fā)揮的作用不斷加大,會(huì)使更多隱藏的數(shù)據(jù)信息發(fā)揮出優(yōu)化管理的作用,從而使醫(yī)院管理更加專業(yè)化、標(biāo)準(zhǔn)化。其次,醫(yī)院之間會(huì)逐步縮小差距,實(shí)現(xiàn)醫(yī)療資源的優(yōu)化分配,醫(yī)院管理從此更少的受到人為因素的干擾。再次,便管理決策工作將更科學(xué),從而極大提高醫(yī)院管理的效率,使醫(yī)院向著良好的軌道穩(wěn)步發(fā)展。
2.醫(yī)院管理專業(yè)化。信息技術(shù)目前已經(jīng)滲透到醫(yī)院管理的方方面面,隨著醫(yī)院更多的部門、具體工作項(xiàng)目與信息技術(shù)的相聯(lián),使診斷和臨床救治工作進(jìn)一步得到細(xì)化。其次,在信息化管理的背景下,醫(yī)院人力資源的配置也會(huì)更加優(yōu)化。這使得醫(yī)院管理工作越來(lái)越依靠先進(jìn)的管理理念和專業(yè)化的管理方式,使醫(yī)院日益向著專業(yè)化方向發(fā)展。因此,當(dāng)前醫(yī)院管理工作的重點(diǎn)主要是加快醫(yī)院信息化建設(shè)的步伐,只有盡快的建立了完善的醫(yī)院管理信息系統(tǒng),才能提高醫(yī)院管理工作的效率,全面實(shí)現(xiàn)醫(yī)院管理的專業(yè)化目標(biāo)。
結(jié)語(yǔ)
實(shí)現(xiàn)數(shù)據(jù)挖掘技術(shù)在醫(yī)院管理中的有效應(yīng)用,應(yīng)當(dāng)在醫(yī)院構(gòu)建科學(xué)的數(shù)據(jù)庫(kù)系統(tǒng),對(duì)醫(yī)院數(shù)據(jù)庫(kù)模型進(jìn)行科學(xué)必要的分析,進(jìn)而實(shí)現(xiàn)對(duì)醫(yī)院數(shù)據(jù)庫(kù)信息的有效總結(jié),以便提高醫(yī)院數(shù)據(jù)庫(kù)資源的利用率和有效性。在醫(yī)院管理中使用數(shù)據(jù)挖掘技術(shù),還需要不斷的對(duì)數(shù)據(jù)庫(kù)的數(shù)據(jù)信息予以修正,以提高數(shù)據(jù)利用的準(zhǔn)確率,發(fā)揮出數(shù)據(jù)挖掘的實(shí)際作用。
參考文獻(xiàn):
篇10
一、數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用過(guò)程
數(shù)據(jù)挖掘技術(shù)被稱作數(shù)據(jù)庫(kù)中的知識(shí),它發(fā)展的基礎(chǔ)是數(shù)據(jù)庫(kù)。在發(fā)展過(guò)程中,把理論的研究逐漸的轉(zhuǎn)變?yōu)閷?shí)際的應(yīng)用,并將其與其他的領(lǐng)域共同結(jié)合,以更好地發(fā)揮其應(yīng)有的作用。軟件工程概念在1967年出現(xiàn),主要通過(guò)了維護(hù)和構(gòu)建,得出實(shí)用有效的軟件,為客戶開(kāi)發(fā)出其所需求的產(chǎn)品。未來(lái),數(shù)據(jù)挖掘技術(shù)在軟件工程當(dāng)中將發(fā)展越來(lái)越迅猛。
二、挖掘技術(shù)的概述
(一)執(zhí)行記錄
主要對(duì)程序的路徑做出了分析和總結(jié),找出了程序中的關(guān)聯(lián)關(guān)系。本質(zhì)是跟蹤執(zhí)行路徑,來(lái)實(shí)現(xiàn)它的目的,它的作用維護(hù)程序、了解程序。執(zhí)行記錄過(guò)程中,首先先分析系統(tǒng),對(duì)軟件的變量進(jìn)行一系列的記錄,最后過(guò)濾目標(biāo)來(lái)得到信息,成為了系統(tǒng)功能的模板。
(二)漏洞的檢測(cè)
漏洞的檢測(cè)是為了找出軟件中存在的一系列問(wèn)題,能最快時(shí)間的修復(fù),確保了軟件的可靠性。數(shù)據(jù)挖掘技術(shù)一般應(yīng)用在漏洞檢測(cè)方面,要對(duì)軟件進(jìn)行測(cè)試并且還要滿足客戶的需求,總結(jié)軟件測(cè)試完后的具體內(nèi)容,最終來(lái)決定用某種測(cè)試方式進(jìn)行測(cè)試,來(lái)制定相應(yīng)的計(jì)劃;手機(jī)漏洞的數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行清理,對(duì)采取的數(shù)據(jù)進(jìn)行分析,采取有關(guān)的數(shù)據(jù),把沒(méi)用的數(shù)據(jù)清理完成后,在對(duì)丟失的項(xiàng)目進(jìn)行補(bǔ)救,轉(zhuǎn)換為數(shù)值表示。
還要選用適當(dāng)?shù)臄?shù)據(jù)模型來(lái)進(jìn)行訓(xùn)練和驗(yàn)證。選擇挖掘方式,讓它成為測(cè)試集,比較結(jié)果,找出結(jié)果最合理的方式。還要描述和分類軟件的漏洞,把漏洞數(shù)據(jù)用到軟件數(shù)據(jù)庫(kù),把相應(yīng)位置的漏洞找出來(lái),進(jìn)行進(jìn)一步的分類。
(三)挖掘開(kāi)源軟件
開(kāi)源軟件的挖掘開(kāi)放性等性質(zhì),所以對(duì)這種軟件的開(kāi)發(fā),要和其他的軟件區(qū)別開(kāi)來(lái)。在正常情況下,開(kāi)發(fā)軟件,對(duì)參與報(bào)告等應(yīng)用要有完整的記錄。開(kāi)發(fā)人員組成社會(huì)網(wǎng)絡(luò),因?yàn)樗哂虚_(kāi)放性,所以使開(kāi)發(fā)的人員一直都在變化中進(jìn)行。其次,還要對(duì)開(kāi)源軟件進(jìn)行動(dòng)態(tài)性挖掘,方便地管理了開(kāi)源項(xiàng)目。
(四)挖掘版本控制信息
主要保證了項(xiàng)目參與者和共同編輯的統(tǒng)一性,來(lái)更新全局。挖掘版本的應(yīng)用方式,對(duì)變更信息挖掘找出不同模塊,以及系統(tǒng)之間存在的關(guān)系。挖掘技術(shù)的應(yīng)用可以把系統(tǒng)的維護(hù)成本降低,避免后期的變換產(chǎn)生的漏洞,最終起到了維護(hù)的作用。
三、應(yīng)用方法
(一)關(guān)聯(lián)法
關(guān)聯(lián)法的規(guī)則在于數(shù)據(jù)中的相關(guān)關(guān)聯(lián)和有趣的關(guān)聯(lián)。關(guān)聯(lián)法還具有兩個(gè)特征,第一個(gè)是支持度,第二個(gè)是置信度。
(二)分類法
分類法是對(duì)分類標(biāo)號(hào)進(jìn)行一系列的操作,前提是先建立起相對(duì)應(yīng)的模型,對(duì)數(shù)據(jù)集進(jìn)行描述之后來(lái)完成分類。判定樹(shù)法是主要的分類方法,包括了網(wǎng)絡(luò)分類法和支持向量機(jī)法等等。貪心算法是判定樹(shù)法的基礎(chǔ),如果是樣本容量來(lái)進(jìn)行分類的話,會(huì)導(dǎo)致出錯(cuò)。
(三)聚類法
聚類法的應(yīng)用是把數(shù)據(jù)分為多類,保證了數(shù)據(jù)的相似度,但是不同種類的對(duì)象有很明顯的特征。劃分法、基于密度法、模型法、網(wǎng)格法、層次法是聚類法的主要內(nèi)容。
(四)克隆代碼數(shù)據(jù)挖掘
軟件工程中,克隆代碼的檢查是原始數(shù)據(jù)挖掘的需求,現(xiàn)在則有很多的方式,主要分為:文本對(duì)比成為基礎(chǔ)方式;標(biāo)識(shí)符作為基礎(chǔ)的方式。
第一類應(yīng)用了計(jì)算機(jī)的對(duì)比程序?qū)φZ(yǔ)句新型判斷的過(guò)程,在改進(jìn)中是對(duì)字符匹配效率提升,主要通過(guò)函數(shù)技術(shù)進(jìn)行優(yōu)化,所用的工具是Duploc。第二類是把標(biāo)示符號(hào)用作最基礎(chǔ)的方式,應(yīng)用的工具有CCFiinder和DUP。
(五)計(jì)算機(jī)軟件數(shù)據(jù)檢索
它和克隆代碼是一樣的,也是計(jì)算機(jī)最原始的挖掘,它的挖掘過(guò)程主要有三類:據(jù)信息錄入、數(shù)據(jù)信息查找、數(shù)據(jù)信息內(nèi)容查看。數(shù)據(jù)信息的錄入是指對(duì)檢索的信息進(jìn)行錄入而進(jìn)行的過(guò)程;數(shù)據(jù)信息查找是指當(dāng)客戶需要查找數(shù)據(jù)時(shí),把數(shù)據(jù)信息關(guān)鍵詞輸入到錄入框,點(diǎn)擊確定來(lái)進(jìn)行對(duì)數(shù)據(jù)的查找。數(shù)據(jù)信息的查看是指客戶可以根據(jù)自己所需要的對(duì)數(shù)據(jù)進(jìn)行在線查看或者下載查看,在導(dǎo)出數(shù)據(jù)過(guò)程后,會(huì)形成歷史記錄,對(duì)客戶查找的數(shù)據(jù)信息進(jìn)行簡(jiǎn)單的保存。
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)管理論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)通信論文 數(shù)據(jù) 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量探討