關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的分析及應(yīng)用
時間:2022-02-24 11:18:07
導(dǎo)語:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的分析及應(yīng)用一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有用的信息。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。文章分析了數(shù)據(jù)挖掘算法的關(guān)聯(lián)規(guī)則特性,對其在股票市場中的應(yīng)用進(jìn)行了重點,以便更好的應(yīng)用在更多的領(lǐng)域。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘算法;股票
1關(guān)聯(lián)規(guī)則
1.1關(guān)聯(lián)規(guī)則概述
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。如果兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。近些年來,很多業(yè)界人士對關(guān)聯(lián)規(guī)則挖掘進(jìn)行了詳細(xì)的探討,關(guān)聯(lián)規(guī)則挖掘已經(jīng)成為數(shù)據(jù)挖掘中的一個非常重要的課題。關(guān)聯(lián)規(guī)則概念是Agrawal等人在1993年首先提出的,與此同時還給出了一種性能相對較差的挖掘算法AIS。1994年,由于項目集格空間理論的建立,他們在以往定理的基礎(chǔ)上提出了著名的Apriori算法,這種算法目前仍作為關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法引起了人們的廣泛研究和討論。一開始,關(guān)聯(lián)規(guī)則的產(chǎn)生主要是針對購物籃分析問題。對于分店經(jīng)理來說,如何更詳細(xì)更清楚的了解顧客的購物習(xí)慣,尤其是想了解顧客可能會在一次購物時同時購買哪些商品?為此,我們對商店的顧客購物零售數(shù)量進(jìn)行購物籃分析。而顧客的購物習(xí)慣就可通過他們放入“購物籃”中的不同商品之間的關(guān)聯(lián)進(jìn)行分析,零售商也可以通過這種關(guān)聯(lián)分析了解哪些商品頻繁的被顧客同時購買,進(jìn)而有助于他們設(shè)計出更好的營銷方案。與此同時,一些知名的電子商務(wù)站點也可以從具有強(qiáng)大功能的關(guān)聯(lián)規(guī)則挖掘中獲得很大好處。通過使用關(guān)聯(lián)規(guī)則對數(shù)據(jù)進(jìn)行分析,這些電子購物網(wǎng)站可以設(shè)置用戶有可能會同時購買捆綁包,也有很多購物網(wǎng)站設(shè)置了相應(yīng)的交叉銷售,具體是指顧客在購買一種產(chǎn)品時會看到與該類產(chǎn)品相關(guān)的另外一種產(chǎn)品的廣告。但是目前我國商業(yè)銀行在數(shù)據(jù)大集中之后,普遍面臨著“數(shù)據(jù)海量,信息缺乏”的窘迫情況。目前,在金融業(yè)所采用的數(shù)據(jù)庫中,大多數(shù)數(shù)據(jù)庫的功能層次都很低,只能夠簡單的實現(xiàn)數(shù)據(jù)的錄入、統(tǒng)計、查詢等,根本發(fā)現(xiàn)不了數(shù)據(jù)中蘊(yùn)含的大量有實用價值的信息。綜上所述,可以說在關(guān)聯(lián)規(guī)則挖掘技術(shù)方面,我國所進(jìn)行的應(yīng)用研究并不是很廣泛,而且也不夠深入。
1.2Apriori算法
使用關(guān)聯(lián)規(guī)則對數(shù)據(jù)進(jìn)行挖掘主要分兩個階段:第一階段必須先從原始資料集合中找出所有的高頻項目組,第二階段再由這些高頻項目組中產(chǎn)生關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的第一階段中高頻的意思是指在所有記錄中某一項目組出現(xiàn)的頻率必須相對達(dá)到某一水平。這一項目組出現(xiàn)的頻率稱為支持度。關(guān)聯(lián)規(guī)則挖掘的第二階段是利用前一步驟的高頻k-項目組來產(chǎn)生關(guān)聯(lián)規(guī)則,在最小信賴度的條件門檻下,要稱之為關(guān)聯(lián)規(guī)則一規(guī)則所求得的信賴度滿足最小信賴度。Apriori算法是關(guān)聯(lián)規(guī)則挖掘頻繁項集的一種原創(chuàng)性算法。Apriori算法使用的是迭代方法。Apriori算法的核心算法思想是:該算法中有連接步和剪枝步兩個關(guān)鍵步驟。對于連接步來說,為了能夠找出Lk,即頻繁k項集,而通過Lk-1與自身相連接,產(chǎn)生候選k項集Ck;其中Lk-1的元素是能夠連接的。對于剪枝步來說,Ck是Lk的超集,也就是說Ck的元素可以是頻繁的也可以不是頻繁的,但是所有的頻繁項集都包含在Ck中。對數(shù)據(jù)庫進(jìn)行掃描,將Ck中的每一個候選的計數(shù)加以確定,從而確定Lk。如果Ck很大,就會導(dǎo)致涉及的計算量變得很大。為了能夠壓縮Ck,通常會使用Apriori性質(zhì)。Apriori算法,使用逐層迭代找出頻繁項集。輸入:事務(wù)數(shù)據(jù)庫D;最小支持度閾值min_sup。輸出:D中的頻繁項集L。1)L1=find_frequent_1_itemset(sD);2)for(k=2;k++){3)Ck=aproiri_gen(Lk-1,min_sup);4)foreachtransactiontD{//掃描D用于計數(shù)5)Ct=subse(tCk,t);//得到t的子集,它們是候選6)foreachcandidate錯誤!未找到引用源。Ct7)c.count++;8)}9)Lk={Ck|c.count≥min_sup}10)}11)returnL=錯誤!未找到引用源。Lk;Procedureapriori_gen(Lk-1:frequent(k-1)-itemsets)重復(fù),返回Ck。1.3Apriori算法評價和改進(jìn)基于頻繁項集的Apriori算法采用了逐層搜索的迭代方法,該算法沒有復(fù)雜的理論推導(dǎo)過程,簡單易懂,并且很容易實現(xiàn)。但是仍然存在一些不可避免的不足:掃描數(shù)據(jù)庫的次數(shù)過多。在Apriori算法的描述中,每生成一個候選項集,都要進(jìn)行一次全面的數(shù)據(jù)庫搜索。如果要生成的頻繁項集的最大長度為N,那么就要掃描N次數(shù)據(jù)庫。在有限的內(nèi)存容量下,如果數(shù)據(jù)庫中存放的事務(wù)數(shù)據(jù)過多,就會使得系統(tǒng)過大,導(dǎo)致掃描數(shù)據(jù)庫時間變長,進(jìn)而造成效率低下的不良現(xiàn)象。Apriori算法過程中會產(chǎn)生很多的中間項集。Apriori_gen函數(shù)是用Lk-1產(chǎn)生候選Ck,而Ck是由k個項集組成的,所以k越大,所產(chǎn)生的候選k項集的數(shù)量就會以幾何級數(shù)的形式增加。采用唯一支持度,沒有綜合考慮到各個屬性的重要程度會有所不同。Apriori算法的適應(yīng)面是非常窄的,在實際的應(yīng)用過程中,可能出現(xiàn)數(shù)量的、多維的、多層的關(guān)聯(lián)規(guī)則,而Apriori算法只考慮單維布爾關(guān)聯(lián)規(guī)則的挖掘。因此,這種情況下Apriori算法就不能再應(yīng)用了,需要對其進(jìn)行進(jìn)一步的改進(jìn)。為了能夠提高Apriori算法的性能,目前已經(jīng)有許多變種對Apriori算法進(jìn)行擴(kuò)展和改進(jìn)。具體的改進(jìn)方法有以下幾個方面:(1)基于動態(tài)的項目集計數(shù)該算法是將數(shù)據(jù)庫分成不同的部分,標(biāo)記最初的點,對數(shù)據(jù)庫進(jìn)行重復(fù)掃描。該算法能夠在第二次掃描后完成所有的操作,它與Apriori算法最明顯的區(qū)別是能在任何開始點增加新的候選項目集,在每個開始點,該算法對所有項目集的支持度進(jìn)行估計,如果估計所有子集是頻繁的,就會把該項目集增加到候選項目集中。(2)基于劃分的方法PARTITION算法首先將數(shù)據(jù)庫分成若干個互相不重疊的子數(shù)據(jù)庫,然后分別對子數(shù)據(jù)庫進(jìn)行頻繁項集的挖掘,最后將所有的局部頻繁項集合并作為整個交易庫的候選項集。該算法生成整個交易數(shù)據(jù)庫的頻繁項集只需要對數(shù)據(jù)庫進(jìn)行兩次掃描即可。(3)基于hash技術(shù)通過hash技術(shù)的使用,在生成候選集時,DHP能夠過濾掉更多的項集。因此每一次生成的候選集都會更加接近頻繁集,對于二項候選集的剪枝來說,這種技術(shù)是非常有效的。除此之外,DHP技術(shù)還能夠十分有效的降低每一次掃描數(shù)據(jù)庫的規(guī)模。
2關(guān)聯(lián)規(guī)則在股票數(shù)據(jù)挖掘分析及預(yù)測中的應(yīng)用
證券市場中的漲跌起伏往往是瞬息萬變的,盡管如此,它還是存在著一定的規(guī)律:在某一段時間中,如果A股票出現(xiàn)上漲趨勢,則B股票必然會隨之上漲;如果A股票在tl時刻出現(xiàn)上漲趨勢,B股票在t2時(t2>tl)刻出現(xiàn)上漲趨勢,則C股票必然會在t3(t3>t2)時刻上漲。前一條規(guī)律能夠用來對股票之間的相互關(guān)系進(jìn)行分析,后一條規(guī)律能夠用來對股票的漲跌進(jìn)行預(yù)測,這些規(guī)律在投資者的實際決策過程中有著重要的參考價值和指導(dǎo)作用。
2.1選取數(shù)據(jù)
如果上市公司所經(jīng)營的業(yè)務(wù)是相同或相近的,則在一段時間內(nèi)股票價格的走勢就會呈現(xiàn)出相似性;在一定時間內(nèi),屬于同一個區(qū)域的上市公司也會受到區(qū)域經(jīng)濟(jì)政策的直接影響,也會呈現(xiàn)出大體相同的變化形勢;如果上市公司之間具有關(guān)聯(lián)交易,相互持股、控股,則它們之間也會產(chǎn)生某種相互作用。上述規(guī)則能夠通過關(guān)聯(lián)規(guī)則分析來發(fā)現(xiàn),然而更重要的是發(fā)現(xiàn)另一種表面上沒有很強(qiáng)的相關(guān)性、但是實際的股票價格卻具有很大關(guān)聯(lián)的規(guī)則。設(shè)股票行情數(shù)據(jù)D={X1,X2,…,Xi,…,Xn。},其中Xi(1<i<n)表示的是證券市場中某一只股票的歷史行情數(shù)據(jù),Xi={Ci,K1,K2,…,Km},C為股票代碼,Ki為Xi的第i個屬性變量,對應(yīng)最高價、日漲跌幅、最低價、成交量等屬性。本文選取的研究對象是滬深300指數(shù)成分股,樣本時間是從2010年9月2日到2011年9月1日一年的數(shù)據(jù)。分析可知,滬深300指數(shù)成分股能很好反映出上海和深圳證券市場的總體特征,具有很強(qiáng)的代表性。選取樣本時間從2010年9月2日到2011年9月1日這段時間的主要原因是:在這段時間中,大盤經(jīng)歷了上漲波段和下跌波段,滬深300指數(shù)最低到1598,最高達(dá)3256,而且上漲時間和下跌時間大致相同。本文數(shù)據(jù)均來源于CASMAR數(shù)據(jù)庫,著重考慮股票價格變化之間存在的關(guān)聯(lián)關(guān)系,由于一天中股票價格有很多種,本文主要考慮的是收盤價。因此原始數(shù)據(jù)包含日期、股票代碼、收盤價三個變量,經(jīng)過處理數(shù)據(jù)中共有71268條記錄。
2.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是指在主要的處理以前對數(shù)據(jù)進(jìn)行的一些處理。在我們實際生活的世界中,數(shù)據(jù)大多數(shù)都是不完整并且不一致的,根本沒有辦法直接使用數(shù)據(jù)挖掘方法,或者會導(dǎo)致挖掘的結(jié)果不能讓人滿意。為了能夠有效的將數(shù)據(jù)挖掘的質(zhì)量提高,數(shù)據(jù)預(yù)處理技術(shù)便在這種形勢下產(chǎn)生了。數(shù)據(jù)預(yù)處理的方法有很多,具體包括:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)歸約,數(shù)據(jù)變換等。在對數(shù)據(jù)進(jìn)行挖掘之前,使用這些數(shù)據(jù)處理技術(shù),能夠在很大程度上提高數(shù)據(jù)挖掘模式的質(zhì)量,并且有效的減少挖掘所使用的時間。我們所要研究的是在一段時間內(nèi),股票價格變動之間存在的關(guān)聯(lián)關(guān)系,因此只需對那些對投資有參考價值的數(shù)據(jù)進(jìn)行研究。在投資過程中,關(guān)系到投資者收益的重要指標(biāo)是收益率,在數(shù)據(jù)挖掘中所選用的是每天的漲跌幅。首先以收盤價為依據(jù),將每日的漲跌幅計算出來,日漲跌幅就是當(dāng)日收盤價和上一個交易日收盤價之差與上一個交易日收盤價之比。計算公式如下:在分析過程中我們所感興趣的是那些每天的漲跌幅大于一定幅度的股票,因為在股票市場中,大多數(shù)股票會隨著大盤指數(shù)的漲跌而不斷發(fā)生變化,多數(shù)股票都會在大盤指數(shù)漲跌幅進(jìn)行上下波動,所以只有漲跌幅超過一定范圍的股票才具有研究意義。因此我們在進(jìn)行分析之前,引入最小日漲跌幅Min-UpRat。最小日漲跌幅的值是以具體的股票行情為依據(jù)并由用戶確定的,本文選取Min-UpRat為3%,這主要是從以下幾個方面考慮:現(xiàn)階段,中國的證券市場還處于發(fā)展階段,尚不成熟。股票在牛市中會存在隨大盤指數(shù)普遍上漲的情況,因此只有對那些漲勢較為劇烈的股票進(jìn)行分析研究才會有實際意義。大部分股票在熊市中會出現(xiàn)普遍下跌的情況,出現(xiàn)上漲形勢的股票只有極少的一部分,漲勢能達(dá)到3%漲幅的股票更是少之又少。在樣本中添加一個新的變量,極為win,當(dāng)日漲跌幅大于最小日漲跌幅min-UpRat時,win就記為1,日漲跌幅小于或等于最小日漲跌幅min-UpRat時,win就記為0。在原始數(shù)據(jù)中,交易日期均為10個字符的字符型變量,共有244天。眾所周知,在進(jìn)行數(shù)據(jù)挖掘時,字符長度較大會占用大量的內(nèi)存,因此應(yīng)該盡量用簡短的數(shù)據(jù)型變量來對其進(jìn)行替換。所以為了節(jié)省空間進(jìn)而提高運行的效率,我們重新對交易時間變量進(jìn)行編碼,用1,2,…,244來標(biāo)記。將股票代碼均變?yōu)?位字符的字符型數(shù)據(jù),共有300只股票,分別用1,2,…,300標(biāo)識。在進(jìn)行關(guān)聯(lián)規(guī)則挖掘時,直接處理對象是股票和日期的新編碼,間接處理對象是股票代碼和交易日期,這樣便可有效減少內(nèi)存的占用,有利于提高挖掘效率。企業(yè)實現(xiàn)這一切。其二是不斷提升客戶的價值:通過客戶盈利能力的相關(guān)具體化分析,進(jìn)一步挖掘和預(yù)測客戶本身所具有的盈利能力以及未來的具體變化;通過對客戶購買模式的相關(guān)研究,實現(xiàn)客戶的細(xì)分化,這樣一來可以針對性的提供更加具有針對性的個性化服務(wù),從而能夠有效的實現(xiàn)多維化的交叉銷售。其三是維護(hù)好客戶,要及時的對客戶忠誠度進(jìn)行分析研究,以防客戶流失。借助數(shù)據(jù)的深入研究和挖掘,及時分析好客戶的歷史交易記錄,提醒消費者行為,并提出相應(yīng)的對策和建議。
2.3各行業(yè)中CRM的應(yīng)用
(1)零售業(yè)CRM中的數(shù)據(jù)挖掘零售業(yè)CRM它是數(shù)據(jù)挖掘領(lǐng)域中最重要的應(yīng)用方面,伴隨著網(wǎng)絡(luò)以及電子商務(wù)模式的不斷發(fā)展而呈現(xiàn)出繁榮發(fā)展的態(tài)勢。通過對零售數(shù)據(jù)的挖掘可以對客戶的購買行為進(jìn)行識別和具體化的分析,并且及時發(fā)現(xiàn)客戶的購買嗜好以及未來的購買趨勢,這樣便不斷提高了服務(wù)的質(zhì)量,為客戶滿意度的提高提供了條件。例如,我們可以借助多個特性化的數(shù)據(jù)進(jìn)行全面的銷售,這樣一來便實現(xiàn)了客戶與產(chǎn)品之間的多維聯(lián)系,使用多維、相關(guān)化的分析來做好促銷的有效性,借助序列模式我們可以挖掘客戶忠誠度,通過相關(guān)性分析可以為購買參考提供建設(shè)性的意見和建議。(2)電信業(yè)CRM中的數(shù)據(jù)挖掘當(dāng)前的電信行業(yè),已經(jīng)從純粹的市話服務(wù)領(lǐng)域不斷轉(zhuǎn)向提供一些綜合性的電信服務(wù)。它能夠把互聯(lián)網(wǎng)、電信網(wǎng)以及其他的各種通信和計算融合在一起,這是時展的大潮流。借助數(shù)據(jù)挖掘等相關(guān)技術(shù)可以為一些商業(yè)化的實踐提供條件,確定好電信服務(wù)的基本方式,捕捉每一個盜竊,從而更好地借助技術(shù)方面的資源,實現(xiàn)頗具人性的服務(wù)。電信數(shù)據(jù)一般具有多維化的分析功能,可以實現(xiàn)數(shù)據(jù)的識別與比較,更可以實現(xiàn)數(shù)據(jù)通信與系統(tǒng)負(fù)載等。通過量化分析,聚類分析以及異常值分析對盜用、異常模式進(jìn)行識別和破解。(3)金融業(yè)CRM中的數(shù)據(jù)挖掘如今,大部分的銀行以及一些金融性的專業(yè)機(jī)構(gòu)能夠為客戶提供了多種選擇,例如最基本的儲蓄、投資以及信貸服務(wù)等。有時也可以提供一些保險和股票服務(wù)。在金融市場中,數(shù)據(jù)生成已經(jīng)相對成熟,從整體看來金融領(lǐng)域的數(shù)據(jù)相對較完整、可靠,它為數(shù)據(jù)分析提供了基點。下面的幾個是平時常見的應(yīng)用情況:通過多維化的數(shù)據(jù)分析、挖掘可以做好數(shù)據(jù)倉庫的基本任務(wù);通過特征比較研究做好數(shù)據(jù)的衡量和計算幫助客戶對貸款償還進(jìn)行科學(xué)化的預(yù)測和分析;通過分類以及聚類的方式對客戶群體進(jìn)行識別,對目標(biāo)市場進(jìn)行分析;借助數(shù)據(jù)的可視化以及關(guān)聯(lián)性分析對金融洗錢以及其他的一些金融犯罪進(jìn)行偵破。
作者:方 蓉 單位:惠州市廣播電視大學(xué)
參考文獻(xiàn)
[1]王一鴻.體檢中心CRM構(gòu)建及數(shù)據(jù)挖掘的應(yīng)用研究[D].華東理工大學(xué).2011
[2]潘光強(qiáng).基于數(shù)據(jù)挖掘的CRM設(shè)計與應(yīng)用研究[D].安徽工業(yè)大學(xué).2011
[3]石彥芳,石建國,周檬.數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用[J].中國商貿(mào).2010(02)
[4]王芳,楊奕.論數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理(CRM)中的應(yīng)用[J].現(xiàn)代商貿(mào)工業(yè).2009(01)
[5]鄭玲,陶紅玉,闞守輝.數(shù)據(jù)挖掘在CRM中的應(yīng)用[J].中國電力教育.2008(S3)
熱門標(biāo)簽
關(guān)聯(lián)性 關(guān)聯(lián)理論論文 關(guān)聯(lián) 關(guān)聯(lián)交易 關(guān)聯(lián)方交易 關(guān)聯(lián)規(guī)則 關(guān)聯(lián)方 關(guān)聯(lián)企業(yè) 關(guān)聯(lián)度 心理培訓(xùn) 人文科學(xué)概論