卷積神經(jīng)網(wǎng)絡的歷史范文
時間:2024-04-02 18:04:09
導語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡的歷史,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵詞:深度學習;機器學習;卷積神經(jīng)網(wǎng)絡
1概述
深度學習(Deep Learning)是人工智能、圖像建模、模式識別、神經(jīng)網(wǎng)絡、最優(yōu)化理論和信號處理等領域的交叉學科,主要構建和模擬人腦進行分析學習,它屬于機器學習的新興領域。
2大數(shù)據(jù)與深度學習
目前,光學檢測、互聯(lián)網(wǎng)、用戶數(shù)據(jù)、互聯(lián)網(wǎng)、金融公司等許多領域都出現(xiàn)了海量數(shù)據(jù),采用BP算法對于訓練神經(jīng)網(wǎng)絡出現(xiàn)了梯度越來越稀疏、收斂到局部最小值只能用有標簽的數(shù)據(jù)來訓練等缺點。Hinton于2006年提出了深度學習的概念,Lecun等人提出了卷積神經(jīng)網(wǎng)絡,卷積神經(jīng)網(wǎng)絡利用空間關系減少參數(shù)數(shù)目以提高訓練性能。
CPU和GPU計算能力大幅提升,為深度學習提供了硬件平臺和技術手段,在海量大數(shù)據(jù)處理技術上解決了早期神經(jīng)網(wǎng)絡訓練不足出現(xiàn)的過擬合、泛化能力差等問題。
大數(shù)據(jù)和深度學習必將互相支撐,推動科技發(fā)展。
3深度學習模型
深度學習模型實際上是一個包含多個隱藏層的神經(jīng)網(wǎng)絡,目前主要有卷積神經(jīng)網(wǎng)絡,深深度置信神經(jīng)網(wǎng)絡,循環(huán)神經(jīng)網(wǎng)絡。
1)卷積神經(jīng)網(wǎng)絡
在機器學習領域,卷積神經(jīng)網(wǎng)絡屬于前饋神經(jīng)網(wǎng)絡的一種,神經(jīng)元不再是全連接的模式,而是應用了局部感受區(qū)域的策略。然而傳統(tǒng)的神經(jīng)網(wǎng)絡使用神經(jīng)元間全連接的網(wǎng)絡結構來處理圖像任務,因此,出現(xiàn)了很多缺陷,導致模型⑹急劇增加,及其容易過擬合。
在卷積神經(jīng)網(wǎng)絡中,網(wǎng)絡中的神經(jīng)元只與前一層的部分神經(jīng)元連接,利用圖像數(shù)據(jù)的空間結構,鄰近像素間具有更強的相關性,單個神經(jīng)元僅對局部信息進行響應,相鄰神經(jīng)元感受區(qū)域存在重疊,因此,綜合所有神經(jīng)元可以得到全局信息的感知。
另外,一個卷積層中的所有神經(jīng)元均由同一個卷積核對不同區(qū)域數(shù)據(jù)響應而得到,即共享同一個卷積核,使得卷積層訓練參數(shù)的數(shù)量急劇減少,提高了網(wǎng)絡的泛化能力。
一般在卷積層后面會進行降采樣操作,對卷積層提取的特征進行聚合統(tǒng)計。降采樣區(qū)域一般不存在重疊現(xiàn)象。降采樣簡化了卷積層的輸出信息,進一步減少了訓練參數(shù)的數(shù)量,增強了網(wǎng)絡的泛化能力。
卷積神經(jīng)網(wǎng)絡實現(xiàn)了局部特征的自動提取,使得特征提取與模式分類同步進行,適用于處理高分辨率的圖像數(shù)據(jù)。目前,卷積神經(jīng)網(wǎng)絡在圖像分類、自然語言處理等領域得到廣泛應用。
2)深度置信網(wǎng)絡
深度置信網(wǎng)絡是一種生成模型,網(wǎng)絡中有若干隱藏層,同一隱藏層內(nèi)的神經(jīng)元沒有連接,隱藏層間的神經(jīng)元全連接。神經(jīng)網(wǎng)絡經(jīng)過“反向運行”得到輸入數(shù)據(jù)。
深度置信網(wǎng)絡可以用做生成模型,通過前期的逐層無監(jiān)督學習,神經(jīng)網(wǎng)絡可以較好的對輸入數(shù)據(jù)進行描述,然后把訓練好的神經(jīng)網(wǎng)絡看作深度神經(jīng)網(wǎng)絡,最后得到分類任務的深度神經(jīng)網(wǎng)絡。
深度置信網(wǎng)絡可以用于圖像識別、圖像生成等領域,深度置信網(wǎng)絡可以進行無監(jiān)督或半監(jiān)督的學習,利用無標記數(shù)據(jù)進行預訓練,提高神經(jīng)網(wǎng)絡性能。但近幾年由于卷積神經(jīng)網(wǎng)絡的飛速發(fā)展,深度置信網(wǎng)絡已經(jīng)很少被提及。
3)循環(huán)神經(jīng)網(wǎng)絡
循環(huán)神經(jīng)網(wǎng)絡是一種專門用于處理時序數(shù)據(jù)的神經(jīng)網(wǎng)絡,它與典型的前饋型神經(jīng)網(wǎng)絡最大區(qū)別在于網(wǎng)絡中存在環(huán)形結構,隱藏層內(nèi)部的神經(jīng)元是互相連接的,可以存儲網(wǎng)絡的內(nèi)部狀態(tài),其中包含序列輸入的歷史信息,實現(xiàn)了對時序動態(tài)行為的描述。這里的時序并非僅僅指代時間概念上的順序,也可以理解為序列化數(shù)據(jù)間的相對位置。如語音中的發(fā)音順序,某個英語單詞的拼寫順序等。序列化輸入的任務都可以用循環(huán)神經(jīng)網(wǎng)絡來處理。如語音、視頻、文本等。對于序列化數(shù)據(jù),每次處理時輸入為序列中的一個元素,比如單個字符、單詞、音節(jié),期望輸出為該輸入在序列數(shù)據(jù)中的后續(xù)元素。循環(huán)神經(jīng)網(wǎng)絡可以處理任意長度的序列化數(shù)據(jù)。
循環(huán)神經(jīng)網(wǎng)絡可以用于機器翻譯、連寫字識別、語音識別等。循環(huán)神經(jīng)網(wǎng)絡和卷積網(wǎng)絡結合,將卷積神經(jīng)網(wǎng)絡用于檢測并識別圖像中的物體,循環(huán)神經(jīng)網(wǎng)絡用于識別出物體的名稱為輸入,生成合理的語句,從而實現(xiàn)對圖像內(nèi)容的描述。
4深度學習應用
1)語音識別
語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。其應用領域主要有語音輸入系統(tǒng)、語音控制系統(tǒng)和智能對話查詢系統(tǒng),語音識別極大地推動了人工智能的快速發(fā)展。1952年Davis等人研究了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。大規(guī)模的語音識別研究是在20世紀70年代以后,在小詞匯量、孤立詞的識別方面取得了實質性的進展。2012年,微軟研究院使用深度神經(jīng)網(wǎng)絡應用在語音識別上將識別錯誤率降低了20%,取得了突破性的進展。2015年11月17日,浪潮集團聯(lián)合全球可編程芯片巨頭Altera,以及中國最大的智能語音技術提供商科大訊飛,共同了一套DNN語音識別方案。
2)圖像分析
圖像是深度學習最早嘗試的應用領域。1989年,LeCun和他的同事們就發(fā)表了卷積神經(jīng)網(wǎng)絡的工作。2012年10月,Hinton和他的兩個學生用更深的CNN在ImageNet挑戰(zhàn)上獲得了第一名,使圖像識別向前躍進了一大步。
自2012年以來,深度學習應用于圖像識別使得準確率大大上升,避免了消耗人工特征抽取的時間,極大地提升了效率,目前逐漸成為主流的圖像識別與檢測方法。
篇2
關鍵詞:人臉識別技術;病毒管控;人工智能;神經(jīng)網(wǎng)絡
互聯(lián)網(wǎng)在今天的社會中發(fā)揮著舉足輕重的作用。如今社會,隨著許多人工智能技術、網(wǎng)絡技術、云計算等互聯(lián)網(wǎng)技術不斷發(fā)展,像人臉識別等技術的應用越來越廣泛,在控制病毒傳播途徑等場合發(fā)揮了巨大作用,不斷地提高著社會的安全性和便利性,不僅提高了防控中病毒檢測效率,也為病毒的控制提供了可靠的技術方法,能夠及時發(fā)現(xiàn)和控制公共場所的安全隱患因素,避免對社會經(jīng)濟、居民生活造成破壞,。但目前的人臉識別等技術還存在許多缺陷,需要完善和革新,充滿著巨大的潛力和進步空間。
1人臉識別技術研究意義
人臉識別技術是一種生物特征識別技術,最早產(chǎn)生于上世紀60年代,基于生理學、圖像處理、人機交互及認知學等方面的一種識別技術。相比于其他人類特征像指紋識別、聲紋識別、虹膜識別等技術,人臉識別雖然存在人臉識別單一性低,且區(qū)分度難度高、易受環(huán)境影響等不足。但是人臉識別技術擁有速度快、大范圍群體識別及非接觸、遠距離可識別等優(yōu)勢,都是其他生物識別識別技術所不具備的,而在傳播性強、感染風險大的病毒傳播過程中,這些顯然是必須要考慮的重要影響因素。通過將人臉識別等人工智能技術引入信息管理系統(tǒng),綜合集成視頻監(jiān)控、圖像處理、深度學習和大數(shù)據(jù)等技術,結合非接觸測溫、定位等技術,助力病情防控,在一定程度上推動病毒病情防控信息化、智能化發(fā)展進程。可作為加強公共場所的人員的體溫實時監(jiān)測、地址信息定位的監(jiān)控管理,規(guī)范公共場所針對病毒傳播的預防行為。
2人臉識別技術
2.1人臉檢測技術
人臉檢測是自動人臉識別系統(tǒng)中的一個關鍵環(huán)節(jié)。早期的人臉識別研究主要針對具有較強約束條件的人臉圖象(如無背景的圖象),往往假設人臉位置靜止或者容易獲取。人臉檢測分為前深度學習時期,AdaBoost框架時期以及深度學習時期。前深度學習時期,人們將傳統(tǒng)的計算機視覺算法運用于人臉檢測,使用了模板匹配技術,依賴于人工提取特征,然后用這些人工特征訓練一個檢測器;后來技術發(fā)展,在2001年Viola和Jones設計了一種人臉檢測算法,它使用簡單的Haar-like特征和級聯(lián)的AdaBoost分類器構造檢測器,檢測速度較之前的方法有2個數(shù)量級的提高,并且保持了很好的精度,稱這種方法為VJ框架。VJ框架是人臉檢測歷史上第一個最具有里程碑意義的一個成果,奠定了基于AdaBoost目標檢測框架的基礎,使用級聯(lián)AdaBoost分類器進行目標檢測的思想是:用多個AdaBoost分類器合作實現(xiàn)對候選框的分類,這些分類器組成一個流水線,對滑動窗口中的候選框圖像進行判定,確定檢測目標是人臉還是非人臉。Adaboost框架技術的精髓在于用簡單的強分類器在初期快速排除掉大量的非人臉窗口,同時保證高的召回率,使得最終能通過所有級強分類器的樣本數(shù)數(shù)量較少。在深度學習時期,開始將卷積神經(jīng)網(wǎng)絡應用于人臉檢測領域。研究方向有兩種:一是將適用于多任務的目標檢測網(wǎng)絡應用于人臉檢測中;另一種是研究特定的的人臉檢測網(wǎng)絡。人臉檢測技術具有特殊唯一性和穩(wěn)定性,在現(xiàn)今社會對于構建居民身份識別系統(tǒng),病毒傳播防控系統(tǒng),以及計算機視覺交互模型的構建具有廣泛的應用。人臉檢測技術不僅作為人臉識別的首要步驟,也在許多其他領域發(fā)揮巨大影響,如人臉關鍵點提取、人臉追蹤、基于內(nèi)容的檢索、數(shù)字視頻處理、視頻檢測、安防監(jiān)控、人證比對、社交等領域都有重要的應用價值。數(shù)碼相機、手機等移動端上的設備已經(jīng)大量使用人臉檢測技術實現(xiàn)成像時對人臉的對焦、圖集整理分類等功能,各種虛擬美顏相機也需要人臉檢測技術定位人臉。評價一個人臉檢測算法好壞的指標是檢測率和誤報率,我們定義檢測率為:算法要求在檢測率和誤報率之間盡量平衡,理想的情況是達到高檢測率,低誤報率。
2.2人臉識別技術
目前主要流行的人臉識別技術包括幾何特征識別,模型識別,特征臉識別和基于深度學習/神經(jīng)網(wǎng)絡的的人臉識別技術等。人臉特征識別主要通過對人臉面部結構特征如眼睛、鼻子等五官幾何特點及其相對位置分布等,生成圖像,并計算各個面部特征之間的歐式距離、分布、大小等關系該方法比較簡單,反應速度快,并且具有魯棒性強等優(yōu)點,但是在實際環(huán)境下使用容易受檢測的環(huán)境的變化、人臉部表情變化等影響,精度通常不高,細節(jié)處理上不夠完善。模型識別技術主要包括隱馬爾可夫模型、主動表象模型、主動形狀模型等,識別率較高,并且對表情等變化影響較小。特征臉識別來源于主成分描述人臉照片技術(PCA技術),從數(shù)學上來講,特征臉就是人臉的圖像集協(xié)方差矩陣的特征向量。該技術能有效的顯示人臉信息,效率較高?;谏疃葘W習的人臉識別是獲取人臉圖像特征,并將包含人臉信息的特征進行線性組合等,提取人臉圖像的特征,學習人臉樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次??梢圆捎萌缛龑忧梆丅P神經(jīng)網(wǎng)絡。BP神經(jīng)網(wǎng)絡是1986年由Rumelhart和McClelland為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經(jīng)網(wǎng)絡,是應用最廣泛的神經(jīng)網(wǎng)絡模型之一。BP網(wǎng)絡本質上是一種能夠學量的輸入與輸出之間的映射關系的輸入到輸出的映射,從結構上講,BP網(wǎng)絡具有輸入層、隱藏層和輸出層;從本質上講,BP算法就是以網(wǎng)絡誤差平方為目標函數(shù)、采用梯度下降法來計算目標函數(shù)的最小值。BP神經(jīng)網(wǎng)路輸入層有n個神經(jīng)元節(jié)點,輸出層具有m個神經(jīng)元,隱含層具有k個神經(jīng)元,采用BP學習算法訓練神經(jīng)網(wǎng)絡。BP算法主要包括兩個階段:向前傳播階段和向后傳播階段。在向前傳播階段,信息從輸入層經(jīng)過逐級的變換,傳送到輸出層。這個過程也是在網(wǎng)絡完成訓練后正常運行時執(zhí)行。將Xp作為輸入向量,Yp為期望輸出向量則BP神經(jīng)網(wǎng)絡向前傳播階段的運算,得到實際輸出表達式為向后傳播階段主要包括兩大步驟:①計算實際輸出Op與對應理想輸出Yp之差;②按極小化誤差方法調(diào)整帶權矩陣。之所以將此階段稱為向后傳播階段,是對應于輸入信號的正常傳播而言的,因為該階段都需要收到精度要求進行誤差處理,所以也可以稱之為誤差傳播階段。(1)確定訓練集。由訓練策略選擇樣本圖像作為訓練集。(2)規(guī)定各權值Vij,Wjk和閾值Φj,θk參數(shù),并初始化學習率α及精度控制參數(shù)ε。(3)從訓練集中取輸入向量X到神經(jīng)網(wǎng)絡,并確定其目標輸出向量D。(4)利用上式計算出一個中間層輸出H,再用本式計算出網(wǎng)絡的實際輸出Y。(5)將輸出矢量中yk與目標矢量中dk進行比較,計算輸出誤差項,對中間層的隱單元計算出L個誤差項。(6)最后計算出各權值和閾值的調(diào)整量。所以,卷積神經(jīng)網(wǎng)絡算法是通過訓練人臉特征庫的方式進行學習生成,對不同環(huán)境下不同表現(xiàn)情況的人臉圖像識別有更高的精確性。
2.3人臉識別軟件實現(xiàn)方式
(1)采集人臉數(shù)據(jù)集,然后對數(shù)據(jù)集進行標注,對數(shù)據(jù)進行預處理變成訓練格式。(2)部署訓練模型,根據(jù)訓練算法所需依賴部署電腦環(huán)境。(3)訓練過程,下載預訓練模型,將人臉數(shù)據(jù)集分批次作為輸入開始訓練,最終輸出為訓練好的模型。(4)部署訓練好的模型,捕獲畫面即可對畫面中的人臉進行實時檢測。
3人臉識別在病毒傳播防控中的應用
通過人臉識別技術,可以實現(xiàn)無接觸、高效率的對流動人員進行信息的收集、身份識別、定位地址信息等操作,大大減少了傳染的可能性,切斷了病毒傳播途徑,大大提高了工作效率。通過提前收錄人臉信息,采用深度學習對人臉特征模型的訓練學習,即可獲取人臉識別特征模型,再次驗證時即可實現(xiàn)人臉識別和個人信息快速匹配。AI人工智能幫助人們更好的解放雙手,為人們的生活和工作提供了重要的幫助。本文還提出了在人臉識別的系統(tǒng)基礎上,可以加入定位系統(tǒng)、測溫系統(tǒng)等,依托物聯(lián)網(wǎng)技術和云計算大數(shù)據(jù),更加優(yōu)化管控系統(tǒng)的效率。病毒傳播防控中人臉識別系統(tǒng)流程可以概括為圖2。
4結語
本文研究了一種人臉識別技術在病毒傳播管控系統(tǒng)中的應用,并分析設計了人臉識別實時監(jiān)測及病毒管控系統(tǒng)的流程,大大提高了信息管理的效率,減弱了傳播風險。作為一門新興技術,目前的人臉識別技術還存在著諸多不足之處,像存在環(huán)境光的影響、人臉表情變化、妝容變化、佩戴口罩等都會影響到系統(tǒng)識別精度;另外安全問題也引人深思:現(xiàn)今人臉支付方式迅猛發(fā)展,錄入的人臉模型信息數(shù)據(jù)庫存在有一定的安全風險,一旦被不法分子盜取信息后果不堪設想,所以模型數(shù)據(jù)庫安全、網(wǎng)絡安全,也是系統(tǒng)開發(fā)中必須重視的問題。人臉識別為代表的人工智能技術的研究,在病毒傳播管控作出重大貢獻,依托我國領先的計算機網(wǎng)絡技術和5G等技術,加強人工智能技術與5G通信技術的結合,優(yōu)勢互補,以此來加快大數(shù)據(jù)、人工智能和物聯(lián)網(wǎng)技術發(fā)展進程,對我國社會進步,促進城市建設和管理朝著高效、秩序、和諧穩(wěn)定的方向不斷發(fā)展,增強我國的經(jīng)濟實力有著重大價值和研究意義。
參考文獻
[1]王彥秋,馮英偉.基于大數(shù)據(jù)的人臉識別方法[J].現(xiàn)代電子技術,2021,44(7):87-90.
[2]李剛,高政.人臉自動識別方法綜述[J].計算機應用研究,2003,20(8):4-9,40.
[3]馬玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].計算機科學與探索,2021,7(15):1195-1206.
[4]余璀璨,李慧斌.基于深度學習的人臉識別方法綜述[J].工程數(shù)學學報,2021,38.
[5]王紅星,胡永陽,鄧超.基于LBP和ELM的人臉識別算法研究與實現(xiàn)[J].河南理工大學學報(自然科學版),2005.
[6]鐘陳,王思翔,王文峰.面向疫情防控的人臉識別系統(tǒng)與標準研究[J].信息技術與標準化,2020,6,11-13,1671-539X.
[6]彭駿,吉綱,張艷紅,占濤.精準人臉識別及測溫技術在疫情防控中的應用[J].軟件導刊,2020,10,1672-7800.
篇3
AI從誕生到現(xiàn)在已經(jīng)有60年的時間,期間經(jīng)歷兩輪起落,呈階梯式進化,走到今天進入第三個黃金期。如果按照其智能科技水平劃分,今天的人工智能尚處在狹義智能向廣義智能進階的階段,還是一名不折不扣的“少年”,未來擁有無限的可能和巨大的上升空間。
AI是一門交叉的學科:人工智能由不同的技術領域組成,如機器學習、語言識別、圖像識別、自然語言處理等。而同時,它也是一門交叉學科,屬于自然科學和社會科學的交叉,涉及到哲學和認知科學、數(shù)學、神經(jīng)生理學、心理學、計算機科學、信息論、控制論、不定性論等學科。人工智能領域的技術壁壘是比較高的,并且會涉及到多學科協(xié)作的問題,對任何公司來說,想做好人工智能將是一門大工程。未來不大可能出現(xiàn)一個公司能包攬整個人工智能產(chǎn)業(yè)每一個部分的工作,更可能的模式將是一個公司專注于一個相對細分的領域,通過模塊化協(xié)作的形式實現(xiàn)人工智能領域的不同應用。
進化史呈階梯狀,以階段突破式為成長模式:人工智能的發(fā)展經(jīng)歷了兩次黃金和低谷期,
現(xiàn)在正經(jīng)歷著第三個黃金期。1956年,麥卡賽、明斯基、羅切斯特和申農(nóng)等年輕科學家在達特茅斯一起聚會,并首次提出了“人工智能”這一術語,標志著人工智能的誕生。第二年,由 Rosenblatt 提出 Perceptron 感知機,標志著第一款神經(jīng)網(wǎng)絡誕生。1970年,因為計算能力沒能突破完成大規(guī)模數(shù)據(jù)訓練,人工智能的第一個黃金期到此結束。
后直到1982年德普霍爾德神經(jīng)網(wǎng)絡的提出,人工智能進入第二個黃金期,之后BP算法的出現(xiàn)使大規(guī)模神經(jīng)網(wǎng)絡訓練成為可能,人工智能的發(fā)展又一次進入。1990年,因為人工智能計算機和DARPA沒能實現(xiàn),政府撤資,人工智能又一次進入低估。2006年,隨著“深度學習”神經(jīng)網(wǎng)絡取得突破性進展,人工智能又一次進入黃金時期。
AI將由狹義智能向廣義智能進化,雖然人工智能的誕生已經(jīng)有60年的時間但如果把它比喻成一個人的話,當前的他應該還未成年。按照人工智能的“智能”程度,可以將其分成狹義智能、廣義智能、超級智能三個大的發(fā)展階段,現(xiàn)階段的圖像與語音識別水平標志著人類已經(jīng)基本實現(xiàn)狹義智能,正在向廣義智能的階段邁進。
狹義智能:即當前的技術已經(jīng)實現(xiàn)的智能水平,包括計算智能與感知智能兩個子階段,計算智能指的機器開始具備計算與傳遞信息的功能,感知智能指機器開始具備“眼睛”和“耳朵”,即具備圖像識別與語音識別的能力,并能以此為判斷采取一些行動。
廣義智能:指的是機器開始具備認知能力,能像人類一樣獲取信息后主動思考并主動采取行動。在這個階段,機器可以全面輔助或代替人類工作。
超級智能:這個階段的機器幾乎在所有領域都比人類聰明,包括科學創(chuàng)新、通識和社交技能等。這個階段目前離我們還比較遙遠,到時候人類的文明進步和跨越或許將有賴于機器,而機器人意識的倫理問題也許將在這個階段成為主要問題。
推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù)
智能助手并不只局限于Siri等手機語音助手。微軟率先在win10 系統(tǒng)中加入個人智能助理Cortana,標志著個人PC端智能助理的出現(xiàn);圖靈機器人以云服務的方式進入海爾智能家居、博世m(xù)ySPIN車載系統(tǒng),預示著多場景人工智能解決方案的潮流。初步實現(xiàn)人機交互的智能助手系統(tǒng),已經(jīng)被應用于智能客服、聊天機器人、家用機器人、微信管理平臺、車載系統(tǒng)、智能家居系統(tǒng)、智能手機助理等多個軟硬件領域。
垂直類網(wǎng)站及社交平臺可以借助智能助手系統(tǒng)打造高專業(yè)度的“在線專家”以提升平臺價值;企業(yè)可以借助以“語義識別”為基礎的智能助手系統(tǒng),打造智能客服,效率遠高于傳統(tǒng)的以“關鍵詞對應”為技術支持的客服系統(tǒng)。
推薦引擎,是主動發(fā)現(xiàn)用戶當前或潛在需求,并主動推送信息給用戶的信息網(wǎng)絡。挖掘用戶的喜好和需求,主動向用戶推薦其感興趣或者需要的對象。傳統(tǒng)推薦引擎通常利用用戶在平臺上的歷史記錄進行推薦,效率低、匹配度不高。目前隨著大數(shù)據(jù)和深度學習技術的推進,推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù),乃至全網(wǎng)數(shù)據(jù),并模擬用戶的需求,真正達到按需推薦。全球最大的正版流媒體音樂服務平臺Spotify也利用卷積神經(jīng)網(wǎng)絡參與建設其音樂推薦引擎;谷歌也提出利用深度學習方法來學習標簽進行推薦建設。出品紙牌屋的全球最大在線影片租賃公司Netflix 也利用深度學習網(wǎng)絡分析客戶消費的大數(shù)據(jù),還計劃構建一個在AWS云上的以GPU為基礎的神經(jīng)網(wǎng)絡。
“餐廳推薦引擎”Nara,便是一個利用AI技術的推薦引擎。在上線之初,Nara 就取得了400萬美元的投資。Nara 的數(shù)據(jù)庫中有超過100000家餐廳的信息,并利用特有的“Nara神經(jīng)網(wǎng)絡”,學習使用者的偏好,最終達到“電腦幫你點餐”的目的。
而今年3月22日,國內(nèi)AI領軍企業(yè)阿里巴巴旗下的阿里云數(shù)加啟動“個性化推薦”引擎對外公測,該引擎用于幫助創(chuàng)業(yè)者可以快速獲得媲美淘寶天貓的個性化服務能力。阿里云數(shù)加上的推薦引擎能夠以更低的成本完成開發(fā),節(jié)省程序量達到90%,推薦引擎的搭建時間將由幾個月縮短到幾天。
對于不了解算法的人,只能實現(xiàn)標簽規(guī)則類的推薦,但如果要做成機械化、類似協(xié)同過濾的算法,創(chuàng)業(yè)公司需要配置大量的算法工程師,人力成本很高?,F(xiàn)在用了數(shù)加的推薦引擎,商家只需要做數(shù)據(jù)的ETL加工,推薦的結果集、訓練集都不用處理,只需要調(diào)整參加即可得到推薦結果。
AI帶給人們新的視覺???
醫(yī)療:為健康診斷和藥品研發(fā)插上高飛的翅膀
健康診斷有望迎來新紀元,海量的病歷數(shù)據(jù)和醫(yī)學界的新研究成果,單靠人工很難及時篩選并利用,而引入人工智能技術將充分發(fā)揮這些信息的價值。例如著名的個人健康管理產(chǎn)品公司W(wǎng)elltok將 IBM的Watson功能融入旗下產(chǎn)品 CafeWell Concierge APP中,借助 Watson 的認知計算能力理解人類語言,實現(xiàn)與用戶溝通的能力,從大量數(shù)據(jù)中進行分析并為用戶提供健康管理相關的答案和建議,實現(xiàn)健康管理、慢病恢復訓練、健康食譜等功能,這一領域的良好前景使 Wellltok公司近年的融資額連創(chuàng)新高。另外,2015年IBM斥資10億美元收購醫(yī)療影像與臨床系統(tǒng)提供商Merge,將研究如何實現(xiàn) Watson的“辨讀”醫(yī)學影像功能。此外,AI 還可以從醫(yī)療中心獲得的健康數(shù)據(jù),通過大數(shù)據(jù)分析,實現(xiàn)根據(jù)分析患者行為來制定個性化治療方案的功能。
智能家居:天花板尚遠,AI有望成為核心
行業(yè)天花板尚遠,增速有望保持在 50%左右, 《鋼鐵俠》中的“Jarvis”作為智能管家,除了起到鋼鐵俠的小秘書的作用,還幫主人打理著日常生活,向我們展示了一個理想中的智能家居系統(tǒng)。雖然我們目前可能離那個無所不能的智能管家還很遙遠,但智能家居對我們生活的變革確實已經(jīng)開始了。根據(jù)《2012-2020 年中國智能家居市場發(fā)展趨勢及投資機會分析報告》的預測,我國智能家居市場在 2016年將達到605.7億的規(guī)模,同比增長50.15%,到2020年市場規(guī)模將達到3294億,年均增速將保持在50%左右,具備充足的向上延伸空間。而智能家居想達到“Jarvis”般的終極效果,必然需要引入AI技術,實現(xiàn)家居的感應式控制甚至自我學習能力。
AI有望成為智能家居的核心,實現(xiàn)家居自我學習與控制。按照智能家居的發(fā)展進度,大致可以分為四個階段:手機控制、多控制結合、感應式控制、系統(tǒng)自我學習。當前的發(fā)展水平還處在手機控制向多控制結合的過度階段。而從多控制結合向感應式控制甚至自我學習階段進化時,AI將發(fā)揮主要功能。到今天為止,家居的實體功能已經(jīng)較為全面,未來的發(fā)展重點可能在于如何使之升級改造,實現(xiàn)家居的自我行為及協(xié)作,因此未來AI在智能家居領域的應用有望成為其核心價值。AI對智能家居的重構可以深入到方方面面,包括:控制主機、照明系統(tǒng)、影音系統(tǒng)、環(huán)境監(jiān)控、防盜監(jiān)控、門窗控制、能源管理、空調(diào)系統(tǒng)、花草澆灌、寵物看管等等。
無人駕駛:政策漸萌芽,AI決定可靠性
優(yōu)點多、動機足、政策漸萌芽。據(jù)麥肯錫的調(diào)查顯示,如果能解放駕駛員的雙手,一輛無人駕駛汽車內(nèi)的乘客通過移動互聯(lián)網(wǎng)使用數(shù)字媒體服務的時間多一分鐘,每年全球數(shù)字媒體業(yè)務產(chǎn)生的利潤將增加 50億歐元。此外,由于自動泊車無須為乘客下車預留開門空間,使得停車位空間可縮減至少15%。
如果無人駕駛汽車以及ADAS系統(tǒng)能夠將事故發(fā)生率降低90%,即可挽回全美每年的損失約1千900億美金??梢哉f諸多的優(yōu)點使得無人駕駛技術的研發(fā)動機還是相當充分的,因此未來無人駕駛推行的力度應該還會保持在一個比較高的水平。美國勒克斯研究公司曾預計無人駕駛汽車的市場規(guī)模在2030年將達到870億美元。
到目前為止,各國政府對于無人駕駛技術在政策上的支持正逐步放開,美國政府在年初剛剛宣布了40億美元的資助計劃;英國目前已經(jīng)不需要獲得額外批準和履約保證即可進行實際道路的無人駕駛汽車測試;而德國也在去年宣布將計劃設立無人駕駛汽車測試路段,供安裝有駕駛輔助系統(tǒng)或全自動駕駛系統(tǒng)車輛行駛;歐盟總部正在就如何修改現(xiàn)行有關駕駛的法律法規(guī)從而支持自動駕駛的發(fā)展展開討論和研究工作;日本也提出要在2020年之前實現(xiàn)自動駕駛汽車方面的立法,并將自動駕駛作為 2016年9月七國集團交通部長會議的議題。
“無人汽車大腦”AI的智能程度決定了無人駕駛的可靠性。由于無人駕駛完全交由汽車的內(nèi)置程序負責,因此AI就是無人汽車的大腦,而測距儀、雷達、傳感器、GPS等。設備都是AI的“眼睛”。AI的智能程度直接決定了無人駕駛汽車在不同的路況、不同的天氣、甚至一些探測設備出現(xiàn)故障的突況下能否及時做出正確的判斷并靈活調(diào)整行駛策略,最終決定了無人駕駛汽車當前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大會上了“Drive PX 2”車載計算機,以及一套與之搭配的具有學習功能的自動駕駛系統(tǒng)。該系統(tǒng)的亮點在于“自我學習”,通過讓車輛自行分析路面狀況,而不是在數(shù)據(jù)庫中尋找預先儲存的策略實現(xiàn)自動駕駛,系統(tǒng)背后連接著名為NVIDIA DIGITS的深度學習訓練平臺,最終連接到NVIDIA DRIVENET神經(jīng)網(wǎng)絡,為車輛的自我學習和完善提供支持。并且由于它是通過判斷物體的行進軌跡而不是物體本身去計算路徑,因此在駕駛時受天氣影響較小。
AI 成必爭之地
目前全球AI主戰(zhàn)場依舊在歐美。Venture Scanner的統(tǒng)計顯示,根據(jù)從事 AI相關業(yè)務的公司數(shù)量來看,目前全球 AI的主戰(zhàn)場還是集中在北美和西歐地區(qū)。美國數(shù)量最多,達到450家左右的水平。而中國從事相關業(yè)務的公司數(shù)量還比較少,和俄羅斯、澳洲、部分歐洲國家及非洲南部國家水平接近,相比起歐美國家的AI公司數(shù)量,還有很大的提高空間。
Google:投資未來的人工智能帝國
建立Alphabet帝國,具備品牌背書效應。2015年,谷歌成立母公司 Alphabet, 搜索、廣告、地圖、App、Youtube、安卓以及與之相關的技術基礎部門”仍屬于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都將獨立出來,成為 Alphabet 旗下的獨立公司。通過建立 Alphabet集團,谷歌將不同業(yè)務的研發(fā)獨立出來,以子公司的形式進行業(yè)務開展,保留在Google這個品牌下的基本都是原有的傳統(tǒng)強勢業(yè)務。
而其它公司負責在各自的領域“打頭陣”,一旦業(yè)務研發(fā)成功,母公司連帶著google這個品牌都可以受益,而如果研發(fā)失敗,也不會公司的品牌造成多大的不良影響,建立了良好的品牌背書效應。將機器學習技術應用到所有產(chǎn)品之中,我們不難發(fā)現(xiàn),谷歌近年幾乎將人工智能滲透到了旗下的各類產(chǎn)品中,可謂是全線鋪開。正應了谷歌 CEO的那句話:“我們將小心謹慎地將機器學習技術應用到我們所有的產(chǎn)品之中。”根據(jù)當前Alphabet 的集團架構,我們將涉及到AI應用的子公司情況以及相應的業(yè)務開展情況羅列如下:
Nest:從事智能家居生態(tài)系統(tǒng)建設。2014 年谷歌以32億美元收購 Nest。Nest 生產(chǎn)智能恒溫器,它能夠學習用戶的行為習慣,并且根據(jù)他們的喜好去調(diào)節(jié)溫度。同時,Nest 也提供火警探測器和家庭安全攝像頭等智能家居。
Google X:谷歌各類創(chuàng)新技術的“孵化池”。Google X開展的與AI有關的項目有:無人駕駛汽車、Project Wing 無人機送貨項目、對抗帕金森氏癥的 Liftware“反抖”湯匙、用于疾病預警和健康監(jiān)控的可穿戴設備、Project Titan 太陽能無人機項目、以及 Replicant 團隊負責的機器人項目等。
Verily:從事生命科學業(yè)務,即原來的 Google Life Science。代表產(chǎn)品有可以收集佩戴者體溫和血液酒精含量等生物數(shù)據(jù)的智能隱形眼鏡,以及監(jiān)控血液中納米粒子的智能腕表。
DeepMind:深度學習算法公司。2014年谷歌以4億美元收購了DeepMind。
DeepMind的算法源于兩種機器學習方法的結合:第一種是深度學習,是受人腦啟發(fā)的一種結構。深度學習系統(tǒng)能夠從大量的非結構數(shù)據(jù)中獲取復雜信息。第二種是增強學習,靈感源自動物大腦中的神經(jīng)遞質多巴胺獎勵系統(tǒng),算法不斷通過試錯來進行學習。目前,DeepMind在深度學習上面的研究成果已經(jīng)開始用在谷歌的機器人項目中。
篇4
關鍵詞:內(nèi)部威脅;檢測模型;信息泄露;網(wǎng)絡安全;
作者:吳良秋
0、引言
隨著大數(shù)據(jù)、云計算蓬勃發(fā)展,計算機相關產(chǎn)品在我們生活中扮演著重要角色,我們在享受的同時,信息安全成了不可忽視的安全隱患,數(shù)據(jù)的非法獲取成了互聯(lián)網(wǎng)環(huán)境下的巨大威脅,特別是內(nèi)部威脅,具有一定的透明性,發(fā)生在安全邊界之內(nèi),相對于外部攻擊更隱蔽,對整個網(wǎng)絡安全環(huán)境提出了嚴峻挑戰(zhàn)。
美國防部海量數(shù)據(jù)庫[1]監(jiān)測、分析和識別單位雇員的行為是否給國防部帶來危險;2013年斯諾登事件中內(nèi)部人員通過私人渠道公開內(nèi)部數(shù)據(jù)引起媒體廣泛關注;2017年3月,Dun&Bradstreet(鄧白氏)的52GB數(shù)據(jù)庫遭到泄露,這個數(shù)據(jù)庫中包括了美國一些大型企業(yè)和政府組織(包括AT&T,沃爾瑪、WellsFargo,美國郵政甚至美國國防部)的3300多萬員工的信息和聯(lián)系方式等;2014年1月,韓國信用局內(nèi)部員工竊取了2000萬銀行和信用卡用戶的個人數(shù)據(jù),造成韓國歷史上最嚴重的數(shù)據(jù)泄露事件,但這只是內(nèi)部威脅安全的冰山一角。SailPoint的調(diào)查顯示,被調(diào)查者中20%的人表示只要價錢合適會出賣自己的工作賬號和密碼。即時內(nèi)部威脅檢測系統(tǒng)(ITDS)是一項昂貴而復雜的工程,但是情報界,國防部,公司都在研究相關檢測模型。
截止2016年4月公安部部署打擊整治網(wǎng)絡侵犯公民個人信息犯罪專項行動以來,全國公安機關網(wǎng)絡安全保衛(wèi)部門已經(jīng)查破刑事案件1200余起,抓獲犯罪嫌疑人3300余人,其中銀行、教育、電信、快遞、證券、電商網(wǎng)站等行業(yè)內(nèi)部人員270余人[2]。
國內(nèi)外內(nèi)部威脅事件不斷發(fā)生,內(nèi)部威脅應對形式嚴峻,需要社會各界的高度重視,首要工作是分析內(nèi)部威脅的特征,從而研究可能的應對方案。
1、內(nèi)部威脅的產(chǎn)生
1.1、相關術語
內(nèi)部威脅,一般存在于某一個企業(yè)或組織的內(nèi)部,內(nèi)部的人員與外界共同完成對團隊信息的盜竊和交易。
定義1內(nèi)部威脅攻擊者一般是指企業(yè)或組織的員工(在職或離職)、承包商以及商業(yè)伙伴等,其應當具有組織的系統(tǒng)、網(wǎng)絡以及數(shù)據(jù)的訪問權。
內(nèi)部人外延是指與企業(yè)或組織具有某種社會關系的個體,如在職員工,離職員工,值得注意的是承包商與商業(yè)伙伴擴展了內(nèi)部人的范圍,即“合伙人”也是潛在的內(nèi)部攻擊者;內(nèi)涵則是具有系統(tǒng)訪問權。
定義2內(nèi)部威脅是指內(nèi)部威脅攻擊者利用合法獲得的訪問權對組織信息系統(tǒng)中信息的機密性、完整性以及可用性造成負面影響的行為。
內(nèi)部威脅的結果是對數(shù)據(jù)安全造成了破壞,如機密性(如數(shù)據(jù)竊取)、完整性(如數(shù)據(jù)篡改)以及可用性(如系統(tǒng)攻擊)等。
企業(yè)或者組織信息化程度已經(jīng)深入日常管理,盡管企業(yè)或組織努力保護自身數(shù)據(jù),但身份盜竊、數(shù)據(jù)庫泄露和被盜密碼問題仍然是企業(yè)組織面臨的主要挑戰(zhàn)。如今,組織面臨的最大挑戰(zhàn)之一是內(nèi)部人士的系統(tǒng)濫用,他們的行為深深植根于不遵守監(jiān)管標準。已經(jīng)確定,信息安全防御中最薄弱的環(huán)節(jié)是人,這意味著最嚴重的威脅來自內(nèi)部人員。
因此,內(nèi)部威脅產(chǎn)生,主要有兩方面原因:(1)主體原因,即攻擊者有攻擊的能力,行為完成一次攻擊;(2)客體原因,一次攻擊能成功都是因為被攻擊對象存在漏洞或者缺乏監(jiān)管。
1.2、內(nèi)部威脅的分類
內(nèi)部威脅[3]有三種主要的分類:偶然的、惡意的和非惡意的。
偶然的威脅通常是由錯誤引起的。例如,由于粗心大意、對政策的漠視、缺乏培訓和對正確的事情的認識,員工可能不會遵循操作流程。惡意的威脅是指故意破壞組織或使攻擊者受益。例如,信息技術(IT)管理員因心懷不滿而破壞IT系統(tǒng),使組織陷入停頓。在許多事件中,當前和以前的管理員都是因各種動機故意造成系統(tǒng)問題。非惡意的威脅是人們故意采取的行動,而不打算破壞組織。在非惡意威脅中,其動機是提高生產(chǎn)力,而錯誤的發(fā)生是由于缺乏培訓或對政策、程序和風險的認識。
1.3、內(nèi)部威脅特征
⑴高危性內(nèi)部威脅危害較外部威脅更大,因為攻擊者具有組織知識,可以接觸核心資產(chǎn)(如知識產(chǎn)權等),從而對組織經(jīng)濟資產(chǎn)、業(yè)務運行及組織信譽進行破壞以造成巨大損失。如2014年的美國CERT的網(wǎng)絡安全調(diào)查顯示僅占28%的內(nèi)部攻擊卻造成了46%的損失。
⑵隱蔽性由于攻擊者來自安全邊界內(nèi)部,所以內(nèi)部威脅具有極強的偽裝性,可以逃避現(xiàn)有安全機制的檢測。
⑶透明性攻擊者來自安全邊界內(nèi)部,因此攻擊者可以躲避防火墻等外部安全設備的檢測,導致多數(shù)內(nèi)部攻擊對于外部安全設備具有透明性.
⑷復雜性(1)內(nèi)外勾結:越來越多的內(nèi)部威脅動機與外部對手關聯(lián),并且得到外部的資金等幫助;(3)合伙人:商業(yè)合作伙伴引發(fā)的內(nèi)部威脅事件日益增多,監(jiān)控對象群體擴大;(3)企業(yè)兼并:當企業(yè)發(fā)生兼并、重組時最容易發(fā)生內(nèi)部威脅,而此時內(nèi)部檢測難度較大;(4)文化差異:不同行為人的文化背景會影響其同類威脅時的行為特征。
2、內(nèi)部威脅模型
學界曾經(jīng)對內(nèi)部威脅提出過諸多的行為模型,希望可以從中提取出行為模式,這部分主要的工作開始于早期提出的SKRAM模型與CMO模型,兩個模型都從內(nèi)部攻擊者的角度入手,分析攻擊者成功實施一次攻擊所需要具備的要素,其中的主觀要素包括動機、職業(yè)角色具備的資源訪問權限以及技能素養(yǎng),客觀要素則包括目標的內(nèi)部缺陷的訪問控制策略以及缺乏有效的安全監(jiān)管等。
根據(jù)內(nèi)部威脅產(chǎn)生的原因,內(nèi)部威脅的模型也可分為兩類:基于主體和基于客體。其中基于主體模型主要代表有CMO模型和SKRAM模型,這也是最早的內(nèi)部威脅模型。
2.1、基于主體的模型
CMO模型[4]是最早用于內(nèi)部攻擊的通用模型,這都是單純從攻擊者的主觀方面建立的模型,沒有考慮到客觀因素,如由于資源所有者內(nèi)部缺陷的訪問控制策略及其缺乏切實有效的安全監(jiān)管。攻擊者成功實施一次攻擊主觀方面所需要具備的要素即:(1)能力(Capability),進行內(nèi)部攻擊的能力,包括文化層次,技術水平等能力;(2)動機(Motive),內(nèi)部攻擊的動機,有因為工作不滿,換取利益等;(2)機會(Opportunity),不是每個人都有機會攻擊,有攻擊的能力,也有動機,但是還得有合適的機會把動機轉化人實際行動。
SKRAM模型[5]是Parker等人在早期的CMO模型基礎上進行的改進,即需要具備的要素有:(1)技能(Skills),也即是內(nèi)部攻擊者的能力;(2)知識(Knowledge),包括內(nèi)部攻擊者的知識水平,文化素養(yǎng);(3)資源(Resources),職業(yè)角色具備的資源訪問權限;(4)Authority;(5)動機(Motives)。
Jason等人[6]提出內(nèi)部人員成為了具有攻擊動機的內(nèi)部攻擊者,主觀要素是用戶的自身屬性,主要影響、反映內(nèi)部人的當前心理狀態(tài),這些要素主要包括三類:一類是包括內(nèi)部人的人格特征等內(nèi)在心理特征,另一類包括精神病史或違法犯罪史等檔案信息以及現(xiàn)實中可以表征心理狀態(tài)變化的諸多行為,最后一類則是內(nèi)部人在組織中的職位、能力等組織屬性。
2.2、基于客體的模型
CRBM模型[7](Role-BasedAccessControl)是基于角色訪問控制。通過擴展基于角色的訪問控制模型來克服內(nèi)部威脅的局限性,引入了CRBM(復合基于角色的監(jiān)視)方法。CRBM繼承了RBAC的優(yōu)點,將角色結構映射為三個:組織角色(OrganizationRole,OR)、應用程序角色(ApplicationRole,AR)和操作系統(tǒng)角色(OperatingSystemRole,OSR)。
李殿偉等人[8]將訪問控制與數(shù)據(jù)挖掘相結合,設計了一種基于角色行為模式挖掘的內(nèi)部威脅檢測模型,提出了一種基于用戶角色行為準則、行為習慣與實際操作行為匹配的內(nèi)部威脅預警方法。文雨等人[9]提出一種新的用戶跨域行為模式分析方法。該方法能夠分析用戶行為的多元模式,不需要依賴相關領域知識和用戶背景屬性,針對用戶行為模式分析方法設計了一種面向內(nèi)部攻擊的檢測方法,并在真實場景中的5種用戶審計日志,實驗結果驗證了其分析方法在多檢測域場景中分析用戶行為多元模式的有效性,同時檢測方法優(yōu)于兩種已有方法:單域檢測方法和基于單一行為模式的檢測方法。
2.3、基于人工智能的模型
傳統(tǒng)的內(nèi)部威脅檢測模型主要是基于異常檢測、基于角色等相關技術,隨著人工智能的興起,利用機器學習等相關算法來建立內(nèi)部威脅模型占據(jù)主要地位。這種模型,建立網(wǎng)絡用戶的正常行為輪廓,并利用不同的機器學習算法進行訓練,實現(xiàn)了檢測準確率高的優(yōu)點,但是效率較低。
Szymanski[10]等人使用遞歸數(shù)據(jù)挖掘來描述用戶簽名和監(jiān)視會話中的結構和高級符號,使用一個類SVM來測量這兩種特征的相似性。郭曉明[11]等提出一種基于樸素貝葉斯理論的內(nèi)部威脅檢測模型。通過分析多用戶對系統(tǒng)的命令操作行為特征,對多用戶命令樣本進行訓練,構建樸素貝葉斯分類器。Yaseen等人[12]研究了關系數(shù)據(jù)庫系統(tǒng)中的內(nèi)部威脅。介紹知識圖譜(KG),展示內(nèi)部人員知識庫和內(nèi)部人員對數(shù)據(jù)項的信息量;引入約束和依賴圖(CDG),顯示內(nèi)部人員獲取未經(jīng)授權知識的路徑;使用威脅預測圖(TPG),顯示內(nèi)部人員每個數(shù)據(jù)項的威脅預測價值(TPV),當內(nèi)部威脅發(fā)生時,TPV被用來提高警報級別。梁禮[13]等人提出基于實時告警的層次化網(wǎng)絡安全風險評估方法,包含服務、主機和網(wǎng)絡三級的網(wǎng)絡分層風險評估模型,通過加權的方式計算網(wǎng)絡各層的安全風險值。分別以實驗室網(wǎng)絡環(huán)境及校園網(wǎng)環(huán)境為實例驗證了方法的準確性和有效性。
2.4、基于交叉學科的模型
隨著內(nèi)部威脅的不斷發(fā)展,內(nèi)部威脅的研究領域不斷擴展,基于心理學、社會學等方面也出現(xiàn)新的研究思路。
TesleemFagade等人[14]提出了信息安全如何嵌入到組織安全文化中。組織文化被描述為在人、過程和政策之間保持聯(lián)系的共同價值觀、行為、態(tài)度和實踐。建議將安全管理與治理結合到組織行為和行動文化中,這是最有效的。習慣性行為傳播,通常需要共同努力打破常規(guī)。如果組織想要養(yǎng)成安全行為的習慣,那么也許一個與組織安全文化的方向一致的長期目標是一種更好的方法,而不是專注于快速認證狀態(tài),然后假設所有的技術和人工過程都是安全的。組織安全文化被定義為被接受和鼓勵的假設、態(tài)度和感知,目的是保護信息資產(chǎn),從而使信息安全的屬性和習慣得以實現(xiàn)。
匡蕾[15]采用了基于蜜罐技術的檢測模型;B.A.Alahmadi[16]等人對用戶的網(wǎng)絡行為建立關聯(lián),從而檢測出潛在的內(nèi)部威脅。首先從用戶瀏覽的網(wǎng)頁中提取出文本信息,建立向量;其次建立詞向量與語言獲得和詞匯計數(shù),然后通過建立的Word-LIWC關系矩陣與已有的LIWC-OCEAN關系矩陣結合得到詞向量的關系矩陣。OCEAN代表大五人格:開放性(Openness)、盡責性(Conscientiousness)、外傾性(Extraversion)、宜人性(Agreeableness)、情緒穩(wěn)定性(Neuroticism);計算用戶瀏覽的新網(wǎng)頁中的詞向量OCEAN值與日常值的歐氏距離,根據(jù)距離的大小判定行為的異常。
3、內(nèi)部威脅常用數(shù)據(jù)集
目前有很多公開的數(shù)據(jù)集,如:KDD99數(shù)據(jù)集,SEA數(shù)據(jù)集、WUIL數(shù)據(jù)集和CERT-IT數(shù)據(jù)集,表1對主要數(shù)據(jù)集進行了對比。
⑴KDD99數(shù)據(jù)集:KDD99[17](DataMiningandKnowledgeDiscovery),記錄4,898,431條數(shù)據(jù),每條數(shù)據(jù)記錄包含41個特征,22種攻擊,主要分為以下四類攻擊:拒絕服務攻擊(denialofservice,DoS)、遠程到本地的攻擊(remotetolocal,R2L)用戶到遠程的攻擊(usertoremote,U2R)和探測攻擊(probing)。
Putchala[18]將GRU應用于物聯(lián)網(wǎng)領域的入侵檢測,在KDD99數(shù)據(jù)集上進行實驗,得到的準確率高于99%?;诰矸e神經(jīng)網(wǎng)絡的入侵檢測算法在KDD99的實驗下,比經(jīng)典BP神經(jīng)網(wǎng)絡和SVM算法有提高。
⑵SEA數(shù)據(jù)集:SEA數(shù)據(jù)集涵蓋70多個UNIX系統(tǒng)用戶的行為日志,這些數(shù)據(jù)來自于UNIX系統(tǒng)acct機制記錄的用戶使用的命令。SEA數(shù)據(jù)集中每個用戶都采集了15000條命令,從用戶集合中隨機抽取50個用戶作為正常用戶,剩余用戶的命令塊中隨機插入模擬命令作為內(nèi)部偽裝者攻擊數(shù)據(jù)。
⑶WUIL數(shù)據(jù)集:WUIL數(shù)據(jù)集通過借助Windows的審計工具,他們實驗記錄20個用戶的打開文件/目錄的行為,每條記錄包含事件ID、事件時間以及事件對象及其路徑信息(如文件名與文件路徑)。
⑷CERT-IT數(shù)據(jù)集:CERT-IT(InsiderThreat)數(shù)據(jù)集[19]來源于卡耐基梅隆大學(CarnegieMellonUniversity)的內(nèi)部威脅中心,該中心由美國國防部高級研究計劃局(DARPA)贊助,與ExactData公司合作從真實企業(yè)環(huán)境中采集數(shù)據(jù)構造了一個內(nèi)部威脅測試集。該中心迄今為止最富有成效的內(nèi)部威脅研究中心,其不僅建立了2001年至今的700多例內(nèi)部威脅數(shù)據(jù)庫,還基于豐富的案例分析不同內(nèi)部威脅的特征,提出了系統(tǒng)破壞、知識產(chǎn)權竊取與電子欺詐三類基本的攻擊類型,由此組合形成復合攻擊以及商業(yè)間諜攻擊;此外CERT還建立了內(nèi)部威脅評估與管理系統(tǒng)MERIT用于培訓安全人員識別、處理內(nèi)部威脅。CERT完整數(shù)據(jù)集有80G,全部以csv格式記錄用戶行為,包括文件訪問權限、文件各種屬性以及用戶對文件的增刪改查、Email收發(fā)、移動存儲設備、打印機等硬件設備使用記錄、HTTP訪問及系統(tǒng)登錄、工作崗位及工作部門等信息。CERT數(shù)據(jù)集提供了用戶全面的行為觀測數(shù)據(jù)以刻畫用戶行為模型。
⑸MasqueradingUserData數(shù)據(jù)集:MasqueradingUserData[20],模擬真是用戶入侵系統(tǒng)。整個數(shù)據(jù)集由50個文件組成,每個文件對應一個用戶。該文件包含100行和50列,每一列對應于50個用戶中的一個。每一行對應一組100個命令,從命令5001開始,以命令15000結束。文件中的條目是0或1。0代表相應的100個命令沒有受到感染。狀態(tài)1代表它們被感染了。
⑹其他數(shù)據(jù)集:Mldata[21]數(shù)據(jù)集包含了869個公開的數(shù)據(jù)集,主要是基于機器學習的數(shù)據(jù),包含視頻流和鍵值集群和服務度量的Linux內(nèi)核統(tǒng)計數(shù)據(jù)、HDF5等。
表1常用數(shù)據(jù)集比較
表1常用數(shù)據(jù)集比較
4、展望
隨著網(wǎng)絡系統(tǒng)不斷龐大,互聯(lián)網(wǎng)技術不斷更新,防范網(wǎng)絡攻擊需要綜合網(wǎng)絡測量、網(wǎng)絡行為分析、網(wǎng)絡流量異常檢測及相關檢測模型在處理數(shù)據(jù)時的最新研究成果,并且還需要有能力分析國內(nèi)外各種最新網(wǎng)絡態(tài)勢。內(nèi)部威脅的傳統(tǒng)檢測方法在模型的特征抽取和模版匹配有一定的局限性,隨著人工智能、云計算、大數(shù)據(jù)等新技術的成熟,這些前沿技術在特征抽取和模式匹配時,檢測效率和準確率有較大提升,目前內(nèi)部威脅熱門研究方向包括:
4.1、人工智能方向
人工智能已經(jīng)日趨成熟,各行各業(yè)都在融合人工智能、機器學習等相關算法技術,在內(nèi)部威脅檢測領域也是一個熱點。
利用當前互聯(lián)網(wǎng)領域前沿的數(shù)據(jù)分析技術、克隆技術、神經(jīng)網(wǎng)絡算法、人工智能算法等,在數(shù)據(jù)采集、身份認證、日志管理、漏洞檢測、操作審計環(huán)節(jié)上改進,從而大力提高檢測的質量和效率。
4.2、云平臺方向
篇5
關鍵詞:消費意圖識別;查詢商業(yè)意圖識別;消費意圖模板;社會媒體
中圖分類號:TP391.41 文獻標識號:A 文章編號:2095-2163(2015)04-
Consumption Intent Recognition for Social Media: Task, Challenge and Opportunity
FU Bo, LIU Ting
(Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, Harbin 150001,China)
Abstract: Social media is the platform where people freely share with each other information such as comments, experiences, and an opinion. Among the large amount of posts, some may reveal the users' underlying commercial intention (CI). The consumption intent is a desire or hope for something to purchase. For instance, a post like “Please recommend for me a Nokia mobile phone about 2,000 RMB” may indicate an immediate or future purchase. Such information is valuable for better advertisement services. The paper introduces the problems this task try to resolve, the main challenges of this task, representative emerging work related to this task. After that, the paper proposes several directions that are worth exploring in future.
Keywords: Consumption Intent; Query Commercial Intent; Consumption Intent Pattern; Social Media
0 研究背景
近年來,網(wǎng)絡數(shù)據(jù)資源呈現(xiàn)幾何式、爆炸式增長,巨量的網(wǎng)絡數(shù)據(jù)中蘊含著大量的用戶的,對諸如產(chǎn)品購買等有價值的行為信息及個性化需求信息,這些關于產(chǎn)品類的信息需求表達了人們的各種消費意愿和消費需求。例如,Google、Baidu等搜索引擎查詢?nèi)罩居涗浟巳藗儚幕ヂ?lián)網(wǎng)搜索所需產(chǎn)品的信息;Twitter、新浪微博等社會化媒體平臺的時尚性、廣泛性和互動性能幫助人們即時所需產(chǎn)品的信息;京東商城、淘寶網(wǎng)等電商網(wǎng)站記錄了用戶瀏覽和購買行為。只有充分了解利用用戶的信息和需求,才能做到有的放矢?;ヂ?lián)網(wǎng)各種不同的媒體上存儲了大量用戶資料、用戶之間的社交關系以及用戶的行為數(shù)據(jù),如表1所示。
可以看出,各種不同媒體中所積累的海量用戶信息為構建新的社會化應用,以及理解人們當前和潛在的消費需求帶來了前所未有的新機遇。在如此龐大用戶基數(shù)的支撐下,互聯(lián)網(wǎng)的巨大潛力正日益體現(xiàn),與現(xiàn)實社會的互動滲透更加緊密深入。互聯(lián)網(wǎng)上出現(xiàn)的不同媒體在商業(yè)、生活、政治等各方面,也正發(fā)揮著源自其強大信息傳播的重要作用。截至2014年12月底,我國網(wǎng)絡購物用戶規(guī)模達到3.61億,較2013年底增加5 953萬人,增長率為19.7%;我國網(wǎng)民使用網(wǎng)絡購物的比例從48.9%提升至55.7%。根據(jù)艾瑞咨詢預測,2017年的網(wǎng)絡購物交易規(guī)模將達到56 340億元,占社會消費品零售總額的比例為15.7%,較2010年提升12.8個百分點。特別是在商業(yè)營銷上,約有51%的消費者在成為企業(yè)品牌的粉絲后,購買該品牌商品的意愿也會相應提高5個百分點??梢哉f,互聯(lián)網(wǎng)上用戶對產(chǎn)品的需求與日俱增,并且形式多種多樣。在經(jīng)濟全球化和信息網(wǎng)絡化的今天,主動掌握個體興趣偏好和群體消費趨勢等用戶消費需求信息,就可以在市場營銷、產(chǎn)品計劃等實現(xiàn)智能精準決策,在此背景下,消費意圖(Consumption Intent)識別的相關技術應運而生。
表1 互聯(lián)網(wǎng)不同媒體數(shù)據(jù)和對應的國內(nèi)外流行站點
Tab.1 Examples of different media and the corresponding domestic and foreign websites
1 任務
消費意圖,是指用戶表達出的對購買產(chǎn)品服務等一些商業(yè)消費需求的意愿[1]。消費意圖識別技術是對帶有消費需求色彩的互聯(lián)網(wǎng)用戶生成的文本或用戶本身行為數(shù)據(jù)進行的分析和整理,通過網(wǎng)絡的方式挖掘出用戶當前或潛在的消費需求。
面向社會媒體的消費意圖識別的任務可以分為基于內(nèi)容的消費意圖識別和基于用戶的消費意圖識別。其中,基于內(nèi)容的消費意圖研究包括消費模板的抽取、消費意圖識別以及消費意圖中的消費對象抽取等。具體地,基于內(nèi)容的消費意圖是指導用戶通過互聯(lián)網(wǎng)與購買需求相關的信息,如:“我想買一部手機,誰能給推薦一下嗎”,即是一個顯式消費意圖內(nèi)容,這里的“手機”即為消費對象;而基于用戶的消費意圖則是指一條信息沒有明確的表達購買產(chǎn)品或服務的意圖,但通過推理可發(fā)現(xiàn)用戶潛在的商業(yè)需求,間接地表明用戶將來會購買與母嬰用品相關的產(chǎn)品或服務。然而到目前為止,關于消費意圖并沒一個標準的定義及分類體系。通過大量的調(diào)研,即可發(fā)現(xiàn)基于內(nèi)容的消費意圖文本中有意義的信息主要有觸發(fā)詞語(如“想買”)、消費對象等,而基于用戶的消費意圖也會包含有一些用戶歷史行為。下面本文將逐一介紹目前顯式消費意圖識別研究中的主要任務和主要實現(xiàn)技術。
最初的消費意圖識別任務源自前人對帶有消費意圖的詞語或模板的分析,如“想買”即是帶有消費意圖的模板。隨著互聯(lián)網(wǎng)上大量的帶有消費意圖的文本出現(xiàn),研究者們逐漸從簡單的消費意愿的模板的分析研究過渡到更為復雜的用戶當前需求以及潛在需求的研究?;诖?,按照處理角度的不同,可分為基于文本內(nèi)容的消費意圖識別和基于用戶的消費意圖識別。其中,前者處理的文本內(nèi)容包括互聯(lián)網(wǎng)上用戶在搜索引擎輸入的單個查詢、單條微博文本等用戶的內(nèi)容,如微博消費意圖文本“想給兒子買個電動挖掘機”,表明了用戶的消費意愿是想為受眾目標“兒子”購買一臺“電動挖掘機”的消費對象;后者處理的對象主要是以用戶為中心,如一個用戶一直對母嬰用品有消費意圖。按時消費意圖的時效不同,可分為現(xiàn)實需求和潛在需求?,F(xiàn)實需求是指已經(jīng)存在用戶當前的需求。潛在需求是指消費者雖然有明確意識的欲望,但由于種種原因還沒有明確的顯示出來的需求。
2 挑戰(zhàn)
互聯(lián)網(wǎng)用戶的消費意圖識別存在著各種各樣的挑戰(zhàn)。具體地,可將其劃分為三種?,F(xiàn)給出如下論述:
2.1 網(wǎng)絡數(shù)據(jù)采集的挑戰(zhàn)
互聯(lián)網(wǎng)數(shù)據(jù)形式多樣化,不同媒體平臺的用戶和內(nèi)容具有異構性,因而針對網(wǎng)絡數(shù)據(jù)的采集需要就不同類型的內(nèi)容分別進行處理,提取有價值的內(nèi)容信息和用戶行為信息。例如,在線社區(qū)中的用戶信息大部分以超文本標記語言(HTML)的網(wǎng)頁方式展現(xiàn),挖掘基于社區(qū)中的用戶消費意圖文本,需要針對HTML這種非結構化的數(shù)據(jù)精準地抽取出用戶名、用戶發(fā)貼內(nèi)容等元數(shù)據(jù)信息。而社交媒體網(wǎng)站的數(shù)據(jù)挖掘則需要通過采集記錄內(nèi)部系統(tǒng)日志來實現(xiàn),如Facebook的Scribe。因而,在進行消費意圖研究的相關工作中,都首先需要挖掘出不同媒體中的含有消費意圖的內(nèi)容或具體行為。
2.2 數(shù)據(jù)稀疏的挑戰(zhàn)
互聯(lián)網(wǎng)上存在著大量的垃圾信息。例如社會媒體用戶中有33%左右的用戶微博的是自己的狀態(tài)信息,諸如“好無聊怎么辦”,而僅有8.7%的微博內(nèi)容傳達了有價值的信息。由于微博上用戶可以借助個人習慣的方式表達自己的感受,因而在這些有價值的信息中,微博內(nèi)容信息通常是隨意、零散和有噪聲的。
2.3 跨社區(qū)的挑戰(zhàn)
互聯(lián)網(wǎng)上社會媒體、論壇、電商網(wǎng)站等迅速發(fā)展,積累了大量的用戶信息,為社會計算的相關研究提供了前所未有的海量數(shù)據(jù)。例如,Ding等人[2]基于微博用戶的消費意圖研究電影票房預測問題。也有學者分別研究了用戶評價[3]和在線論壇中的用戶[4]消費意圖識別問題。但是這些相關工作都只關注面向單個社區(qū)或社交媒體的消費意圖識別問題,這是因為不同媒體的用戶之間往往沒有顯式的鏈接,就使得一個媒體中的用戶與其他媒體的用戶之間是無法進行關聯(lián)的。此外,雖然每個用戶在不同媒體平臺上擁有不同的用戶信息,但是這些用戶信息在不同的平臺之間是非共享的??梢杂^察到,由于不同媒體平臺在主題以及功能上的不同,用戶的信息碎片化地分布在不同類型的媒體平臺中。
3 相關工作
3.1 消費意圖模板的抽取
模板(pattern)是自然語言領域中的常見概念,是指從自然語言實例(如短語、句子等)中泛化而來的抽象表達。正因為模板較之實例有著更好的概括和泛化能力,因此被廣泛使用于信息抽取、機器翻譯、自然語言生成等研究中。一個模板通常包含兩部分,即模板詞(patternwords)和模板槽(pattern slots),其中前者可看作模板的常量部分,后者則是模板的變量部分。例如,對于模板“想給[x]買個[y]”,“想給”和“買個”是模板詞,而“[x]”是模板槽。在模板匹配過程中,模板詞必須嚴格匹配,而模板槽可匹配任意內(nèi)容。這里,通過在模板槽中填充具體內(nèi)容從而生成模板實例的過程稱作模板的實例化(instantiation)。例如,在模板“想買[x]買個[y]”的前后兩個槽中分別填充“兒子”和“iPhone6”,便將上述模板實例化為“想給兒子買個iPhone6”。顯然,一個模板可以實例化為多種不同的實例。
模板在信息抽取以及自動問答中已然獲得十分廣泛的應用,因此這兩個研究方向的許多學者都曾提出過模板的抽取方法。與這些方向的研究類似,在消費意圖類模板抽取的研究中,一部分學者使用基于規(guī)則的方法抽取模板。規(guī)則的制定通常要基于一系列的語言分析與預處理,如詞性標注、命名實體識別和句法分析等。相應地,制定的復述規(guī)則也包括詞序列規(guī)則、詞性規(guī)則以及句法規(guī)則等形式。有學者[3,5]基于規(guī)則和基于圖的方法分別獲取意圖模板。在基于圖的方法中,通過將意圖模板抽取看作為圖上隨機游走過程,而且定義的圖節(jié)點將分別為模板節(jié)點和原始內(nèi)容節(jié)點,其基本想法是,若模板節(jié)點+原始內(nèi)容節(jié)點仍能出現(xiàn)在原始語料中,則該模板為候選模板,進而通過圖迭代的方法獲取最終模板。依據(jù)這一方法抽取得到的愿望模板可如下所示:
可以看到,基于規(guī)則的方法其缺點在于規(guī)則的可擴展性差,人工編寫規(guī)則的工作量大,成本較高。具體來講,由于人們在語言表述上具有復雜性和靈活性,規(guī)則的制定過程費時費力且難以覆蓋所有的語言現(xiàn)象。規(guī)則往往依賴于具體語言、領域和文本風格,可移植性不好。同時基于規(guī)則的方法代價昂貴,且遷移性差,因此越來越多的研究者開始利用基于統(tǒng)計的方法來識別消費意圖。
有研究者基于種子實例從產(chǎn)品評價中抽取產(chǎn)品受眾者,即上述模板中的“[x]”。例如,Wang等人[6]將抽取產(chǎn)品受眾者的模板用于產(chǎn)品推薦系統(tǒng)的目標人物抽取環(huán)節(jié)。研究中首先為其產(chǎn)品推薦系統(tǒng)設計了一個受眾人分類體系,然后針對該體系人工編寫少量“種子”實例。比如,對于“I bought my son this phone.”類型的產(chǎn)品評論,其編寫的種子實例為“buy somebody something”。該方法利用種子實例作為輸入,并使用基于boostrapping的方法從產(chǎn)品評論中匹配該種子實例的字符串,進而生成模板。依據(jù)此方法抽取得到的受眾者模板如下所示:
3.2基于內(nèi)容的消費意圖識別
Goldberg等[3]首次提出了“buy wish”的概念(即本文定義的顯式消費意圖,如:想買一部手機)。研究是從用戶在互聯(lián)網(wǎng)上的愿望清單和產(chǎn)品評論中的內(nèi)容來識別其中的消費意圖。過程中,即事先人工給定了一些通用的消費意圖規(guī)則模板,比如“I wish for”,而后再利用規(guī)則模板去匹配具有消費意圖的句子。這種方法較為簡單,但基于人工制定模板的匹配方法效果不甚理想,特別是系統(tǒng)的召回率很低。進而,作者提出了基于二元圖方法自動抽取消費意圖模板,如此生成的消費意圖模板表達能力更強,使得系統(tǒng)識別的效果的性能也相對提高,特別是召回率有了顯著的提升。在此基礎上,作者加入了文本中詞匯作為消費意圖識別的特征。盡管采用詞特征比較簡單,但是通過實驗結果發(fā)現(xiàn)文本中的詞特征對于消費意圖識別是非常有效的。
Chen和Hsu[4]也提出過相似的概念“Intention Posts”。研究者基于不同領域間消費意圖表達方式相近的假設,即用于學習的訓練樣本與新的測試樣本近似地滿足獨立同分布的條件。利用這種遷移學習(Transfer learning)的思想只需要在一個領域標注數(shù)據(jù),并將其應用于一個新的沒有任何標注的目標域數(shù)據(jù)。面對著消費意圖文本中表達意圖的內(nèi)容通常只有一個或幾個關鍵字,同時數(shù)據(jù)不平衡的問題,作者提出了Co-Class算法 。 首先,利用已有領域的標注數(shù)據(jù)構建一個分類器,然后將分類器應用到目標域的無標注數(shù)據(jù)中。這樣,在目標數(shù)據(jù)中便可以重新形成特征選擇,進而構建新的分類器。這兩個分類器將共同對目標實施數(shù)據(jù)分類。這一迭代過程運行即直至類別標簽對目標數(shù)據(jù)標注不再改變?yōu)橹?。作者分別在四個領域的語料上進行了遷移學習的實驗,而通過實驗則證明了提出的Co-class算法對跨領域遷移學習的消費意圖識別任務是有效的。
Wang等[7]在不同領域的消費意圖識別任務上展開了相關研究。研究提出了基于圖的方法來識別Twitter中表達用戶意圖的內(nèi)容。具體來說,該方法將要分類的Twitter內(nèi)容和意圖關鍵詞(如:對句子“I want to buy an xbox”中“buy an xbox”即為文中定義的意圖關鍵詞)作為圖上的節(jié)點,利用意圖關鍵詞和Twitter句子之間的關系形成邊和邊權重來構建圖,繼而使用圖傳播算法來完成在不同領域類別上的消費意圖分類。此外,Ding等人[2]提出了基于領域自適應卷積神經(jīng)網(wǎng)絡的微博文本消費意圖識別方法,并將此方法應用到了電影票房預測的任務上,研究證明,消費意圖特征有助于預測電影票房,其原因在于用戶對電影的消費意愿能直接反映出用戶購票的活躍度。
3.3基于內(nèi)容的消費對象識別
相比而言,已有研究主要針對基于內(nèi)容的消費意圖進行識別,很少研究消費意圖句中的消費對象識別。本文定義消費對象是指消費者提出所需要購買的對象,即某段文本內(nèi)容中所論述的對象。由于廣告商所關注的正是用戶針對某一消費對象的消費意圖,而也就是這一存在使得消費意圖研究更加突顯其現(xiàn)實重要意義。但目前針對消費意圖對象的相關研究較少。Wang等人[6]提出了從微博中挖掘趨勢相關產(chǎn)品的問題。相應地即將“趨勢”定義為在微博上被用戶熱烈討論的話題。例如,如果有人在微博上說“最近北京空氣很差”,那么就希望從空氣很差這一趨勢中,挖掘出空氣凈化器,口罩等與之相關的產(chǎn)品。
一般而言,現(xiàn)有的研究是從文本內(nèi)容中挖掘產(chǎn)品命名實體[8-10]或是評價對象[11-14]。這里期望能從產(chǎn)品命名實體和評價對象抽取的研究中借鑒一些有價值的和方法,從而對消費對象抽取研究有所啟發(fā)和促進。一方面,事實上產(chǎn)品命名實體抽取的研究屬于命名實體識別的研究范疇。命名實體(Named Entity:NE)挖掘,主要是指從文本中挖掘出人名、地名、機構名等。早期命名實體的研究方法是基于人工規(guī)則的算法。近年來,一些機器學習的方法被應用到命名實體的研究之中。一部分學者采用基于分布假設計算詞義相似度,其基本思想是那些傾向于出現(xiàn)在相似的上下文中的詞意思相近,通過人工給定一組實體作為種子,其上下文作為模板并使用迭代的方法獲取了給定目標類別下的新實體。以往的產(chǎn)品命名實體識別的研究主要是基于有指導的方法,然而這類方法需要標注大規(guī)模的訓練語料,由于產(chǎn)品命名實體中詞匯量比較大,新詞頻繁出現(xiàn),經(jīng)常出現(xiàn)縮略語,構建足夠訓練規(guī)模的產(chǎn)品命名實體訓練集是比較困難的。這個問題對于消費對象識別來說同樣存在,由于社會媒體中用戶的內(nèi)容隨意,導致消費對象的成分多不完整,通常由縮略語等代替,故而諸如產(chǎn)品型號類:5s(指iPhone手機的型號5s)這種產(chǎn)品型號邊界未必能夠被識別出來。
在情感分析中有研究從評論中挖掘用戶的評價對象。一般而言,現(xiàn)有的方法將評價對象的范圍限定在名詞或名詞短語的范疇內(nèi),當然并非所有的名詞或名詞短語都是評價對象,因而需要對其進行識別。有研究者基于經(jīng)驗性的規(guī)則[12]或關聯(lián)規(guī)則的方法找出頻繁出現(xiàn)的評價對象[13-14],然后基于經(jīng)驗性的剪枝方法從中過濾錯誤的評價對象實例。還有學者將評價對象與產(chǎn)品屬性之間關聯(lián)起來,即認為產(chǎn)品屬性可以作為評價對象的一種表達方式,如對一個手機來講,“手機的像素”是手機的一個屬性,而“觸屏手機”是手機的部件之一。首先,該方法獲取大量的名詞短語作為候選評價對象;繼而采用了某些關系指示短語(比如“屬性-從性”關系指示詞:attribute-of)來獲取評價對象,最后利用候選評價對象和關系指示短語之間的共現(xiàn)關系,得出該候選評價對象是否是真正的評價對象。
4 未來的研究方向
消費意圖識別作為產(chǎn)品推薦和自然語言處理領域的一個重要方向,還有許多有意義的問題值得研究,其中熱點的研究方向和問題主要包括:
(1)雖然研究者們已經(jīng)提出了多種方法用于消費意圖句的識別、消費意圖模板和消費對象識別等方法。然而總的來看識別出的準確率較低,仍有許多噪聲數(shù)據(jù)無法過濾,特別是隱性消費意圖識別鮮有研究。因此接下來的一個主要目標就是如何找到一種有效的方法對不同平臺中的消費意圖句進行準確識別。同時,迫切需要其后的研究者把消費意圖識別的各項任務做細、做深。尤其是希望能找到一種對于各個平臺或各個不同領域都適用的識別方法。
(2)目前來看,消費意圖識別的大部分工作都集中在顯式消費意圖識別的研究任務中。然而與顯式消費意圖識別任務不同,隱式消費意圖識別的研究任務也是比較有意義的問題。即在一個用戶表達的文本中,挖掘出潛在的購買目標。這方面的研究工作還比較少且仍未臻深入。此外,相對于消費意圖句的識別而言,基于用戶消費意圖的研究也還未展開,尤其是在跨平臺上的研究遠達到充分和全面。然而總的看來,基于隱式消費意圖的研究和基于用戶的消費意圖研究方面還有許多的問題有待解決。
(3)消費意圖研究中的評測問題一直是困擾研究者的一個主要問題。因此希望廣大研究者們能夠共同努力,推出一套大家都能認可和接受的評測體系和數(shù)據(jù),這樣定會極大的促進本研究的發(fā)展。本文基于內(nèi)容的消費意圖識別中各類實驗大都采用人工評測的方法,基于用戶的消費意圖識別評價中采用了自動評價的方法。由于人工評測主觀性強且費時費力,因此找到一種消費意圖研究的自動評測方法還是非常有必要的。
(4)消費意圖識別研究在眾多相關研究中都有很大的應用潛力,如有研究是基于消費意圖的電影票房預測取得了不錯的性能。但這方面具體應用的例子仍不多。所以在今后的研究中,應該積極探索消費意圖識別在各種實際任務中的作用,這樣才能更好地推動此項研究深入開展。
6 結束語
社會媒體是一個基于用戶關系的信息分享、傳播以及獲取平臺,并實現(xiàn)即時分享。這即使得微博成為一個嶄新的信息傳播和用戶交互的方式:一方面,人們通過微博各種消費需求信息,向家人、朋友、同事等尋求幫助,期望從朋友中獲得產(chǎn)品的信息;另一方面,越來越多的用戶也樂于在微博上分享各種感興趣的話題和愛好進行即時分享。因而,迫切需要了解用戶的消費意圖或興趣。消費意圖識別作為產(chǎn)品推薦和自然語言處理領域的一個重要方向,目前的研究還遠未足夠。因此就需要在已有工作的基礎上進一步鉆研,針對尚且存在的問題展開攻關。另外,隨著消費意圖識別方法和技術的逐漸成熟,相應研究成果也將更為廣泛地投入到實際應用中去,以促進諸如產(chǎn)品推薦、信息抽取、在線廣告以及市場營銷等相關研究的發(fā)展。
參考文獻:
[1] B. Fu, T. LIU. Weakly-supervised Consumption Intent Detection in Microblogs [J]. Journal of Computational Information Systems, 2013, 6(9):2423C2431.
[2] X. Ding, T. Liu, J. Duan, et al. Mining User Consumption Intention from Social Media Using Domain Adaptive Convolutional Neural Network [C]// Proceedings of AAAI 2015, Austin, Texas,USA:AAAI,2015: 2389-2395.
[3] J. Ramanand, K. Bhavsar, N. Pedanekar. Wishful Thinking: Finding Suggestions and ‘buy’ Wishes from Product Reviews. [C]// Proceedings of NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text, Los Angeles, California:ACL, 2010:54C61.
[4] A. Goldberg, N. Fillmore, D. Andrzejewski, et al. May all Your Wishes Come True: A Study of Wishes and How to Recognize Them. [C]// Proceedings of NAACL HLT 2009, Boulder, Colorado:ACL, 2009:263C271.
[5] J. Wang, W. X. Zhao, H. Wei, et al. Mining New Business Opportunities: Identifying Trend Related Products by Leveraging Commercial Intents from Microblogs [C]// Proceedings of EMNLP 2013, Seattle, USA:ACL, 2013:1337C1347.
[6] Z. Chen, B. Liu, M. Hsu, et al. Identifying Intention Posts in Discussion Forums [C]// Proceedings of HLT- NAACL2013, Atlanda, GA, USA:ACL, 2013:1041C1050.
[7] J. Wang, G. Cong, X. W. Zhao, et al. Mining User Intents in Twitter: A Semi-supervised Approach to Inferring Intent Categories for Tweets [C]// Proceedings of AAAI 2015, Austin, Texas, USA:AAAI, 2015: 318-324.
[8] 劉非凡, 趙軍, 呂碧波等. 面向商務信息抽取的產(chǎn)品命名實體識別研究[J].中文信息學報, 2006, 20(1):7C13.
[9] F. Luo, Q. Qiu, Q. Xiong. Introduction to the Product-entity Recognition Task [C]// Proceedings of Web Society (SWS), 2011 3rd Symposium on, Port Elizabeth, South Africa: Web Society,2011:122C126.
[10] F. Luo, H. Xiao, W. Chang. Product Named Entity Recognition Using Conditional Random Fields [C]// Proceedings of Business Intelligence and Financial Engineering (BIFE) 2011, Wuhan,China:[s.n.],2011:86C89.
[11] Y. Zhao, B. Qin, S. Hu, et al. Generalizing Syntactic Structures for Product Attribute Candidate Extraction [C]// Proceedings of NAACL 2010, Los Angeles, CA:ACL, 2010:377C380.
[12] J. Yi, T. Nasukawa, R. Bunescu, et al. Sentiment Analyzer: Extracting Sentiments about a Given Topic Using Natural Language Processing Techniques [C]// Proceedings of ICDM 2003, Melbourne, Florida, USA:ICDM, 2003:427C434.