數(shù)據(jù)分析師范文

時間:2023-03-19 19:52:32

導(dǎo)語:如何才能寫好一篇數(shù)據(jù)分析師,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。

數(shù)據(jù)分析師

篇1

Keywords:big data of archive; data scientist; post requirements; post duties; quality demands

數(shù)據(jù)時代,數(shù)據(jù)成為重要的戰(zhàn)略資源。在電子辦公深度與廣度不斷拓展的進(jìn)程中,人類對數(shù)據(jù)“精、準(zhǔn)、深”的要求日益突出。在基于數(shù)據(jù)決策、依賴數(shù)據(jù)管理等“以數(shù)據(jù)說話”的理念日益深入人心的大環(huán)境下,作為大數(shù)據(jù)的關(guān)鍵組成部分――檔案大數(shù)據(jù)的地位和作用也逐漸凸顯出來,它是大數(shù)據(jù)重要維度即歷史維度數(shù)據(jù)的核心,在各個領(lǐng)域都有很好的應(yīng)用前景。但是,應(yīng)該看到,受保密、檔案管理機制等因素的制約,檔案大數(shù)據(jù)的應(yīng)有價值還沒有得到充分發(fā)揮,檔案大數(shù)據(jù)與其他數(shù)據(jù)的整合還有一段很長的路要走。為提升檔案資源建設(shè)與利用效益,對檔案大數(shù)據(jù)進(jìn)行分析,優(yōu)化檔案事業(yè)發(fā)展方案,更好地為領(lǐng)導(dǎo)決策和各領(lǐng)域工作的開展提供數(shù)據(jù)支撐,成為檔案工作的重要組成部分,這就需要檔案資源和檔案事業(yè)數(shù)據(jù)的鼎力支撐。雖然從國家主管部門到各級檔案館(室),都在開展檔案數(shù)據(jù)的統(tǒng)計和分析工作,但是,由于缺乏固定而專業(yè)的分析人員,從數(shù)據(jù)統(tǒng)計和分析的全面性、系統(tǒng)性、多維性、深入性和規(guī)范性等方面看,仍有待進(jìn)一步增強。在此種形勢下,檔案大數(shù)據(jù)作用的發(fā)揮和檔案事業(yè)發(fā)展的科學(xué)性很大程度上取決于檔案部門自身結(jié)構(gòu)的優(yōu)化和管理資源使用效益的提升。

1 檔案領(lǐng)域數(shù)據(jù)分析師崗位設(shè)置的意義

大數(shù)據(jù)時代,數(shù)據(jù)分析在各領(lǐng)域有著十分重要的意義,各行業(yè)對數(shù)據(jù)分析師的需求與日俱增。與其他數(shù)據(jù)相比,檔案大數(shù)據(jù)很大一部分源于政府、軍隊等組織機構(gòu)的活動,具有權(quán)威性和憑證性等不可替代的價值特點,雖然有著服務(wù)社會、服務(wù)百姓的義務(wù),但又必須確保國家利益不受侵害。因此,在行業(yè)內(nèi)部設(shè)立數(shù)據(jù)分析師崗位不僅是社會需求、也是檔案行業(yè)組織機構(gòu)結(jié)構(gòu)優(yōu)化的內(nèi)在需要。

1.1 優(yōu)化檔案資源體系建設(shè)的需要。從局部看,各級檔案部門都不同程度地存在著檔案收集不齊全、著錄不規(guī)范等問題。從整體看,各檔案部門之間存在著檔案資源交叉重復(fù)、數(shù)據(jù)異構(gòu)等問題。系統(tǒng)地設(shè)置統(tǒng)計項目,全面地對檔案資源建設(shè)現(xiàn)狀進(jìn)行分析,就可以準(zhǔn)確地發(fā)現(xiàn)檔案資源體系建設(shè)中的弱項和“瓶頸”。通信網(wǎng)絡(luò)和數(shù)字設(shè)備發(fā)展實踐告訴人們:當(dāng)今,電子文件的增長幾乎達(dá)到了幾何級。例如,阿富漢戰(zhàn)爭期間,美軍為打擊一小股恐怖分子,其情報偵測、監(jiān)視系統(tǒng)24小時產(chǎn)生的數(shù)據(jù)量就達(dá)53TB。在如此大的數(shù)據(jù)量面前,如何分類電子文件、確定保管期限?網(wǎng)站、微博、通訊交友軟件等產(chǎn)生的數(shù)據(jù),哪些是需要作為電子文件保存的、又該如何保存?現(xiàn)有館(室)藏檔案資源,哪些方面需要豐富、哪些方面需要“瘦身”?如何從國家層面調(diào)控檔案資源體系建設(shè)?這些均有待于檔案領(lǐng)域數(shù)據(jù)分析師從“保存歷史、服務(wù)社會”視角、以可靠的數(shù)據(jù)和科學(xué)的分析給出建設(shè)性的解答。

1.2 分析和把握檔案利用規(guī)律的需要。檔案資源的利用是有規(guī)律可循的,掌握了這個規(guī)律對于提升檔案資源利用率是十分有益的。有的檔案資源,其利用具有擴展效應(yīng),即一次成功利用可能會激發(fā)人數(shù)更多、范圍更廣、程度更深的利用,例如名人檔案、著名戰(zhàn)役檔案、歷史典故檔案等;有的檔案資源,其利用具有遞減效應(yīng),即一次成功利用之后可能很長時間內(nèi)不會再有第二次利用,例如事關(guān)普通百姓的個人檔案。如果機械地根據(jù)其前段時間的關(guān)注熱點推薦檔案信息服務(wù)產(chǎn)品,則不僅達(dá)不到理想效果甚至還會引起用戶反感。依托數(shù)據(jù)分析師的科學(xué)分析,有助于檔案部門聚焦服務(wù)熱點,提前做好檔案信息服務(wù)預(yù)案,根據(jù)用戶需求方向準(zhǔn)確提供檔案資源及其編研產(chǎn)品服務(wù)。

1.3 推動檔案管理科學(xué)發(fā)展的需要。近年來,檔案事業(yè)出現(xiàn)了一派欣欣向榮的景象,尤其是檔案信息化建設(shè)、民生檔案的收集與管理等得到了長足發(fā)展。但是,無論是硬件建設(shè)、還是軟件建設(shè),離精細(xì)式、集約化科學(xué)發(fā)展尚有一定距離,這就需要發(fā)揮檔案大數(shù)據(jù)的決策助手作用。對于不同學(xué)識背景、不同工作經(jīng)歷、不同職業(yè)精神的數(shù)據(jù)分析人員來說,同樣的統(tǒng)計數(shù)據(jù)得出的結(jié)論也是不盡相同的。設(shè)置固定的數(shù)據(jù)分析師崗位,則有益于提升數(shù)據(jù)統(tǒng)計和分析工作的科學(xué)性。通過數(shù)據(jù)分析師對檔案事業(yè)分門別類的統(tǒng)計和分析,可以有效地沖破經(jīng)驗主義思維的“籬笆”,發(fā)現(xiàn)和把握新形勢下檔案管理工作的發(fā)展規(guī)律,更加統(tǒng)籌、協(xié)調(diào)和集約化地利用管理資源,構(gòu)建檔案事業(yè)發(fā)展的良好生態(tài)。

1.4 更好地服務(wù)社會發(fā)展的需要。如果說“讀史可以明智”只能模糊地形容檔案的作用,檔案大數(shù)據(jù)在金融、醫(yī)藥、衛(wèi)生、交通、安全和軍事等領(lǐng)域的成功應(yīng)用,已經(jīng)很好地量化和解釋了檔案大數(shù)據(jù)的價值。它是轉(zhuǎn)換思維方式、科學(xué)決策的直接支撐,是引領(lǐng)社會更快、更好發(fā)展的“催化劑”。設(shè)置檔案大數(shù)據(jù)分析師,無疑會有助于提升檔案信息服務(wù)于社會的廣度與深度。同時,也有助于檔案部門把握契機創(chuàng)新服務(wù)社會的模式與內(nèi)容。

2 檔案領(lǐng)域數(shù)據(jù)分析師的崗位職責(zé)

檔案領(lǐng)域數(shù)據(jù)分析師,可以依據(jù)各級主管部門、檔案館(室)的編制和事業(yè)發(fā)展?fàn)顩r合理配置,其職責(zé)主要是從檔案資源建設(shè)、檔案利用、檔案事業(yè)綜合發(fā)展以及檔案文件內(nèi)容等方面進(jìn)行數(shù)據(jù)統(tǒng)計和分析,并制定優(yōu)化方案和提出發(fā)展規(guī)劃建議。

2.1 檔案資源數(shù)據(jù)統(tǒng)計和分析。檔案資源數(shù)量統(tǒng)計和分析,主要是對館(室)藏或者主管范圍內(nèi)的檔案資源數(shù)量情況進(jìn)行統(tǒng)計和分析,包括對各全宗文件數(shù)量的分類統(tǒng)計和分析、同類全宗文件數(shù)量的對比分析、現(xiàn)行全宗文件產(chǎn)生量與歸檔量的對比分析、永久檔案與定期檔案數(shù)量的對比分析、不同類型載體檔案數(shù)量的對比分析、不同地域不同系統(tǒng)檔案移交數(shù)量對比分析、不同時期檔案數(shù)量對比分析、不同密級檔案數(shù)量對比分析等。

檔案資源質(zhì)量統(tǒng)計和分析。主要是對館(室)藏或者主管范圍內(nèi)的檔案質(zhì)量情況進(jìn)行統(tǒng)計和分析,包括檔案資源載體和信息完好度分析、檔案資源結(jié)構(gòu)分析、檔案著錄情況分析、檔案信息化建設(shè)情況分析、檔案目錄數(shù)據(jù)庫質(zhì)量分析、檔案全文數(shù)據(jù)質(zhì)量分析、檔案縮微情況分析、檔案修復(fù)情況分析等。

檔案資源優(yōu)化方案的制定?;陴^(室)功能,在科學(xué)分析的基礎(chǔ)上,提出一定范圍內(nèi)檔案資源體系建設(shè)優(yōu)化方案。主要是從檔案資源結(jié)構(gòu)和數(shù)量視角,有重點地對現(xiàn)有檔案資源進(jìn)行豐富、再鑒定工作。對明顯存在缺失的館(室)藏方向,分析檔案資源可能的分布點,為收(征)集工作提供指導(dǎo)。具體分析檔案著錄、目錄數(shù)據(jù)庫構(gòu)建情形,提供檔案著錄尤其是電子文件著錄以及檔案目錄數(shù)據(jù)庫優(yōu)化方案。必要時,對全文數(shù)據(jù)質(zhì)量進(jìn)行優(yōu)化。根據(jù)檔案完好度統(tǒng)計,制定檔案修復(fù)計劃。

2.2 檔案利用數(shù)據(jù)統(tǒng)計和分析。檔案利用人群統(tǒng)計和分析。主要是對用戶基本情況進(jìn)行統(tǒng)計和分析,包括用戶職業(yè)、單位、年齡、學(xué)歷、檔案專業(yè)知識、興趣點、檔案意識等,從共性和個性等方面進(jìn)行分析和研究。

檔案利用目的、利用效益統(tǒng)計和分析。主要是對檔案利用目標(biāo)和用戶所獲得的收益進(jìn)行分析。從編史修志、工作查考、解決個人問題等方面對檔案利用目的作進(jìn)一步細(xì)分,分別進(jìn)行統(tǒng)計和分析,并關(guān)注其利用效益。同時,分析一定時期內(nèi)得到用戶關(guān)注和利用的檔案資源,尤其是得到用戶重點關(guān)注或利用的檔案資源。

檔案檢索效率統(tǒng)計和分析。主要是對檔案目錄和全文的檢索效率進(jìn)行分析,與圖書情報資源等相關(guān)領(lǐng)域的檢索效率進(jìn)行對比,考慮其是否滿足用戶需要,有無改進(jìn)策略。密切跟蹤信息和知識領(lǐng)域的發(fā)展前沿,將先進(jìn)的技術(shù)和工具應(yīng)用到檔案檢索效率的提升上來,主要是對檔案信息組織和檢索模式提出創(chuàng)新方案。

檔案利用發(fā)展趨勢預(yù)測。由于社會和國家發(fā)展的需要,人們會在一定時期內(nèi)有重點地開展某個或某些方面的工作。數(shù)據(jù)分析師應(yīng)密切關(guān)注某個系統(tǒng)、國家乃至整個人類社會的發(fā)展形勢,科學(xué)地統(tǒng)計和分析用戶的潛在需求,準(zhǔn)確地預(yù)測出檔案利用的重點方向,從而有針對性地做好檔案利用準(zhǔn)備工作。例如,編史修志工作往往在國家層面、某一系統(tǒng)或行業(yè)層面進(jìn)行統(tǒng)一行動,有的又會與編制體制調(diào)整、大型紀(jì)念活動、大項任務(wù)開展等時機緊密結(jié)合;個人利用檔案,往往會與國家出臺某項政策、某一年齡段人群的成長經(jīng)歷、某些文化活動的開展等密切關(guān)聯(lián)。根據(jù)檔案利用歷史數(shù)據(jù)的分析、當(dāng)前社會熱點、用戶關(guān)注方向等,引導(dǎo)檔案信息資源的開發(fā),借助大數(shù)據(jù)工具,利用檔案信息資源整合平臺,充分地進(jìn)行知識挖掘,高效地構(gòu)建專題數(shù)據(jù)庫,向用戶推送檔案信息資源。

2.3 檔案事業(yè)數(shù)據(jù)綜合統(tǒng)計和分析。檔案人才隊伍建設(shè)情況統(tǒng)計和分析。當(dāng)今時代,不僅要求檔案工作者具有較高的信息素養(yǎng),而且需要檔案工作者轉(zhuǎn)變理念,從知識管理視角出發(fā),為用戶提供問題解決方案。檔案領(lǐng)域數(shù)據(jù)分析師應(yīng)該對檔案工作者個體素質(zhì)和整個隊伍建設(shè)情況進(jìn)行統(tǒng)計和分析,要重點關(guān)注專業(yè)學(xué)歷、知識儲備、年齡結(jié)構(gòu)、管理能力、信息素養(yǎng)和職業(yè)精神等方面。

檔案事業(yè)組織領(lǐng)導(dǎo)形勢統(tǒng)計和分析。組織領(lǐng)導(dǎo)是檔案事業(yè)發(fā)展的關(guān)鍵。檔案領(lǐng)域數(shù)據(jù)分析師,應(yīng)可以系統(tǒng)地設(shè)置檔案事業(yè)各類統(tǒng)計表格,并根據(jù)形勢發(fā)展創(chuàng)新地設(shè)置統(tǒng)計項目和衡量指標(biāo)。不僅要分析檔案主管部門對檔案工作的組織領(lǐng)導(dǎo)情況,還要分析各級組織機構(gòu)對檔案事業(yè)的組織領(lǐng)導(dǎo)形勢,包括工作規(guī)劃、經(jīng)費投入和對檔案事業(yè)的關(guān)注度等。

檔案專業(yè)硬件、軟件建設(shè)情況統(tǒng)計和分析。在國家大力倡導(dǎo)檔案信息共享平臺建設(shè)的情形下,對行業(yè)內(nèi)硬件、軟件建設(shè)情況進(jìn)行統(tǒng)計和分析,要重點對檔案館(室)庫房建設(shè)、檔案安全體系建設(shè)、業(yè)務(wù)設(shè)備建設(shè)、檔案軟件系統(tǒng)建設(shè)等方面進(jìn)行統(tǒng)計和分析,避免低水平重復(fù)建設(shè)、提升管理資源利用效益。

制定檔案事業(yè)科學(xué)發(fā)展方案。檔案領(lǐng)域數(shù)據(jù)分析師要適應(yīng)大環(huán)境的需要,從檔案工作者個體出發(fā),提出人才培養(yǎng)和培訓(xùn)方案。從檔案人才隊伍整體建設(shè)出發(fā),合理提出編制調(diào)整、人才配備和人才發(fā)展等建議。在硬件建設(shè)方面,從檔案事業(yè)整體發(fā)展視角提供指導(dǎo)意見,合理配置各類設(shè)備設(shè)施。在應(yīng)用系統(tǒng)開發(fā)方面,針對技術(shù)發(fā)展形勢及時提供建議,為頒布軟件系統(tǒng)需求標(biāo)準(zhǔn)、協(xié)調(diào)資源做出貢獻(xiàn)。

2.4 檔案文件內(nèi)容大數(shù)據(jù)的分析和知識挖掘。無論是科技檔案、專門檔案,還是文書檔案,其利用都是圍繞著組織機構(gòu)(或個人)的業(yè)務(wù)行為開展的。因此,從業(yè)務(wù)層面對檔案內(nèi)容大數(shù)據(jù)進(jìn)行分析,是檔案大數(shù)據(jù)分析的重要內(nèi)容。根據(jù)各專業(yè)發(fā)展的需要,利用高效、可視化的圖形分析工具,對檔案文件內(nèi)容大數(shù)據(jù)進(jìn)行分析,挖掘出其中蘊含的知識點,以指導(dǎo)各領(lǐng)域業(yè)務(wù)工作的科學(xué)開展。

3 檔案領(lǐng)域數(shù)據(jù)分析師的基本素質(zhì)要求

數(shù)據(jù)分析師肩負(fù)著對檔案事業(yè)各類數(shù)據(jù)進(jìn)行統(tǒng)計和分析的職責(zé),并且要根據(jù)分析結(jié)果制定出推動各行業(yè)科學(xué)發(fā)展的、切實可行的方案,這就要求其具有高度的事業(yè)心和責(zé)任感,具備檔案、計算機、數(shù)學(xué)和管理等領(lǐng)域?qū)I(yè)知識和技能。

3.1 思維開闊,開拓精神強。無論是統(tǒng)計項目的設(shè)置、還是優(yōu)化方案的制定,都要求檔案領(lǐng)域數(shù)據(jù)分析師關(guān)注相關(guān)領(lǐng)域前沿發(fā)展形勢,具有開闊的思維和較強的創(chuàng)新意識,能夠敏銳地捕捉到檔案事業(yè)發(fā)展中的主要矛盾,打破舊的思維和工作運行模式,為建立起切合實際的、具有前瞻性的檔案工作機制貢獻(xiàn)力量。

3.2 檔案專業(yè)功底扎實。檔案領(lǐng)域的數(shù)據(jù)分析,其出發(fā)點和落腳點均在檔案收集、管理和利用。因而,數(shù)據(jù)分析師應(yīng)具備系統(tǒng)的檔案專業(yè)理論知識。不僅要熟知檔案領(lǐng)域基本理論,而且要掌握領(lǐng)域前沿發(fā)展和理論創(chuàng)新情況,密切跟蹤行業(yè)發(fā)展實踐,能夠科學(xué)地設(shè)計好統(tǒng)計與衡量指標(biāo)、優(yōu)化和促進(jìn)檔案事業(yè)的綜合發(fā)展。

3.3 掌握計算機應(yīng)用專業(yè)知識。數(shù)據(jù)分析師經(jīng)常要與計算機網(wǎng)絡(luò)、多種軟件工具打交道,必須具備較高的信息素養(yǎng)和扎實的計算機應(yīng)用專業(yè)知識。檔案領(lǐng)域數(shù)據(jù)分析師,應(yīng)了解機器學(xué)習(xí)、人工智能和自然語言知識,能夠結(jié)合領(lǐng)域?qū)嶋H,提出具體的統(tǒng)計、分析軟件系統(tǒng)需求;能夠熟練操作基本分析軟件,掌握大數(shù)據(jù)分析工具的使用(如R軟件、SPSS、MATLAB),準(zhǔn)確地采集、處理數(shù)據(jù),必要時進(jìn)行數(shù)據(jù)遷移;能夠在看似無關(guān)的數(shù)據(jù)中挖掘出蘊含的關(guān)聯(lián)、發(fā)現(xiàn)檔案資源建設(shè)和檔案事業(yè)發(fā)展內(nèi)在規(guī)律。

3.4 熟悉管理學(xué)基本理論。無論是檔案資源管理、還是檔案事業(yè)的綜合管理,都離不開管理學(xué)基本理論的運用。因此,檔案領(lǐng)域數(shù)據(jù)分析師應(yīng)熟悉現(xiàn)代管理學(xué)基本理論,具有嚴(yán)謹(jǐn)?shù)倪壿嬎季S能力和較好的文字表述能力,能夠運用管理學(xué)前沿理論來指導(dǎo)檔案資源建設(shè)和檔案事業(yè)科學(xué)發(fā)展方案的制定。

篇2

關(guān)鍵詞數(shù)據(jù)挖掘 教學(xué)模式 合作式教學(xué)

中圖分類號:G642文獻(xiàn)標(biāo)識碼:A

數(shù)據(jù)是無處不在的。當(dāng)飛速增長的數(shù)據(jù)給我們帶來方便和便捷的同時,也將我們推入浩瀚的數(shù)據(jù)海洋。廣泛用于商業(yè)和科學(xué)領(lǐng)域中的自動數(shù)據(jù)收集設(shè)備每小時能夠產(chǎn)生幾TB規(guī)模的數(shù)據(jù),人們面臨的問題已經(jīng)不再是沒有充分的信息可選擇,而是如何有效利用如此龐大的數(shù)據(jù),并且找到蘊含于這些信息之中的有價值的知識。由于數(shù)據(jù)分析師的匱乏,導(dǎo)致了很多領(lǐng)域出現(xiàn)了“數(shù)據(jù)豐富而知識匱乏”的現(xiàn)象,因而在信息計算科學(xué)、統(tǒng)計學(xué)等本科專業(yè)中開設(shè)數(shù)據(jù)分析課程是非常有必要的。

數(shù)據(jù)分析就是分析和處理數(shù)據(jù)的理論和方法,從數(shù)據(jù)中獲得有用的信息,其內(nèi)容豐富,方法眾多,最大的特點就是“讓數(shù)據(jù)說話”。該課程設(shè)計的分析方法眾多,如:方差分析、非參數(shù)統(tǒng)計、多元統(tǒng)計分析、判別聚類分析、時間序列分析等。由于計算機編程的復(fù)雜及數(shù)據(jù)的難以采集,這些分析方法在課程中大多處于理論教學(xué),使得本科階段的學(xué)生很難接受。隨著計算機及統(tǒng)計軟件(如SAS,SPSS)的普及,大大的減少了對程序能力的要求,隨著大量數(shù)據(jù)被數(shù)據(jù)采集者開放(如金融數(shù)據(jù)庫),使學(xué)生有可研究的對象,從而使得我們在大學(xué)本科階段開設(shè)數(shù)據(jù)分析課程成為可能,但需要合適的教學(xué)模式以適應(yīng)本科階段的教學(xué)。

由于數(shù)據(jù)分析的方法眾多,對不同學(xué)科的數(shù)據(jù)又會有其特殊的分析模型,在一門課中介紹全部是不可能的,透徹的介紹每種方法的原理更是不可能的?;趯W(xué)生的數(shù)學(xué)和計算機基礎(chǔ),從實際問題出發(fā),介紹了常用的方差分析,回歸分析,主成份分析、判別和聚類分析等方法,以方法綜合應(yīng)用為主,理論為輔,運用SAS軟件來實現(xiàn)。在教學(xué)過程中采用了以下幾個模式,并達(dá)到了較好的教學(xué)效果。

1 選用SAS軟件為課程配套工具軟件

在數(shù)據(jù)分析課程的教學(xué)中,算法實現(xiàn)對于本科生來說難度太大,該階段的學(xué)生只學(xué)過C語言,很多分析方法如果用C語言來編程完成,難度將無法想象。我們要培養(yǎng)數(shù)據(jù)分析師,而不是高級程序員。隨著統(tǒng)計軟件在全球的流行,我們選取了SAS軟件作為工具,結(jié)合數(shù)據(jù)分析課程的教學(xué)。通過簡單的編程即可實現(xiàn)所有數(shù)據(jù)分析方法,并且應(yīng)用多樣化,功能強大。但由于SAS入手較難,為了不影響數(shù)據(jù)挖掘可能的教學(xué)時間,我們?yōu)樵搶I(yè)學(xué)生準(zhǔn)備了兩周實踐課程,專門進(jìn)行SAS的教學(xué),取得了很好的效果。在數(shù)據(jù)分析課程中,每一種方法只需介紹基本思想,簡單原理,計算步驟及SAS系統(tǒng)中對應(yīng)的模塊和程序說明。例如在介紹方差分析時,同時介紹SAS系統(tǒng)中ANOVA和GLM過程,利用SAS軟件可迅速得到各種統(tǒng)計量,學(xué)生只需通過結(jié)果做相關(guān)的分析結(jié)論,簡化繁瑣計算,節(jié)省課時,提高了學(xué)生的學(xué)習(xí)興趣。

2 引入合作式教學(xué),加入討論課模式

數(shù)據(jù)分析課程當(dāng)中,理論知識的傳授和應(yīng)用能力的培養(yǎng)歸根結(jié)底是為了解決實際問題。各種分析算法,軟件都是幫助解決問題的一個工具。如何讓學(xué)生去面臨實際問題,并通過收集數(shù)據(jù),建立模型,求解模型從而解決問題,這才是我們希望學(xué)生真正得到的能力。所以,我們引入的合作式教學(xué)模式。每次討論課給定特定的專題,學(xué)生以組為單位收集相關(guān)資料數(shù)據(jù),并進(jìn)行問題分析,選定數(shù)據(jù)分析方法并建模求解,對得到的結(jié)果進(jìn)行相關(guān)的解釋,最后進(jìn)行合理性分析。如對某產(chǎn)品在各個超市的銷售量的分析,判斷地區(qū)是否對銷售量有影響。整個過程從灌輸式的教學(xué)模式轉(zhuǎn)變?yōu)橐龑?dǎo)式的教學(xué)模式,學(xué)生在討論課當(dāng)中占據(jù)主導(dǎo)地位。在分析問題得到結(jié)論后,以小組為單位進(jìn)行總結(jié)匯報,由組外同學(xué)進(jìn)行點評討論,教師只做啟發(fā),指導(dǎo)工作。這種教學(xué)模式,不僅大大提高了學(xué)生的主動性,調(diào)動的學(xué)生思維,提高解決問題的實際能力,表達(dá)、溝通及團(tuán)隊合作能力,而且課堂氣氛活躍,參與面廣,討論中相互發(fā)現(xiàn)問題,糾正錯誤。

3 適當(dāng)介紹方法產(chǎn)生的背景、原理、重點介紹方法的綜合應(yīng)用

適當(dāng)介紹方法產(chǎn)生背景和原理,可加深學(xué)生對分析方法的理解,深入了解方法的適用領(lǐng)域,所能解決的問題,與實際相結(jié)合,從而提高學(xué)生的學(xué)習(xí)興趣。但我們更應(yīng)該把分析方法綜合應(yīng)用作為首要教授的方面,即如何讓學(xué)生把所學(xué)的數(shù)據(jù)方法正確的應(yīng)用到實際問題當(dāng)中。我們應(yīng)該從以下幾個方面入手:

(1)介紹分析方法的基本背景和原理,講清應(yīng)用范圍。教學(xué)中,我們可簡單介紹分析方法的基本思想和計算方法,但其具體能解決何種問題必須講清。如:聚類分析和判別分析兩類問題,都是用于事物的分類,但兩者的本質(zhì)是完全不一樣的。判別分析中的類別是已知的,并且類別的屬性或已知,或間接的給出(通過一組已經(jīng)分類的樣本),根據(jù)已知的知識對現(xiàn)有未知的樣本進(jìn)行分類。而聚類分析則體現(xiàn)的是“物以類聚”的思想,將相似性強的樣本歸為一類,其中類別的特點,數(shù)量在聚類完成前是完全不知道的。如醫(yī)生看病判斷病情屬于分類問題,而對新的疫情進(jìn)行類別區(qū)別則是屬于聚類問題。利用實例使學(xué)生區(qū)分兩種方法所能解決的問題以及兩種方法所處理的數(shù)據(jù)的區(qū)別。

(2)融入數(shù)學(xué)建模思想,加強分析方法的應(yīng)用。每個分析方法從理論到實際應(yīng)用都需要一個過程。如果將一個實際問題轉(zhuǎn)變?yōu)橐粋€數(shù)學(xué)能解決的問題,就需要運用數(shù)學(xué)建模的思想,建立數(shù)學(xué)模型解決實際的問題。如:一個城市的安全程度往往可以通過這個城市的犯罪率來體現(xiàn),但是犯罪種類之多使得我們無法通過某種犯罪次數(shù)來得出結(jié)論。這就使得我們要建立主成分分析模型,運用主成份分析方法,將現(xiàn)有的多種犯罪數(shù)據(jù)進(jìn)行線性組合,得到幾個主要的犯罪指標(biāo)――總體犯罪率,重度犯罪比例等等。利用少量的指標(biāo)去體現(xiàn)原來多個指標(biāo)所體現(xiàn)的大部分信息,達(dá)到反應(yīng)總體狀況的效果。通過簡單的、學(xué)生感興趣的例子,引入主成份模型的原理,介紹分析方法,使其感受到主成份分析的重要性和必要性。通過各個主成分依次求出,其反應(yīng)出的總體信息不斷加大,還可引入貢獻(xiàn)率和累計貢獻(xiàn)率得概念,使學(xué)生明確如何合理選擇主成分。比如當(dāng)前m個主成份的累計貢獻(xiàn)率達(dá)到85%的時候,就可認(rèn)為這m個主成份能夠反應(yīng)總體的絕大部分信息。重點介紹各個統(tǒng)計量在當(dāng)前模型中的含義,作用及對應(yīng)關(guān)系,使得學(xué)生能夠使用分析方法在實際中加以應(yīng)用。

(3)加強介紹方法的步驟、軟件實現(xiàn)及結(jié)果解釋。建立模型后如何利用軟件解決模型是學(xué)生必須掌握的技術(shù)。任何數(shù)據(jù)分析算法,都不太可能利用人工計算完成。由于我們選取了SAS作為分析軟件,所以在課堂中,介紹完原理和數(shù)學(xué)模型后,都會給出相關(guān)實現(xiàn)的步驟。SAS編程相對簡單,分析過程大多是PROC步完成,其針對每種分析方法都會有相關(guān)的過程函數(shù),并且會有與算法對應(yīng)的輸入?yún)?shù)。學(xué)生只要模仿調(diào)用相關(guān)過程,并對結(jié)果進(jìn)行相關(guān)解釋即可實現(xiàn)相應(yīng)分析方法的應(yīng)用。比如利用SAS程序進(jìn)行回歸分析簡單例子:

proc regdata= study.bclass;

modelweight = height /r clm cli dw;

run;

其中,模型參數(shù)r表示要輸出殘差分析,包括因變量的觀察值、由輸入數(shù)據(jù)和估計模型來計算的預(yù)測值、殘差值、標(biāo)準(zhǔn)誤差、學(xué)生化殘差、COOKD統(tǒng)計量等。通過計算可得到各個相關(guān)統(tǒng)計量的值,學(xué)生無需涉及計算過程,只需知道計算得到的各個統(tǒng)計量所代表的含義,并會對結(jié)果進(jìn)行解釋。只有學(xué)會對結(jié)果的解釋分析,才能解決真正的實際問題。

通過教學(xué)實踐,我認(rèn)為將統(tǒng)計軟件作為配套工具和數(shù)據(jù)分析方法結(jié)合教學(xué),可以起到相輔相成的作用,加入合作式教學(xué)模式,開展討論課不僅學(xué)生綜合能力得到了提高,而且學(xué)生團(tuán)隊合作意識得到了加強。同時,教師必須擔(dān)任好自己的角色,要精心設(shè)計教學(xué)中的每個細(xì)節(jié),如分析方法原理的引入,討論專題的選擇等,這樣才能起到良好的教學(xué)效果。

注釋

紀(jì)希禹. 數(shù)據(jù)挖掘技術(shù)應(yīng)用實例[M]. 機械工業(yè)出版社,2009.

篇3

據(jù)國家郵政局?jǐn)?shù)據(jù),2013年“雙11”全天共產(chǎn)生訂單快遞物流量約1.8億件。對比2012年數(shù)據(jù),“三通一達(dá)”快遞公司流量全部翻倍,日處理量已過千萬,卻并未像往年出現(xiàn)“快遞爆倉”的現(xiàn)象,網(wǎng)購者普遍認(rèn)為配送效率較高。這其中,大數(shù)據(jù)應(yīng)用起到了絕對的重要作用。

一、大數(shù)據(jù)時代

最早提出“大數(shù)據(jù)(Big Data)”的是全球知名咨詢公司麥肯錫,他們認(rèn)為“大數(shù)據(jù)是下一輪創(chuàng)新、競爭和生產(chǎn)力的前沿”,“對于企業(yè)來說,海量電子數(shù)據(jù)的應(yīng)用將成為未來競爭和增長的基礎(chǔ)”。由于大數(shù)據(jù)具有規(guī)模性、多樣性、高速性、價值性的特點,使得數(shù)據(jù)處理工具、處理方式,隨著互聯(lián)網(wǎng)與信息技術(shù)的進(jìn)步,得到逐步發(fā)展,同時大數(shù)據(jù)應(yīng)用也已經(jīng)深入到各行各業(yè),從科技到醫(yī)療、政府、教育、經(jīng)濟(jì)以及社會的其他各個領(lǐng)域。2013年5月召開的“京交會”上,申通快遞展示了其最新的“信息化智能平臺”。該平臺通過對數(shù)據(jù)的歸納、分類和整合,可以清楚地查看申通網(wǎng)絡(luò)任何一個網(wǎng)點的經(jīng)營現(xiàn)狀和業(yè)務(wù)構(gòu)成等。而在2013年初,京東商城就已啟動云計算研發(fā)基地,并成立“京東商城――中國人民大學(xué)”電子商務(wù)實驗室,著力電子商務(wù)大數(shù)據(jù)的分析與合作。

二、大數(shù)據(jù)給物流專業(yè)教育帶來的機遇與挑戰(zhàn)

據(jù)規(guī)劃,菜鳥網(wǎng)絡(luò)將建成一張能支撐日均300億元網(wǎng)絡(luò)零售額的智能物流骨干網(wǎng)絡(luò),讓全國任何一個地區(qū)做到24小時內(nèi)送貨必達(dá)。這是大數(shù)據(jù)在物流領(lǐng)域的一次大應(yīng)用,這種應(yīng)用將會改變物流行業(yè)格局,勢必給各物流運營商帶來沖擊。所以,物流快遞行業(yè)必須及時提高企業(yè)競爭力度,擴大企業(yè)實力,進(jìn)而迎接激烈的挑戰(zhàn),而一些菜鳥網(wǎng)帶來的不僅僅是挑戰(zhàn),還蘊含著有利商機,同時創(chuàng)造大量的就業(yè)崗位,帶來大量的人才缺口。根據(jù)麥肯錫公司的預(yù)測報告,到2018年,僅僅美國可從事“深度分析研究”的大數(shù)據(jù)專業(yè)人才短缺就將達(dá)到14萬~19萬人之間。這些人才不但需要掌握著機器學(xué)習(xí)技術(shù)、統(tǒng)計或計算機科學(xué)技術(shù),而且還必須能夠真正知道如何將龐大的數(shù)據(jù)信息轉(zhuǎn)化為有意義的商業(yè)情報。大數(shù)據(jù)的價值在于從海量的數(shù)據(jù)中發(fā)現(xiàn)新的知識,創(chuàng)造新的價值??上驳氖?,物流快遞行業(yè)正是一個產(chǎn)生大量數(shù)據(jù)的行業(yè),在物流快遞各個環(huán)節(jié)中都會產(chǎn)生海量的數(shù)據(jù)。應(yīng)用“大數(shù)據(jù)”技術(shù),通過對其中的數(shù)據(jù)進(jìn)行歸納、分類和整合,清楚地分析企業(yè)網(wǎng)絡(luò)任何一個網(wǎng)點的經(jīng)營現(xiàn)狀和業(yè)務(wù)情況等。然而,傳統(tǒng)物流本科教育培養(yǎng)的是更偏向物流系統(tǒng)構(gòu)建、分析,物流系統(tǒng)運營管理等精英人才。大數(shù)據(jù)在物流行業(yè)的應(yīng)用產(chǎn)生的物流系統(tǒng)數(shù)據(jù)分析師對企業(yè)的作用將越來越大,這就對物流教育提出了更高的要求。只會IT技術(shù)的人才是不能解決物流行業(yè)數(shù)據(jù)處理問題的,大數(shù)據(jù)需要的是復(fù)合型的人才,需要將深厚的技術(shù)背景與所在行業(yè)和業(yè)務(wù)領(lǐng)域的需求相結(jié)合。物流教育機遇隨之而來。

三、我國物流專業(yè)教育現(xiàn)狀

雖然大數(shù)據(jù)給物流教育帶來了機遇,但當(dāng)前的物流教育模式,仍然不能勝任,因為我國推行物流教育20多年來,取得了一定的成就,但同時也存在一定的問題。(1)學(xué)科建設(shè)不夠完善。缺乏獨立的物流知識體系,很容易造成教學(xué)安排的重復(fù),導(dǎo)致教學(xué)體系的冗余狀態(tài)。(2)教育模式陳舊?,F(xiàn)階段的教育模式仍然是重知識傳授、輕能力培養(yǎng),填鴨式教育不利于學(xué)生創(chuàng)新能力培養(yǎng),分析問題、解決問題能力也欠佳。(3)教材雜,不能因材施教。存在相當(dāng)一部分教材知識出現(xiàn)了重疊問題,很少將物流實踐經(jīng)驗技術(shù)總結(jié)指導(dǎo)來進(jìn)行教材編寫,教材質(zhì)量普遍較低。(4)課程結(jié)業(yè)考察模式陳舊。學(xué)生只學(xué)習(xí)教材,容易形成期末突擊學(xué)習(xí),考完就忘的局面。(5)教學(xué)配套實驗室建設(shè)落后。即使建設(shè)了相應(yīng)的物流實驗室,但用于教學(xué)和科研的較少,擁有物流省級以上實驗室的更少。(6)學(xué)術(shù)與實踐能力并重的物流教師缺乏。由于當(dāng)前教師都需要博士學(xué)位,因此大量年輕教師都缺乏企業(yè)實踐,對學(xué)生培養(yǎng)不利。(7)案例、互動教學(xué)少。物流是實踐行業(yè),教育應(yīng)輔以大量案例、互動教學(xué),但當(dāng)前案例教學(xué)大都較陳舊,國外案例不大符合國內(nèi)實際情況,更多的案例沒有能將問題分析透,不能讓學(xué)生在實際中學(xué)習(xí)成長。

四、大數(shù)據(jù)背景下物流專業(yè)教育模式

在當(dāng)前大數(shù)據(jù)發(fā)展如火如荼的背景下,大數(shù)據(jù)分析處理能力對物流專業(yè)教育提出了更高的要求。物流是實踐性很強的行業(yè),物流教育也應(yīng)立足實踐。大數(shù)據(jù)帶來的是思維的轉(zhuǎn)變,強調(diào)的是創(chuàng)新,是新發(fā)明、新服務(wù)的源泉。因此物流教育應(yīng)立足實踐并積極創(chuàng)新,其教育模式可適當(dāng)借鑒國外教育模式。德國模式:德國從人才培養(yǎng)目標(biāo)、課程體系、師資隊伍和實踐環(huán)節(jié)的設(shè)計上都以應(yīng)用型人才培養(yǎng)為基礎(chǔ),對于培養(yǎng)目標(biāo)而言,培養(yǎng)的人才不僅有系統(tǒng)的科學(xué)技術(shù)知識,而且具有超強的實際應(yīng)用能力,學(xué)生畢業(yè)后能很快勝任大中型企業(yè)的技術(shù)骨干或小型企業(yè)的技術(shù)骨干等工作,其課程體系也與企業(yè)實際應(yīng)用緊緊銜接,師資隊伍也以雙師型(即雙軌制)為主,實踐環(huán)節(jié)考核也有嚴(yán)格要求。

英國“工讀交替,實踐教學(xué)”模式:學(xué)生先到企業(yè)學(xué)習(xí),了解企業(yè)的需要和自己需要的理論知識體系,再回到學(xué)校進(jìn)行專業(yè)知識技術(shù)的學(xué)習(xí),之后再回到企業(yè)進(jìn)行實踐。通過這種形式讓學(xué)生充分將理論知識與實踐技能相結(jié)合,畢業(yè)時同時具備較好的系統(tǒng)知識與實踐技能。高校的培養(yǎng)目標(biāo)、課程設(shè)置等方面均以應(yīng)用為主,注重產(chǎn)學(xué)結(jié)合。多數(shù)高校與當(dāng)?shù)氐钠髽I(yè)形成互利合作機制,系科設(shè)置和課程設(shè)置按社會需要調(diào)整,學(xué)校招生人數(shù)大都以企事業(yè)單位的需要和勞動市場的人才預(yù)測來確定。這種人才培養(yǎng)模式不僅為社會培養(yǎng)大量應(yīng)用型工程師,也大大提高了就業(yè)率。美國“生計教育”模式:高校的專業(yè)設(shè)置、課程設(shè)置與社會職業(yè)需求緊密關(guān)聯(lián),使高校教育與社會職業(yè)高度相關(guān),高校本科應(yīng)用型人才培養(yǎng)強調(diào)學(xué)生在接受教育的同時接受專業(yè)知識與技能的培訓(xùn)。人才培養(yǎng)的特點可以概括為:教學(xué)方式靈活多樣、企業(yè)高校合作培養(yǎng)、政府企業(yè)支持培養(yǎng)、系統(tǒng)知識與專業(yè)技能同時培養(yǎng)。這三種模式總結(jié)起來,就是高校教育注重社會需求,按崗位需要來設(shè)置知識技能教育體系,注重實踐,高校與企業(yè)聯(lián)合培養(yǎng)學(xué)生,其畢業(yè)后反哺企業(yè),提高實踐能力與行業(yè)熱情。

因此,在當(dāng)前形勢下,物流教育模式可適當(dāng)做出調(diào)整,可從以下幾個方面進(jìn)行轉(zhuǎn)變:

1.明確就業(yè)定位。全國各高校的物流專業(yè)可根據(jù)自身專業(yè)優(yōu)勢進(jìn)行物流人才教育細(xì)分,不必全國都培養(yǎng)大致相同的人才。各高校有各自的優(yōu)勢專業(yè),完全可以形成自己的獨特優(yōu)勢,進(jìn)行差異化物流教育。根據(jù)定位來設(shè)置自己的培養(yǎng)計劃,按需培養(yǎng)。

2.加強校企合作。各高校可根據(jù)自己情況,加強與企業(yè)的合作,細(xì)分行業(yè),形成以行業(yè)為基礎(chǔ)的物流專業(yè)特色。同濟(jì)大學(xué)物流工程專業(yè)至今已與建材行業(yè)、快遞行業(yè)、快消品行業(yè)、電子產(chǎn)品行業(yè)等多個行業(yè)建立產(chǎn)學(xué)研合作基地,通過行業(yè)滲透積累科研經(jīng)驗,反哺教學(xué),培養(yǎng)卓越工程師。

3.加強學(xué)生實踐。在建立的產(chǎn)學(xué)研基地中,充分磨合企業(yè)需求,為企業(yè)提供科研保障的同時,加大學(xué)生實踐力度,強調(diào)學(xué)生在實踐中學(xué)習(xí),在實踐中成長。大數(shù)據(jù)教育靠學(xué)校自身是無法完成的,只有將學(xué)生投入到企業(yè)實踐中,從企業(yè)獲取數(shù)據(jù),應(yīng)用所學(xué)知識技能進(jìn)行挖掘分析,為企業(yè)提供決策支持,才是多贏。為此,建議設(shè)置兩個實習(xí)期:大一暑假一至兩個月的專業(yè)實習(xí),了解企業(yè)需求和學(xué)生自身所需學(xué)習(xí)的知識體系;第二個時期為大四上學(xué)期,學(xué)生學(xué)習(xí)后再實踐,要求能為企業(yè)解決一些具體問題,如大數(shù)據(jù)分析、網(wǎng)絡(luò)優(yōu)化、倉庫布局及運作優(yōu)化等。同濟(jì)大學(xué)物流工程專業(yè)當(dāng)前已設(shè)置6周的企業(yè)實習(xí),全身心投入到具體實踐當(dāng)中。

4.開展校企合作的科研訓(xùn)練計劃。建立如全國物流大學(xué)生設(shè)計大賽類似的訓(xùn)練計劃,由企業(yè)根據(jù)自身情況題目,由學(xué)生組隊參賽,培養(yǎng)協(xié)作意識、動手能力與創(chuàng)新意識,解決實際問題,同時企業(yè)也能獲得一些“意想不到”的創(chuàng)新想法。學(xué)生的畢業(yè)論文或畢業(yè)設(shè)計盡可能安排在企業(yè)進(jìn)行,雙導(dǎo)師的培養(yǎng)模式更能讓學(xué)生快速成長。同濟(jì)大學(xué)物流工程專業(yè)的某件畢業(yè)論文,將企業(yè)的倉庫效率提高30%。

5.鼓勵教師到企業(yè)踐習(xí)。君欲善其事,必先利其器。只有當(dāng)教師擁有足夠的行業(yè)經(jīng)驗的時候,才能更好地減少填鴨式教育,讓課堂更生動,提高教學(xué)效率,也能為企業(yè)解決更多的科研問題,形成緊密的校企合作關(guān)系,為學(xué)生教育提供更好的資源保障。

6.加強實驗室、專業(yè)圖書館建設(shè)。高水平實驗室是科研和教學(xué)的必要手段。實體仿真實驗器材和軟件環(huán)境,可以讓學(xué)生合理地構(gòu)建自己的物流網(wǎng)絡(luò),充分發(fā)揮想象力,培養(yǎng)創(chuàng)新能力,也是作為大數(shù)據(jù)分析的必備硬件。專業(yè)圖書館建設(shè)也能彰顯專業(yè)優(yōu)勢,提供科研教學(xué)便利。

篇4

關(guān)鍵詞:房地產(chǎn)產(chǎn)業(yè);數(shù)據(jù)挖掘;技術(shù);市場

中圖分類號:F293.3 文獻(xiàn)標(biāo)識碼:A 文章編號:1001-828X(2013)10-0-02

一、引言

近幾十年來,隨著社會經(jīng)濟(jì)的不斷發(fā)展,很多的新型產(chǎn)業(yè)在不斷地發(fā)展當(dāng)中,在這其中,發(fā)展最為迅猛的是房地產(chǎn)產(chǎn)業(yè)。目前我國的房地產(chǎn)行業(yè)已然逐步變成了能對我國社會經(jīng)濟(jì)發(fā)展產(chǎn)生重大影響的產(chǎn)業(yè)部門,房地產(chǎn)產(chǎn)業(yè)給企業(yè)家?guī)砹司薮蟮慕?jīng)濟(jì)效益,增加了國民經(jīng)濟(jì)的發(fā)展的收入,并在經(jīng)濟(jì)發(fā)展的過程當(dāng)中占主導(dǎo)地位,這使得許多的企業(yè)家投入房地產(chǎn)產(chǎn)業(yè)的投資當(dāng)中,房地產(chǎn)行業(yè)在一時之間商業(yè)價值迅速增大,然而伴隨著房地產(chǎn)行業(yè)的快速發(fā)展,我國的房地產(chǎn)行業(yè)越來越多的問題被凸顯出來,如房屋空置率居高不下,房價增長幅度過快,房地產(chǎn)業(yè)投資過度等。而數(shù)據(jù)挖掘技術(shù)中的神經(jīng)網(wǎng)絡(luò)模擬法,可以充分對房地產(chǎn)市場進(jìn)行預(yù)測以及分析,并且可以得出可靠的結(jié)論,降低問題所引發(fā)的風(fēng)險,這樣才能夠保障房地產(chǎn)產(chǎn)業(yè)能夠健康并穩(wěn)健地發(fā)展。

二、房地產(chǎn)行業(yè)需要數(shù)據(jù)發(fā)掘技術(shù)支持

由于市場的競爭日益加大,很多新型產(chǎn)業(yè)由于得到不較為合理的發(fā)展需求而一夜倒閉,因此房地產(chǎn)行業(yè)想要在日益加劇的競爭中取得勝利,就需要有準(zhǔn)確的市場判斷與充分的信息支持。行業(yè)信息,客戶信息以及經(jīng)濟(jì)環(huán)境等大量的信息數(shù)據(jù)積累是房地產(chǎn)行業(yè)市場運作的主要參考。在面對成幾何級數(shù)快速增長的龐大數(shù)據(jù),房地產(chǎn)行業(yè)需要一個可以將龐大數(shù)據(jù)轉(zhuǎn)化為有價值知識的有力分析數(shù)據(jù)工具。否則也只是空有豐富數(shù)據(jù)但是可用信息貧乏的數(shù)據(jù)墳?zāi)埂?/p>

數(shù)據(jù)挖掘,就是一項數(shù)據(jù)處理的有效工具,它可以從龐大的數(shù)據(jù)中發(fā)現(xiàn)潛在的模式以及關(guān)聯(lián),并且能有效的進(jìn)行預(yù)測性分析。在一些統(tǒng)計學(xué)、人工智能等數(shù)據(jù)庫技術(shù)領(lǐng)域有著廣泛的應(yīng)用。數(shù)據(jù)挖掘有助于充分看清業(yè)務(wù)發(fā)展趨勢,最大化的對未來結(jié)果進(jìn)行預(yù)測,并且?guī)椭康禺a(chǎn)行業(yè)所面臨的問題分析出解決的關(guān)鍵性因素,使得企業(yè)保持競爭優(yōu)勢地位。

三、數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用

數(shù)據(jù)挖掘技術(shù)在眾多領(lǐng)域有著廣泛應(yīng)用,且成效卓著,因而逐漸被應(yīng)用于房地產(chǎn)行業(yè)的相關(guān)工作和研究。

(一)數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘是一項針對企業(yè)龐大的信息存儲進(jìn)行系統(tǒng)的理解以及檢查雛菊的工具。數(shù)據(jù)挖掘可以根據(jù)預(yù)先設(shè)定的商業(yè)目標(biāo),對龐大的數(shù)據(jù)進(jìn)行分析探索,尋找出數(shù)據(jù)中隱含的商業(yè)經(jīng)濟(jì)規(guī)律,并且生成相對應(yīng)的預(yù)測分析模型。

數(shù)據(jù)挖掘由于所發(fā)現(xiàn)的都是可執(zhí)行,可以理解以及目前未知的信息,所以也常常被稱之為Knowledge Discovery in Databases即知識發(fā)現(xiàn)。與傳統(tǒng)的統(tǒng)計分析技術(shù)相比較,數(shù)據(jù)挖掘技術(shù)能更好地與數(shù)據(jù)庫進(jìn)行結(jié)合,而且數(shù)據(jù)挖掘技術(shù)中用以發(fā)現(xiàn)信息中隱藏的商業(yè)規(guī)律已經(jīng)不僅僅局限于統(tǒng)計技術(shù),其中遺傳算法,神經(jīng)網(wǎng)絡(luò),自組織圖,神經(jīng)模糊系統(tǒng)等逐漸發(fā)展而出。數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)的信息只是,不僅可以用于預(yù)測模型的構(gòu)建,更可以被統(tǒng)計分析師用以豐富背景只是,然后在適應(yīng)的時候運用到數(shù)據(jù)分析中。

描述與預(yù)測是一般情況下數(shù)據(jù)挖掘的兩類任務(wù)。描述性的數(shù)據(jù)挖掘任務(wù)主要是用來刻畫數(shù)據(jù)庫中數(shù)據(jù)所存在的一般特性。而預(yù)測性的數(shù)據(jù)挖掘任務(wù)則主要是以目前的數(shù)據(jù)為基礎(chǔ),通過不斷的推算以進(jìn)行未來預(yù)測。具體來說,數(shù)據(jù)挖掘技術(shù)主要可以處理一下幾種問題:

1.關(guān)聯(lián)分析。所謂關(guān)聯(lián)規(guī)則,則是在同一件事中出現(xiàn)不同項時,尋找屬性間的相關(guān)性。例如在某個項目住宅的目標(biāo)客戶對該項目各個方面評價的相關(guān)性分析,所尋找的是某些事件時間上的關(guān)聯(lián),如房地產(chǎn)周期以及該項目的股票漲跌等。

2.預(yù)測與分類。分類是根據(jù)預(yù)設(shè)好的標(biāo)準(zhǔn)以及類別,將數(shù)據(jù)庫中所記錄的信息進(jìn)行分類,如根據(jù)房地產(chǎn)客戶消費決策模式,建立預(yù)測模式,為潛在客戶的職業(yè)家庭,收入等個人屬性分類,預(yù)測出其在購房方面可消費支出。房地產(chǎn)行業(yè)客戶可以分為實際客戶,潛在客戶與購買者,想要如此分類,分類系統(tǒng)則會產(chǎn)生相應(yīng)的規(guī)則:如果該客戶愿意并且可以承擔(dān)每個月XX元的月供,并且在X年內(nèi)計劃在某地區(qū)進(jìn)行購房,他/她則是潛在客戶;而進(jìn)行過至少一次業(yè)務(wù)詢問的客戶,則是購買者。

3.聚類。聚類是想數(shù)據(jù)庫整體分成不同的群組,使得群組與群組直接的差別明顯化,并且使得同一群組的數(shù)據(jù)盡可能的相似。聚類與分類看似相同,其實差別甚大。分類是在進(jìn)行分類之前,以及知道要將數(shù)據(jù)分成什么性質(zhì)的哪幾類,而聚類則相反。

4.演變分析。演變分析師指數(shù)據(jù)挖掘所藐視的行為隨著時間而變化的趨勢以及規(guī)律,并且對其分析對象進(jìn)行建模。如將教育水平發(fā)展趨勢,社會經(jīng)濟(jì)發(fā)展以及認(rèn)購構(gòu)成變動進(jìn)行結(jié)合,對房地產(chǎn)日后消費趨勢進(jìn)行分析。

5.描述可視化。通過進(jìn)行空間聚集以及相似計算等一些具體的地理位置聚類概化,形成形象的某區(qū)域的描述。

(二)數(shù)據(jù)挖掘的市場研究價值

數(shù)據(jù)挖掘的技術(shù)運用多方面,在房地產(chǎn)的運用當(dāng)中有十分普遍,并且數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)市場的使用價值十分高,因此所產(chǎn)生的經(jīng)濟(jì)效益也是十分可觀的。同時數(shù)據(jù)挖掘的應(yīng)用也極其廣泛。房地產(chǎn)行業(yè)的客戶一般具有特征面熟復(fù)雜,客戶人群數(shù)量龐大,需求不一,并且容易受到外界因素影響,所以,數(shù)據(jù)挖掘在應(yīng)用當(dāng)中不是一層不變的,而是它具有多變性以及多層性的特點。合理的應(yīng)用數(shù)據(jù)挖掘技術(shù),不僅可以識別客戶的購買行為,分析客戶的購買趨勢以及購買模式,還可以設(shè)計出更好的營銷方案,較少商業(yè)成本,充分滿足客戶需要。數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用價值詳見下表。

(三)在房地產(chǎn)行業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)

隨著社會的不斷發(fā)展,技術(shù)的不斷創(chuàng)新,房地產(chǎn)的發(fā)展迅速,數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)的使用越來越多,在房地產(chǎn)和房地產(chǎn)業(yè)的研究方面應(yīng)用逐漸廣泛,為房地產(chǎn)業(yè)帶來了諸多的產(chǎn)業(yè)效益。

1.數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)的應(yīng)用

數(shù)據(jù)挖掘技術(shù)應(yīng)用于房地產(chǎn),具體需要開展以下工作:

明確商業(yè)目標(biāo)。數(shù)據(jù)挖掘技術(shù)應(yīng)用的首要任務(wù)就是必須明確需要達(dá)到何種程度的商業(yè)目標(biāo),以及需要解決的問題。商業(yè)目標(biāo)描述需要盡可能地清晰以及細(xì)化,以便選擇適合的挖掘方法以及便于對數(shù)據(jù)挖掘效果的檢測,以判斷建立的模式是否有效。在實際應(yīng)用時,就需要數(shù)據(jù)挖掘工作人員對房地產(chǎn)業(yè)的目標(biāo)有一個整體把握,在目標(biāo)指導(dǎo)下開展數(shù)據(jù)收集、分析工作,從而確保房地產(chǎn)朝著前景廣闊的方向發(fā)展。

數(shù)據(jù)準(zhǔn)備。在明確商業(yè)目標(biāo)的基礎(chǔ)上,為了保證所需要提出的數(shù)據(jù)質(zhì)量,除了在進(jìn)行必要的數(shù)據(jù)修正以及檢查,還需要在不同源的數(shù)據(jù)之間考慮其一致性。如果一段數(shù)據(jù)中包含過多的字符,則需要找到對模型輸出影響最大的字符,適當(dāng)?shù)販p少其他不影響模型輸出的多于字符。若是數(shù)據(jù)集是有許多變量組合起來的,需要選擇性的擴大變量范圍,形成效果良好的預(yù)測變量,因此在準(zhǔn)備數(shù)據(jù)階段,需要依照實際,考慮是否需要建立新的變量。在房地產(chǎn)中,就需考慮客戶、市場消費信息調(diào)查數(shù)據(jù)的重復(fù)性、特殊性等問題,確保調(diào)查所得數(shù)據(jù)能夠反映真實的市場情況和客戶需求,進(jìn)而做出正確決策。然而某些缺失的數(shù)據(jù)本身存在有特殊的意義,比如一些富有的客戶常常會忽略收入或者是價格的影響,所以對于收集數(shù)據(jù)要進(jìn)行適當(dāng)整理和準(zhǔn)備。

建立模型。模型的建立是一個反復(fù)完善的工程,并不是一個一次性的工作。選擇適合解決某問題的模型,在其建立過程中,可能會對數(shù)據(jù)產(chǎn)生新的理解,并且修改,甚至改變開始對于問題的設(shè)定。大部分的數(shù)據(jù)挖掘模型并不是為了某個問題而特意設(shè)定的,模式之間也不存在于排斥問題,某個模型并不一定是解決這個問題的最好方法。比如:CART決策樹以及神經(jīng)網(wǎng)絡(luò)既可以幫助分類樹的建立,又可以建立回歸樹。數(shù)據(jù)模型是房地產(chǎn)市場信息的脈絡(luò),課使領(lǐng)導(dǎo)者對于相關(guān)信息有一個整體的把握,進(jìn)而分配各項事務(wù),推動房地產(chǎn)的發(fā)展。

輸出結(jié)果評價以及解釋。模型建立之后,還有一項重要的工作,就是解釋其價值以及評價其結(jié)果。在實際中,應(yīng)用數(shù)據(jù)的變化會影響模型的準(zhǔn)確率。但是模型選擇的正確評價方法并不一定是參照準(zhǔn)確度。對模型的評價需要了解錯誤類型以及產(chǎn)生的相關(guān)費用多少。在不同預(yù)測錯誤產(chǎn)生不同代價的模型中,代價最小的模型將是最好的選擇而不是出錯率最小的模型。

實施。模型在建立成功并且驗證通過后,有兩種常見的使用方法。第一是給分析師提供參考,由其進(jìn)行分析查看此輸出模型,并且做出方案建議以及解釋。第二是將模型應(yīng)用進(jìn)不同的數(shù)據(jù)集合上。正確的輸出模型可以標(biāo)示同一類事例,以及給同一類客戶進(jìn)行打分等。然而在應(yīng)用模型之后,即使其應(yīng)用結(jié)果很成功,也不能放棄不斷監(jiān)控模型效果。因為一切事物都是在不停變化與發(fā)展的,過了一段時間后,很可能隨著人們的消費觀點以及購買方式的改變,此模型已經(jīng)無法再進(jìn)行作用。因此,要隨著時間的變化,以及事實結(jié)合,對模型進(jìn)行測試,完善,甚至有些時候需要重新建立更新模型。

通過以上五個具體步驟完成數(shù)據(jù)挖掘,并應(yīng)用到實際的房地產(chǎn)工作中,就能實現(xiàn)數(shù)據(jù)挖掘技術(shù)的價值,促進(jìn)房地產(chǎn)的進(jìn)一步發(fā)展。

2.數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)研究的應(yīng)用

數(shù)據(jù)挖掘是進(jìn)行房地產(chǎn)市場分析和預(yù)測的新技術(shù),目前已逐漸應(yīng)用于房地產(chǎn)業(yè)的相關(guān)研究當(dāng)中,但仍有許多問題有待完善。數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)研究的應(yīng)用主要有以下幾個方面:

周期和規(guī)律研究。房地產(chǎn)在某段時間、某些特定地區(qū)的發(fā)展會有波動,通常會以周期的形式出現(xiàn),有規(guī)律可循,這也是房地產(chǎn)商進(jìn)行投資等決策的依據(jù)之一。數(shù)據(jù)挖掘技術(shù)科應(yīng)用于分析影響房地產(chǎn)波動的周期性因素以及這些因素之間的相互關(guān)系。

市場發(fā)展趨勢研究。房地產(chǎn)業(yè)屬于市場經(jīng)濟(jì)的一部分,受市場的影響很大,包括樓盤供應(yīng)情況、房地產(chǎn)投資開發(fā)、房地產(chǎn)市場的需求、國民經(jīng)濟(jì)增長等。數(shù)據(jù)挖掘技術(shù)則應(yīng)用于相關(guān)信息的收集,了解房地產(chǎn)的市場需求,并對市場進(jìn)行預(yù)測和預(yù)警,及時采用有效的措施對房地產(chǎn)市場加以有效的宏觀調(diào)控,促進(jìn)其可持續(xù)發(fā)展。

房地產(chǎn)客戶和競爭對手研究。研究者通過關(guān)聯(lián)分析和序列分析這兩種數(shù)據(jù)挖掘方法,可了解房地產(chǎn)客戶需求及其影響因素,找出客戶的消費行為模式,為營銷人員提供依據(jù);也可了解競爭對手的信息和發(fā)展?fàn)顩r,以便及時進(jìn)行策略調(diào)整。

房地產(chǎn)經(jīng)濟(jì)區(qū)劃的研究。針對房地產(chǎn)經(jīng)濟(jì)發(fā)展區(qū)域分布不均衡現(xiàn)象,研究者應(yīng)用數(shù)據(jù)挖掘的比較分析方法對經(jīng)濟(jì)區(qū)劃進(jìn)行動態(tài)分析,及時制定和調(diào)整規(guī)劃。

在我國,數(shù)據(jù)挖掘技術(shù)與房地產(chǎn)領(lǐng)域的結(jié)合研究是近幾年一個較新的課題,因而還面臨許多問題,如國家缺乏數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)應(yīng)用的具體標(biāo)準(zhǔn),尚未建立相關(guān)的大型數(shù)據(jù)庫,研究的結(jié)果的效用不高等等。解決好這些問題,對于房地產(chǎn)業(yè)的發(fā)展具有重要意義。

四、結(jié)束語

綜上所述,隨著市場經(jīng)濟(jì)的不斷發(fā)展,科學(xué)技術(shù)的不斷創(chuàng)新,人們生活水平的不斷提高,新型產(chǎn)業(yè)的不斷誕生,房地產(chǎn)產(chǎn)業(yè)帶來的巨大的經(jīng)濟(jì)效益已經(jīng)不容小視,如何才能在社會競爭中,保持房地產(chǎn)效益的增值呢,這就需要研發(fā)者精湛的研發(fā)技術(shù)和市場銷售者敏銳的觀察力了,數(shù)據(jù)挖掘技術(shù)正是房地產(chǎn)能夠保持快速發(fā)展的較好技術(shù)支持。數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)行業(yè)的應(yīng)用,有利于其把握市場經(jīng)濟(jì)動態(tài)以及客戶購買趨勢,使得其利于激烈競爭中優(yōu)勢地位。更能有效的解決快速發(fā)展中出現(xiàn)的各種問題,使其服務(wù)水平以及營業(yè)效率更上一層樓。

參考文獻(xiàn):

[1]陳琳.江蘇房地產(chǎn)投資與經(jīng)濟(jì)增長關(guān)系實證研究[D].江蘇大學(xué),2007.

[2]肖建雄.中國房地產(chǎn)業(yè)建立戰(zhàn)略聯(lián)盟研究[D].湖南大學(xué),2007.

[3]陳超.我國房價的非理性波動研究[D].東北師范大學(xué),2007.

[4]湯丹花.江蘇省現(xiàn)代服務(wù)業(yè)發(fā)展研究[D].江蘇大學(xué),2006.

[5]伊元元.LG集團(tuán)投資房地產(chǎn)的競爭戰(zhàn)略研究[D].哈爾濱工業(yè)大學(xué),2006.

篇5

【關(guān)鍵詞】大數(shù)據(jù)時代 數(shù)據(jù)分析 信息安全防護(hù)

隨著我國網(wǎng)絡(luò)信息技術(shù)不斷的發(fā)展,當(dāng)下時代已經(jīng)成為大數(shù)據(jù)時代。以往大數(shù)據(jù)的概念主要存在于物理學(xué)領(lǐng)域、生物學(xué)領(lǐng)域、生態(tài)環(huán)境學(xué)領(lǐng)域、軍事領(lǐng)域、金融領(lǐng)域、通訊領(lǐng)域等,而當(dāng)下網(wǎng)絡(luò)和信息業(yè)的空前發(fā)展使大數(shù)據(jù)引起了人們的關(guān)注。數(shù)據(jù)信息已經(jīng)滲透到社會的各行各業(yè),人們通過相關(guān)數(shù)據(jù)信息的發(fā)現(xiàn)和利用,可達(dá)到增加生產(chǎn)率和市場消費率的效果。但大數(shù)據(jù)技術(shù)收集信息軟件給網(wǎng)絡(luò)用戶的隱私帶來了問題,網(wǎng)絡(luò)私人信息的安全防護(hù)遭到威脅。因此本文對大數(shù)據(jù)時代的數(shù)據(jù)分析與信息安全防護(hù)做出相關(guān)研究,研究內(nèi)容如下。

1 大數(shù)據(jù)概述

大數(shù)據(jù)主要是指使用常規(guī)軟件工具無法在規(guī)定的時間內(nèi)對網(wǎng)絡(luò)往來信息進(jìn)行捕捉和管理以及處理。大數(shù)據(jù)時代的主要特點為5V,即數(shù)據(jù)總量大(Volume)、類型繁多(Variety)、價值密度低(Value)、速度快、時效高(Velocity)。大數(shù)據(jù)的初始計量單位為P(P=1000T)、E(E=100000T)、Z(Z=10000000T),數(shù)據(jù)量龐大,其種類包括網(wǎng)絡(luò)文字信息、音頻信息、視頻信息、圖片信息以及地理位置等,數(shù)據(jù)種類豐富對數(shù)據(jù)的處理能力也提出了較高的要求。在大數(shù)據(jù)中,雖然信息量大,但可利用的信息是有限的,因此,大數(shù)據(jù)價值密度較低。大數(shù)據(jù)相對于傳統(tǒng)數(shù)據(jù)而言,需要人們更強的處理信息的能力和速度,對人們的數(shù)據(jù)駕馭力量提出了挑戰(zhàn)。大數(shù)據(jù)在影響著人們生活方式的同時,還影響著各個行業(yè)的發(fā)展,大數(shù)據(jù)的出現(xiàn)也使信息安全面臨著一些問題。

2 大數(shù)據(jù)時代數(shù)據(jù)分析概述

2.1 抽樣量化

在大數(shù)據(jù)時代,樣本就是總體本身,因此在分析某事物的過程中,不需依靠少量的數(shù)據(jù)樣本,而是得到全部的數(shù)據(jù)。傳統(tǒng)的抽樣有樣本缺乏穩(wěn)定和隨機抽樣困難的情況,且在事先設(shè)定好了調(diào)查目的往往會使調(diào)查內(nèi)容和范圍受到人為限制,調(diào)查過程中的側(cè)重點也導(dǎo)致抽樣數(shù)據(jù)無法反映總體情況。另外樣本量的有限也使抽樣結(jié)果缺乏精確性,致使錯誤率的增加,同時傳統(tǒng)抽樣時間效率和生產(chǎn)率低。

2.2 數(shù)據(jù)模糊計算

在大數(shù)據(jù)的影響下,人們接受數(shù)據(jù)較為繁雜,數(shù)據(jù)精確性減弱。有數(shù)據(jù)規(guī)模龐大,因此對數(shù)據(jù)追求精確性的可能性較小,測量數(shù)據(jù)和調(diào)查數(shù)據(jù)都會因為一些不可控的因素或認(rèn)為因素致使數(shù)據(jù)精確性欠缺。大數(shù)據(jù)時代獲得的數(shù)據(jù)量多,但不精確的數(shù)據(jù)也在其中,因此對待大數(shù)據(jù)應(yīng)該看到其有利方面。數(shù)據(jù)的不精確也有利于對事物總體的了解,樣本的增加使信息更為真實。大數(shù)據(jù)的不精確是不經(jīng)意產(chǎn)生的,因此,在需要精確數(shù)據(jù)的領(lǐng)域還是需要避免不精確性的發(fā)生。

2.3 利用數(shù)據(jù)關(guān)系

關(guān)注事物的相關(guān)性,而不是只追求因果。傳統(tǒng)抽樣中會預(yù)先假定因果,但在大數(shù)據(jù)時代,數(shù)據(jù)的復(fù)雜和龐大,會導(dǎo)致因果關(guān)系復(fù)雜化和分析因果復(fù)雜化。因此,大數(shù)據(jù)不不利于追求因果關(guān)系,而利于事物相關(guān)關(guān)系的追求。大數(shù)據(jù)對數(shù)據(jù)的分析思路為分析數(shù)據(jù)相關(guān)性,事物關(guān)系之間的形式多樣化,關(guān)系和目的也是根據(jù)數(shù)據(jù)的變化而變化,沒有相對較為固定的因果和親疏關(guān)系。

大數(shù)據(jù)所提供的價值可以讓人們預(yù)判自己所想知道的事情,比如華爾街利用網(wǎng)絡(luò)民眾的情緒變化進(jìn)行拋售股票;基金公司根據(jù)對購物網(wǎng)站顧客的評論來分析產(chǎn)品銷售情況;銀行根據(jù)網(wǎng)絡(luò)求職的崗位情況判斷就業(yè);投資機構(gòu)從大數(shù)據(jù)中查找企業(yè)破產(chǎn)的前兆;美國總統(tǒng)團(tuán)隊根據(jù)社交軟件分析選民喜好。以此可以看出在大數(shù)據(jù)時代,可利用的數(shù)據(jù)信息對利用者而言十分重要。

3 大數(shù)據(jù)時代面臨的信息安全問題

3.1 信息安全風(fēng)險

由于大數(shù)據(jù)的特點之一為存儲信息較為廣泛,對信息安全性有一定的影響。大數(shù)據(jù)信息海量存儲技術(shù)的成熟降低了信息存儲的成本,因此大數(shù)據(jù)信息處理量顯著增加,處理中心分析信息也變得更加容易。大數(shù)據(jù)信息中心可以根據(jù)終端網(wǎng)絡(luò)用戶的行為信息進(jìn)行分析,然后將結(jié)果提供給信息利用者,分析搜索的商品后向你推薦所感興趣的商品。在移動互聯(lián)網(wǎng),終端用戶信息被隨時采集和存儲,造成了信息安全風(fēng)險。

3.2 個人隱私泄露

有一些網(wǎng)絡(luò)企業(yè)會對網(wǎng)絡(luò)終端用戶的隱私進(jìn)行搜集。為了贏得市場競爭優(yōu)勢,用戶信息成為了企業(yè)的發(fā)展根據(jù)。比如一些智能手機軟件會在用戶不知情的情況下,對用戶使用軟件的時間、地點和位置進(jìn)行信息記錄,發(fā)送到軟件服務(wù)器,暴露用戶的個人隱私泄露信息。

3.3 安全防護(hù)難度

大數(shù)據(jù)時代由于非結(jié)構(gòu)化的數(shù)據(jù)類型多、價值密度低,信息量龐大,因此對安全防護(hù)技術(shù)要求較高,目前我國防護(hù)技術(shù)還未能夠處理大量和多類型的數(shù)據(jù),因此數(shù)據(jù)防護(hù)難度系數(shù)較高。

4 數(shù)據(jù)時代面臨的信息安全問題的應(yīng)對措施

4.1 安全技術(shù)研發(fā)

目前大數(shù)據(jù)需要能夠處理大量和多類型的數(shù)據(jù)分析技術(shù),以主動發(fā)現(xiàn)大數(shù)據(jù)中潛藏的威脅,比如利用信息豐富開發(fā)認(rèn)證系統(tǒng)技術(shù)或建設(shè)數(shù)據(jù)真實分析系統(tǒng),將惡意信息和無用信息排除在外。

4.2 制定個人隱私泄露保護(hù)法律法規(guī)

由于大數(shù)據(jù)是新生事物,因此相關(guān)的法律法規(guī)存在空白。網(wǎng)絡(luò)上違法的數(shù)據(jù)信息行為需要有強制和高效的規(guī)則對其進(jìn)行規(guī)范,以保護(hù)個人信息的合理利用性。

4.3 提高民眾信息安全認(rèn)知

大數(shù)據(jù)來源于民眾,因此提高民眾的信息安全意識,可有效防范數(shù)據(jù)信息面臨的信息安全問題,從而起到維護(hù)個人隱私泄露、避免負(fù)面影響的作用。

5 結(jié)語

綜上所述,大數(shù)據(jù)時代數(shù)據(jù)分析與信息安全防護(hù)具有重要意義,當(dāng)下網(wǎng)絡(luò)和信息業(yè)的空前發(fā)展使大數(shù)據(jù)引起了人們的關(guān)注,數(shù)據(jù)信息已經(jīng)滲透到社會的各行各業(yè),數(shù)據(jù)分析使人們受益匪淺。但大數(shù)據(jù)技術(shù)收集信息軟件給網(wǎng)絡(luò)用戶的信息安全帶來了問題。比如信息安全風(fēng)險、個人隱私泄露、安全防護(hù)有難度等,本研究作者經(jīng)過多方面思考提出提高安全技術(shù)研發(fā)程度、制定個人隱私保護(hù)法律法規(guī)以及提高民眾信息安全認(rèn)知的解決意見,以促進(jìn)大數(shù)據(jù)時代信息安全性的增加。

參考文獻(xiàn)

[1]田秀霞,王曉玲,高明等.數(shù)據(jù)庫服務(wù)――安全與隱私保護(hù)[J].軟件學(xué)報,2010,21(5):991-1006.

[2]劉小龍,鄭滔.一種針對非控制數(shù)據(jù)攻擊的改進(jìn)防御方法[J].計算機應(yīng)用研究,2013,30(12):3762-3766.

[3]李峰,李虎成,於益軍等.基于并行計算和數(shù)據(jù)復(fù)用的快速靜態(tài)安全校核技術(shù)[J].電力系統(tǒng)自動化,2013,37(14):75-80.

篇6

【關(guān)鍵詞】開源數(shù)據(jù)庫 PostgreSQL 數(shù)據(jù)存儲

數(shù)據(jù)庫是一種能夠?qū)?shù)據(jù)進(jìn)行存儲和管理的“倉庫”,它是一個應(yīng)用領(lǐng)域中通用的數(shù)據(jù)處理系統(tǒng),是長期存儲在計算機內(nèi)可進(jìn)行共享的數(shù)據(jù)集合。開源數(shù)據(jù)庫是未進(jìn)行加密,源代碼為開放性的數(shù)據(jù)庫,目前主流的開源數(shù)據(jù)庫有MySQL數(shù)據(jù)庫、PostgreSQL數(shù)據(jù)庫、Ingres r3 數(shù)據(jù)庫、MaxDB數(shù)據(jù)庫、InterBase數(shù)據(jù)庫,每個數(shù)據(jù)庫均有其特性。本文以PostgreSQL數(shù)據(jù)庫為對象,重點對其數(shù)據(jù)存儲的實現(xiàn)路徑進(jìn)行研究。

1 PostgreSQL開源數(shù)據(jù)庫的特點分析

PostgreSQL是一款具有豐富特色的開源數(shù)據(jù)庫管理系統(tǒng),其不但功能齊全,而且還具有商業(yè)級數(shù)據(jù)庫管理系統(tǒng)的特性,在某些方面甚至超越了商業(yè)數(shù)據(jù)庫。PostgreSQL可在各種平臺上應(yīng)用,支持異步Copy、預(yù)寫日志容錯、表空間機制,同時還支持多種字符編碼,易于擴展,在多用戶并發(fā)方面有著極其優(yōu)異的表現(xiàn)。大體上可將PostgreSQL的特性歸納為以下幾個方面:

1.1 開放性

PostgreSQL支持的數(shù)據(jù)類型較多,如IP地址、數(shù)組、幾何圖元、文本、數(shù)值等,同時該數(shù)據(jù)庫還允許用戶自定義正規(guī)的SQL類型。

1.2 可編程性

該數(shù)據(jù)庫能夠為用戶提供大量的API,如OBDC、Libpq等,給用戶的開發(fā)使用提供了條件。

1.3 可定制性

該數(shù)據(jù)庫可以通過多種編程語言來實現(xiàn)函數(shù)功能,如PHP、Ruby、Java、C++等等。對于數(shù)據(jù)庫而言,函數(shù)又被稱之為存儲過程,它的輸出結(jié)果可以在查詢中當(dāng)做表來使用,這一特點使PostgreSQL具備了可定制的特性。

1.4 索引

在PostgreSQL數(shù)據(jù)庫中,用戶既可以使用數(shù)據(jù)庫內(nèi)置的GIN、Hash表、GiST進(jìn)行索引,也可以自定義索引,GiST作為通用索引的基礎(chǔ)結(jié)構(gòu),其為多種索引策略的實現(xiàn)提供了支撐。

2 PostgreSQL開源數(shù)據(jù)庫的數(shù)據(jù)存儲實現(xiàn)路徑

對于PostgreSQL數(shù)據(jù)庫而言,在存儲層的設(shè)計中,需要重點考慮的問題是應(yīng)通過何種方式存儲對象規(guī)模,尤其是一些大數(shù)據(jù)的存儲。

2.1 數(shù)據(jù)外存的實現(xiàn)

2.1.1 relation與外部文件的對應(yīng)

用戶是PostgreSQL數(shù)據(jù)庫的使用者,對于這些使用者而言,每一個二維表都是一個邏輯概念,在邏輯當(dāng)中包含了兩部分內(nèi)容,一部分是表定義,另一部分是表數(shù)據(jù)。前者的主要作用是對用戶的邏輯進(jìn)行展示,它需要被數(shù)據(jù)庫系統(tǒng)保存,存放表定義的地方即表空間;后者從物理的角度上講,是以文件的形式存儲在操作系統(tǒng)當(dāng)中,即可存放在系統(tǒng)的表空間當(dāng)中,也可存放在用戶自定義的表空間當(dāng)中。數(shù)據(jù)一般都是以文件的形式被存儲在表空間當(dāng)中的,換言之?dāng)?shù)據(jù)是表空間的物理外在形式。從代碼的角度進(jìn)行分析,可通過relpathbackend函數(shù)對邏輯概念與物理存儲之間的關(guān)系進(jìn)行查看,具體步驟如下:先按照RelFileNode指定的關(guān)系,找出與外存相對應(yīng)的文件或是文件位置,然后根據(jù)入口的第一個參數(shù)mode,拼接出外存文件的路徑,再利用mode中的spcNode的值,判斷應(yīng)當(dāng)在哪個表空間上進(jìn)行物理存儲操作,最后便可得出數(shù)據(jù)的具體存儲位置。

2.1.2 系統(tǒng)relation的存儲

對于PostgreSQL數(shù)據(jù)庫系統(tǒng)而言,它的relation存儲是將數(shù)據(jù)存放在預(yù)先創(chuàng)建的表空間當(dāng)中,這里需要創(chuàng)建兩個表空間,一個是base,另一個是global。

2.2 數(shù)據(jù)內(nèi)存的實現(xiàn)

從操作系統(tǒng)的角度上講,在PostgreSQL數(shù)據(jù)庫當(dāng)中,數(shù)據(jù)的存儲就是對一些二進(jìn)制的信息進(jìn)行存儲,整個存儲過程無法獲悉文件的內(nèi)容,文件本身的邏輯含義主要取決于應(yīng)用層面,讀入的數(shù)據(jù)會存放于數(shù)據(jù)緩沖區(qū)當(dāng)中,換言之,數(shù)據(jù)的邏輯含義始于緩沖區(qū)。

2.2.1 表數(shù)據(jù)頁存儲

在PostgreSQL開源數(shù)據(jù)庫管理系統(tǒng)當(dāng)中,數(shù)據(jù)的存儲格式主要有以下幾種類型:系統(tǒng)表數(shù)據(jù)、日志文件、用戶表數(shù)據(jù)以及用戶自行創(chuàng)建的數(shù)據(jù)等。由于數(shù)據(jù)對象的創(chuàng)建方式存在一定的差別,以序列和視圖為例,它們的創(chuàng)建并不涉及任何數(shù)據(jù),僅僅是一個單純的定義,而用戶自定義的表則是由定義和數(shù)據(jù)兩部分組成,這些信息在實際存儲中,會以tuple的形式存儲于數(shù)據(jù)庫系統(tǒng)當(dāng)中,因此,在數(shù)據(jù)庫的存儲格式中,數(shù)據(jù)分為兩個部分,一部分為頁頭,另一部分為tuple數(shù)據(jù)組。根據(jù)這一前提條件,通過對PagaAddltem函數(shù)中l(wèi)ower和upper變量賦值方式的分析,便可獲得tuple的存儲方式。

2.2.2 大數(shù)據(jù)的處理

系統(tǒng)表可用于視圖、序列等定義信息的存儲,每個表都是以元祖的形式存儲在pg_class當(dāng)中。由于每個表均與一個外存文件相對應(yīng),其文件名稱則是以該對象的filenode號命名。Relfilenode的結(jié)構(gòu)如下:

typedef struct RelFileNode

{

Oid spcNode; /*tablepace*/

Oid dbNode; /*database*/

Oid relNode; /*relation*/

}Relfilenode;

從上面這個結(jié)構(gòu)當(dāng)中可以看出,在PostgreSQL數(shù)據(jù)庫系統(tǒng)當(dāng)中,表空間、數(shù)據(jù)庫、關(guān)系標(biāo)識、物理存儲是與該結(jié)構(gòu)唯一對應(yīng)的。如果一個文件當(dāng)中存儲的內(nèi)容過多,在表超過1GB后,這些文件便會被分裂為大小在1GB左右的段,首段的文件名與filenode相同,其余各段則可用filenode1、filenode2、filenode3來表述,由此能夠防止不同操作系統(tǒng)對文件大小的限制。

3 結(jié)論

綜上所述,在大數(shù)據(jù)時代的背景下,開源數(shù)據(jù)庫已經(jīng)逐步成為業(yè)內(nèi)研究的重點,尤其是與數(shù)據(jù)庫關(guān)聯(lián)最為密切的數(shù)據(jù)存儲問題,更成為重中之重。本文主要針對主流開源數(shù)據(jù)庫中的PostgreSQL進(jìn)行了分析,并對其數(shù)據(jù)存儲的實現(xiàn)路徑進(jìn)行了論述,以期能為開源數(shù)據(jù)庫的推廣使用提供幫助。

參考文獻(xiàn)

[1]蔡佳作,歐爾格力.基于PostgreSQL的地理空間數(shù)據(jù)存儲管理方法研究[J].青海師范大學(xué)學(xué)報(自然科學(xué)版),2016(06):67-68.

[2]陳愷萌,盧科,岳麗華.PostgreSQL閃存緩沖區(qū)置換算法擴展與性能驗證[J].計算機科學(xué)與探索,2012(08):54-56.

[3]許彥.基于PostgreSQL存儲引擎的多線程化方法研究與實現(xiàn)[D].武漢:華中科技大學(xué),2012.

[4]董紀(jì)英,燕志偉,梁正玉.SQLite、MySQL、PostgreSQL關(guān)系型數(shù)據(jù)庫管理系統(tǒng)比較[J].電腦編程技巧與維護(hù),2014(07):98-99.

篇7

(兗州煤業(yè)榆林能化有限公司,陜西榆林719000)

[摘要]隨著信息技術(shù)的發(fā)展與應(yīng)用,各種數(shù)據(jù)信息通過互聯(lián)網(wǎng)、云終端、交際圈、物聯(lián)網(wǎng)等之間的大規(guī)模傳遞,人類進(jìn)入到一個大數(shù)據(jù)時代,數(shù)據(jù)信息之間的傳遞影響著人們的決策成本,傳統(tǒng)的信息不對等所造成的差距條件已經(jīng)消失,而不起眼的數(shù)據(jù)卻能夠創(chuàng)造巨大的價值。本文對大數(shù)據(jù)時代背景下數(shù)據(jù)分析理念進(jìn)行分析和指導(dǎo)。

關(guān)鍵詞 ]大數(shù)據(jù)時代;數(shù)據(jù)分析理念;分析

[DOI]10.13939/j.cnki.zgsc.2015.22.074

在傳統(tǒng)的商業(yè)運作模式中,在運營過程中對自身經(jīng)營發(fā)展的分析只停留在數(shù)據(jù)的簡單匯總層面,缺乏有效地對客戶網(wǎng)絡(luò)、業(yè)務(wù)范圍、營銷產(chǎn)品、競爭對手優(yōu)劣等方面進(jìn)行深入解析;而在當(dāng)今大數(shù)據(jù)時代,通過所接收的大量內(nèi)部和外部數(shù)據(jù)中所蘊含的信息中透露的市場彈性,可以預(yù)測市場需求,進(jìn)行分析決策,從而制定更加行之有效的戰(zhàn)略發(fā)展計劃?!按髷?shù)據(jù)”是一個量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進(jìn)行抓取、管理和處理。在當(dāng)今信息時代,很多企業(yè)用戶在實際應(yīng)用中把多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量;數(shù)據(jù)類型廣,數(shù)據(jù)來源種類多,且數(shù)據(jù)種類和格式日漸豐富,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),早已打破傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)范疇,如何在大數(shù)據(jù)時代背景下進(jìn)行科學(xué)有效的數(shù)據(jù)分析這需要加強對市場的了解,對泡沫經(jīng)濟(jì)的規(guī)避,了解數(shù)據(jù)所傳遞的信息真假。

1數(shù)據(jù)化決策的興起與運用

在大數(shù)據(jù)時代,信息之間的爆炸增長,使得各種信息傳遞非常之快,只需要拿起網(wǎng)絡(luò)終端就可以了解到地球另一邊發(fā)生了什么。文字、圖形、影像都化作數(shù)據(jù)流在網(wǎng)絡(luò)中以電信號的方式傳遞著信息。數(shù)據(jù)流在傳遞各行各業(yè)的信息同時形成了滲透于各行業(yè)的核心資產(chǎn)和創(chuàng)新驅(qū)動力。在大數(shù)據(jù)時代,企業(yè)所擁有的數(shù)據(jù)集合規(guī)模及數(shù)據(jù)的分析和處理能力決定著企業(yè)在市場中的核心競爭力。

因此通過數(shù)據(jù)分析進(jìn)行決策漸漸成為新的分析理念,例如,在支付寶上進(jìn)行對電影票房的投資,這些投資通過對導(dǎo)演往期作品和演員的表演張力,及投資方的選角等數(shù)據(jù)進(jìn)行分析,預(yù)測電影的票房,選取投資可獲利的電影,進(jìn)行票房投資,從而獲取票房分紅。我國的石油油田根據(jù)地震技術(shù)的收集數(shù)據(jù),進(jìn)行科學(xué)統(tǒng)一規(guī)劃的分析處理,形成對地下油田的分析建模,能夠有效直觀地展示地下油藏的分布情況,從而選擇油井的開采點。中國人民銀行通過對人民幣匯率的漲幅,進(jìn)行數(shù)據(jù)分析,來制定符合中國國情的外匯貨幣政策,對貨幣進(jìn)行宏觀調(diào)控,這能夠有力的保護(hù)人民幣升值時,在國際貿(mào)易市場中國進(jìn)出口貿(mào)易所面臨的壓力。在大數(shù)據(jù)時代背景下,通過直覺和經(jīng)驗進(jìn)行決策分析的優(yōu)勢不斷下降,在商業(yè)、政治及公共服務(wù)領(lǐng)域中,通過對大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析從而做出符合時代背景的決策,已成了目前的潮流。

2數(shù)據(jù)分析理念及方法

(1)數(shù)據(jù)分析要引入統(tǒng)計學(xué)思想。在大數(shù)據(jù)時代背景下,傳統(tǒng)的抽樣分析已經(jīng)并不適用于對大數(shù)據(jù)的分析中,在大數(shù)據(jù)時代應(yīng)當(dāng)要轉(zhuǎn)變思維,轉(zhuǎn)變抽樣思想,樣本就是總體,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠少量數(shù)據(jù)樣本,這樣才能夠在最大限度地明白事物發(fā)展變更過程,能夠?qū)?shù)據(jù)所表露的信息進(jìn)行更好地處理[1]。要更樂于接受數(shù)據(jù)的紛繁蕪雜,不再追求精確的數(shù)據(jù),這并不是說其嚴(yán)謹(jǐn)性降低了,而是往往不起眼,不符合常理的數(shù)據(jù)更能夠反映實際的情況。通過對數(shù)據(jù)網(wǎng)絡(luò)之間的聯(lián)系進(jìn)行分析,不再探求難以捉摸的因果關(guān)系,通過數(shù)據(jù)的分析處理更能夠反應(yīng)數(shù)據(jù)的變更。這些想法都與統(tǒng)計學(xué)相關(guān)通過所收集的數(shù)據(jù),進(jìn)行有效的分類處理,能夠更好地反應(yīng)事物的變化,更有利于做出決策[2]。

(2)數(shù)據(jù)分析流程。在實際的數(shù)據(jù)分析過程中,因大數(shù)據(jù)貫穿區(qū)域較廣,在地域和行業(yè)之間穿插交錯,顛覆了傳統(tǒng)的線性數(shù)據(jù)收集模式,而形成了顛覆傳統(tǒng)的、非線性的決策基礎(chǔ),這種決策方式要求我們通過對數(shù)據(jù)進(jìn)行收集,將各行各業(yè)所收集的基本信息,轉(zhuǎn)化為數(shù)據(jù),將數(shù)據(jù)經(jīng)過初步的整合分類,做出符合當(dāng)?shù)禺?dāng)時的數(shù)據(jù)信息,將數(shù)據(jù)進(jìn)行深層次的技術(shù)處理,將處理過后的信息化為知識,運用到實際的決策中去。在大數(shù)據(jù)時代,數(shù)據(jù)的積累并不會貶值,而且還會不斷增值,為了更全面、深入地了解研究對象,往往需要對數(shù)據(jù)進(jìn)行整合,這就使得數(shù)據(jù)的積累尤為重要。

(3)數(shù)據(jù)分析對統(tǒng)計學(xué)的意義。在大數(shù)據(jù)時代背景下數(shù)據(jù)分析理念能夠有效地對數(shù)據(jù)流進(jìn)行合理地分類處理,進(jìn)行科學(xué)的統(tǒng)計行為,統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,這就意味著所有有用的數(shù)據(jù)信息均來源于數(shù)據(jù)分析處理之后的結(jié)果。大數(shù)據(jù)的數(shù)據(jù)分析理念擴寬了統(tǒng)計學(xué)的研究范圍,而不僅僅只是實現(xiàn)數(shù)據(jù)的對比,而是從根本上豐富了研究的內(nèi)容,如:一些實時性需求會用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop,滿足大多數(shù)常見的分析需求,對傳統(tǒng)的統(tǒng)計工作有著四個轉(zhuǎn)變。統(tǒng)計研究過程的轉(zhuǎn)變,使統(tǒng)計過程成為收集與研究。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,統(tǒng)計研究工作思想的轉(zhuǎn)變,數(shù)據(jù)的收集不斷增加,信息的錄入不斷升級,其對系統(tǒng)資源,特別是I/O會有極大的占用。這就使得能夠更好地進(jìn)行數(shù)據(jù)分析處理決策[3]。

3數(shù)據(jù)分析過程中注意事項

3.1數(shù)據(jù)分析要明確變量

將數(shù)據(jù)收集進(jìn)行處理是為了明確市場中的某一個變量意義,這就使得在進(jìn)行數(shù)據(jù)分析的時候要能夠明確地找尋變量存在前后所發(fā)生的變化,通過數(shù)據(jù)對比可以知道該變量在大數(shù)據(jù)的市場中所存在的影響因素。是否對市場有著風(fēng)險或有利于市場的開發(fā)利用,能夠在數(shù)據(jù)分析后做出合理決策。

3.2統(tǒng)計中不再追求精確的數(shù)據(jù)

大數(shù)據(jù)時代下,數(shù)據(jù)的不精確性不僅不會破壞總體信息可靠性,還有利于進(jìn)行剝絲抽繭,從而了解總體情況。大數(shù)據(jù)時代,越來越多的數(shù)據(jù)提供越來越多的信息,也會讓人們越來越了解總體的真實情況。錯綜復(fù)雜的數(shù)據(jù)能夠反映數(shù)據(jù)之下到底是泥潭還是機遇。數(shù)據(jù)之間傳遞的信息良莠不齊,如果要一一追求準(zhǔn)確性不利于統(tǒng)計工作的開展,因此可以將個別的異常值剔除。大數(shù)定律告訴我們,隨著樣本的增加,樣本平均數(shù)越來越接近總體,這就使得樣本與總體的差異性很小,更加符合實際情況。

4結(jié)論

綜上所述,大數(shù)據(jù)包含結(jié)構(gòu)內(nèi)外的海量數(shù)據(jù),隨著云計算平臺進(jìn)行大規(guī)模收集處理,通過建立數(shù)據(jù)庫的手段,對數(shù)據(jù)分流,使用數(shù)據(jù)挖掘等方法進(jìn)行處理、分析,使得所數(shù)據(jù)結(jié)果更加符合顯示狀況。數(shù)據(jù)分析理念是通過闡明存在于世界、物質(zhì)、感官享受上的復(fù)雜網(wǎng)絡(luò)關(guān)系,從而做出符合時代背景的分析決策。

參考文獻(xiàn):

[1]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.

篇8

關(guān)鍵詞:實踐教學(xué) Crystal Reports 數(shù)據(jù)分析 應(yīng)用型人才

中圖分類號:G642.41 文獻(xiàn)標(biāo)識碼:C DOI:10.3969/j.issn.1672-8181.2013.19.087

1 實踐教學(xué)的分類

目前,高校人才培養(yǎng)目標(biāo)正在向應(yīng)用型人才方向轉(zhuǎn)移,比如:獨立學(xué)院、職業(yè)學(xué)院以及高職高專都明確提出他們的人才培養(yǎng)目標(biāo)就是滿足社會需要的實用型人才,而實用型人才培養(yǎng)的重要環(huán)節(jié)是加強實踐教學(xué),學(xué)生通過大量的實驗活動提升自己的理論與實際操作水平。

一般認(rèn)為,實踐教學(xué)由基礎(chǔ)型、設(shè)計型和綜合應(yīng)用創(chuàng)新型等三類各具特色并逐層深化的實踐教育方式構(gòu)成一個完整的體系。

1.1 基礎(chǔ)型實踐教學(xué)

基礎(chǔ)型實踐教學(xué)由基礎(chǔ)課及專業(yè)基礎(chǔ)課中包含的演示型、基礎(chǔ)型和設(shè)計型實驗環(huán)節(jié)組成,目標(biāo)在于鞏固和提高學(xué)生學(xué)習(xí)的理論知識。

1.2 設(shè)計型實踐教學(xué)

設(shè)計型實踐教學(xué)由專業(yè)課中的綜合型試驗或獨立實踐課程組成,目的在于進(jìn)一步提高學(xué)生的動手能力、理論聯(lián)系實踐的能力及創(chuàng)新能力。該類實驗采用在教師指導(dǎo)下,學(xué)生自主選題、自主設(shè)計、集體交流,鼓勵創(chuàng)新和團(tuán)隊協(xié)作等新型實驗教學(xué)方法,使學(xué)生的實踐能力有跨越性的突破。

1.3 綜合應(yīng)用與創(chuàng)新型實踐教學(xué)

綜合應(yīng)用與創(chuàng)新型實踐教學(xué)以學(xué)生參與各項校內(nèi)外社會活動為主,學(xué)生可隨不同的指導(dǎo)老師,按興趣分組,按能力分工,著眼于學(xué)生實踐能力的綜合培養(yǎng),著眼于潛力個性開拓,著眼于創(chuàng)新精神的激勵。努力培養(yǎng)學(xué)生掌握企業(yè)管理和工程設(shè)計的基本方法,實現(xiàn)學(xué)生從具備一定實驗?zāi)芰Φ骄哂休^高實戰(zhàn)能力的跨越。

2 Crystal Reports 系統(tǒng)

2.1 Crystal Reports簡介

Crystal Reports 是SAP公司開發(fā)的、功能強大、動態(tài)和可操作的報表解決方案,它能讀取多種數(shù)據(jù)源,在網(wǎng)絡(luò)環(huán)境下設(shè)計、開發(fā)可視化報表,嵌入到企業(yè)ERP系統(tǒng)或普通應(yīng)用系統(tǒng)中。在Crystal Reports的幫助下,用戶能夠制作企業(yè)OLAP在線分析,進(jìn)行企業(yè)業(yè)務(wù),比如財務(wù)、生產(chǎn)和銷售管理的在線分析,以便指導(dǎo)企業(yè)經(jīng)營工作,全球很多大公司都在選用這個軟件。

2.2 Crystal Reports特點

2.2.1 豐富的呈現(xiàn)形式

多種報表樣式:普通報表、交叉表和多維報表;

20多種圖形:條形圖、餅圖、曲線圖、甘特圖、雷達(dá)圖等,另外提供常用的報表模板。

2.2.2 廣泛的數(shù)據(jù)源連接

提供超過35個數(shù)據(jù)驅(qū)動用于訪問任何相關(guān)數(shù)據(jù)源,支持在一份報表中整合多個數(shù)據(jù)源的能力,包括:ODBC、ADO等數(shù)據(jù)存儲方式。

2.2.3 可視化設(shè)計環(huán)境

通過拖放元素組成報表,設(shè)置標(biāo)題,自定義變量,整合數(shù)據(jù)庫字段等,有排序?qū)<?、分組專家、匯總專家和圖標(biāo)專家等向?qū)?。還有強大的公式語言:160多個系統(tǒng)函數(shù),也可以自定義需要的函數(shù)。如圖1所示。

圖1 Crystal Reports的可視化設(shè)計界面

2.2.4 多種文件導(dǎo)出格式

如:Word、Excel、HTML、XML、PDF、RTF、CSV、TXT等,方便將信息遞交給不同需求的用戶。

2.3 學(xué)習(xí)Crystal Reports軟件的好處

對于信管專業(yè)的學(xué)生,培養(yǎng)目標(biāo)包括三個方面:第一,掌握計算機科學(xué)和管理學(xué)的基本知識和技能;第二,具備進(jìn)行信息系統(tǒng)分析、設(shè)計的能力;第三,能進(jìn)行計算機知識和管理知識的交叉復(fù)合應(yīng)用,能夠在專業(yè)應(yīng)用上有所創(chuàng)新。根據(jù)專業(yè)培養(yǎng)目標(biāo),要求信管專業(yè)的學(xué)生成為進(jìn)行軟件開發(fā),進(jìn)行OLTP在線事務(wù)處理和OLAP在線分析處理的應(yīng)用型人才。

在企事業(yè)單位的數(shù)據(jù)處理過程中,通常利用大型數(shù)據(jù)庫和大型軟件系統(tǒng)來完成相關(guān)任務(wù),同時需要進(jìn)行應(yīng)用軟件的二次開發(fā),比如ERP軟件SAP、Oracle應(yīng)用于企業(yè)后需要定制各種財務(wù)、生產(chǎn)和銷售分析報表,SAP、Oracle的ERP系統(tǒng)本身自帶的報表不可能滿足所有用戶的所有需求,因此這些大型的標(biāo)準(zhǔn)化軟件需要系統(tǒng)實施人員進(jìn)行再開發(fā),而Crystal Reports由于具有上述優(yōu)點而成為最好的開發(fā)工具,所以可以選擇Crystal Reports對信息管理和電子商務(wù)專業(yè)的同學(xué)進(jìn)行相關(guān)的系統(tǒng)訓(xùn)練以適應(yīng)社會發(fā)展的需要。

3 利用Crystal Reports 進(jìn)行實踐教學(xué)的方法

Crystal Reports既是一個在線分析軟件也是一個報表開發(fā)工具,因此,可認(rèn)為屬于程序設(shè)計科目,我們把它作為理論課程《數(shù)據(jù)分析與挖掘》的實驗部分介紹給信息管理和電子商務(wù)專業(yè)的學(xué)生是因為這門課程的主要內(nèi)容是介紹數(shù)據(jù)庫的OLAP在線分析和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘,在進(jìn)行OLAP分析中,需要利用多維報表工具,而Crystal Reports可以制作多維報表。

從Crystal Reports的特點以及它的應(yīng)用范圍來看,可以把利用它進(jìn)行的實踐活動歸類為設(shè)計型實踐和綜合應(yīng)用與創(chuàng)新型實踐相結(jié)合的實驗項目,所以對同學(xué)們要求按照“規(guī)范設(shè)計,鼓勵創(chuàng)新”的原則進(jìn)行實驗活動。

由于《數(shù)據(jù)分析與挖掘》課程的理論性強、內(nèi)容多、難度大,所以相關(guān)實驗采取學(xué)生分組進(jìn)行,每個小組2-3人,明確小組中每人的職責(zé),比如:數(shù)據(jù)收集、OLAP報表制作、結(jié)果分析、報告撰寫等工作內(nèi)容,要求他們齊心協(xié)力、通力合作,首先把實驗內(nèi)容和分工情況匯報給實驗指導(dǎo)老師,經(jīng)過實驗老師的確認(rèn)同意后,學(xué)生才能繼續(xù)后面的實驗。實驗時間除了學(xué)院實驗室安排的課時(一般在實驗專周中的15學(xué)時),還可以在實驗課后用自己的電腦完成,完成后撰寫5000字左右的實驗報告,把實驗過程完整地記錄下來,并對實驗提出自己的建議,以便實驗老師不斷完善實驗?zāi)J?、改善實驗指?dǎo),使之更符合社會發(fā)展和培養(yǎng)目標(biāo)的需要。

由于Crystal Reports是《數(shù)據(jù)分析與挖掘》課程的實驗項目,所以讓同學(xué)們接觸實際應(yīng)用案例是首先必須考慮的問題,我們采取鼓勵同學(xué)廣開門路,挖掘數(shù)據(jù)來源,實行一個案例一個小組,找不到合適數(shù)據(jù)源的小組可以共享其他小組數(shù)據(jù)的方法解決數(shù)據(jù)源和案例問題,經(jīng)過同學(xué)們的努力,收集了10多個企業(yè)實際運行數(shù)據(jù),由于數(shù)據(jù)和信息是企業(yè)的生命,也是企業(yè)嚴(yán)加保護(hù)的資源,一般企業(yè)不愿提供,因此我們只要求企業(yè)過去10年至過去5年的部分?jǐn)?shù)據(jù),并對數(shù)據(jù)加以刪減修改變更,保證企業(yè)的數(shù)據(jù)不泄密,同學(xué)們收集到的數(shù)據(jù)類型主要有Excel、Access、SQL Server以及Oracle等,這些類型的數(shù)據(jù)都可以被Crystal Reports讀取,但是讀取之前必須進(jìn)行ETL的操作,即對數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和載入數(shù)據(jù)庫,以規(guī)范數(shù)據(jù)格式,完成數(shù)據(jù)標(biāo)準(zhǔn)化操作。

實驗教師在整個實驗活動中除了在實驗室向同學(xué)們演示Crystal Reports的使用方法外,還必須跟蹤同學(xué)們的實驗進(jìn)度,加強對實驗過程的管理,要求同學(xué)們分組用PPT演示稿上臺介紹自己的實驗情況,讓全體同學(xué)分享他們的成果,實驗老師對同學(xué)們完成的實驗報告要進(jìn)行點評,讓他們知道自己那些地方做得好,那些地方有欠缺,以便今后改進(jìn)提高。

4 取得的成果及對實驗教學(xué)的思考

在經(jīng)過實驗專周的活動后,同學(xué)們完成了基于企業(yè)經(jīng)營業(yè)務(wù)的在線分析OLAP實驗,分組提交了各種報告,如圖2所示。

圖2 學(xué)生的OLAP實驗報告

從這些報告中,我們可以看出大部分同學(xué)完成情況良好,制作的圖表美觀大方,文本格式標(biāo)準(zhǔn)規(guī)范,大家通過實驗理解了數(shù)據(jù)分析與挖掘的基本概念,學(xué)會了Crystal Reports的操作方法,能夠利用軟件工具讀取各種數(shù)據(jù)源,進(jìn)行數(shù)據(jù)的OLAP在線分析,按照需要制作標(biāo)準(zhǔn)報表、交叉報表和多維報表,這個過程相當(dāng)于對應(yīng)用軟件系統(tǒng)進(jìn)行了二次開發(fā),開發(fā)的結(jié)果為企業(yè)的經(jīng)營決策提供重要的參考意見,達(dá)到了預(yù)期目標(biāo)。

通過這些實驗項目的實施,我們感覺到在實驗教學(xué)應(yīng)該注意如下幾點:

第一,教學(xué)思想具備理念新穎性。

教學(xué)模式的構(gòu)建受教學(xué)思想的支配,教學(xué)思想是教學(xué)模式的靈魂和核心,好的教學(xué)模式必須以先進(jìn)的教學(xué)思想為指導(dǎo),體現(xiàn)先進(jìn)的教學(xué)理念。實施新穎的教學(xué)思想可以通過向同學(xué)們開出現(xiàn)代的、先進(jìn)的學(xué)習(xí)科目來實現(xiàn),比如:數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等。

第二,教學(xué)目標(biāo)強調(diào)技術(shù)實用性。

在當(dāng)今信息技術(shù)條件下,應(yīng)用性人才必須能夠?qū)⑿畔⒓夹g(shù)直接應(yīng)用于工作實踐中。實踐教學(xué)的目的就是培養(yǎng)學(xué)生具備這樣的應(yīng)用能力,而不是簡單地對理論的驗證或?qū)夹g(shù)的一般了解,我們向同學(xué)們介紹Crystal Reports就是出于提高他們技術(shù)能力的需要。

第三,教學(xué)內(nèi)容充分考慮社會適應(yīng)性。

應(yīng)用型人才培養(yǎng)是以某一技術(shù)領(lǐng)域或職業(yè)崗位的能力培養(yǎng)為核心。因此,實踐教學(xué)的內(nèi)容必須滿足社會適應(yīng)性的能力要求,同時還要提供適應(yīng)學(xué)生可持續(xù)發(fā)展需要的能力和素質(zhì)。在內(nèi)容體系的組織上,實踐教學(xué)與理論教學(xué)必須相互滲透,理論知識需要通過實踐再認(rèn)識,并通過實踐課程來實現(xiàn)。

第四,教學(xué)手段突出技術(shù)先進(jìn)性。

當(dāng)代電子信息技術(shù)的快速發(fā)展,使得教育技術(shù)手段得到極大的提高,先進(jìn)的教學(xué)技術(shù)對教學(xué)模式的改革起到了直接的推動作用,多媒體技術(shù)的普及,使仿真訓(xùn)練等更多地應(yīng)用于實踐教學(xué)。比如Cisco公司的Packet Tracer網(wǎng)絡(luò)模擬仿真軟件就是一個非常好的例子,在我們的教學(xué)過程中,我們也采用了這個軟件向同學(xué)們介紹計算機網(wǎng)絡(luò)知識,效果非常顯著。

總之,實踐教學(xué)需要走不斷改革創(chuàng)新之路,滿足社會對應(yīng)用型人才的需求,開辟實踐教學(xué)的新途徑,找出新辦法,培養(yǎng)合格的社會需要、國家需要的應(yīng)用型、復(fù)合型人才。

篇9

(中國石油大學(xué) 計算機科學(xué)與技術(shù)系,北京 102249)

摘?要:人類利用形象思維獲取視覺符號中所蘊含的信息并發(fā)現(xiàn)規(guī)律,進(jìn)而獲得科學(xué)發(fā)現(xiàn)。文章介紹科學(xué)可視化、信息可視化和數(shù)據(jù)可視化的內(nèi)涵,闡述大數(shù)據(jù)可視化分析方法。

關(guān)鍵詞 :大數(shù)據(jù);可視化分析;并行計算

文章編號:1672-5913(2015)05-0094-04 中圖分類號:G642

專欄作家簡介:陳明,男,中國石油大學(xué)計算機科學(xué)與技術(shù)系教授,博士生導(dǎo)師,特聘教授,研究方向為分布式并行計算、計算智能、軟件工程、大數(shù)據(jù)計算等,chenming@cup.edu.cn。

0 引 言

人類的創(chuàng)造性不僅取決于邏輯思維,還與形象思維密切相關(guān)。人類利用形象思維將數(shù)據(jù)映射為形象視覺符號,從中發(fā)現(xiàn)規(guī)律,進(jìn)而獲得科學(xué)發(fā)現(xiàn)。期間,可視化關(guān)鍵技術(shù)對重大科學(xué)發(fā)現(xiàn)起到重要作用。在大數(shù)據(jù)時代,大數(shù)據(jù)可視化分析的研究與發(fā)展將為科學(xué)新發(fā)現(xiàn)創(chuàng)造新的手段和條件[1]。

數(shù)據(jù)可視化于20世紀(jì)50年代出現(xiàn),典型例子是利用計算機創(chuàng)造出了圖形圖表。1987年,布魯斯·麥考梅克等撰寫的《Visualization in scientific Computing》促進(jìn)了可視化技術(shù)的發(fā)展,將科學(xué)計算中的可視化稱之為科學(xué)可視化[2]。20世紀(jì)90年代初期,出現(xiàn)了信息可視化。目前將科學(xué)可視化與信息可視化都?xì)w為數(shù)據(jù)可視化。

2 科學(xué)可視化

2.1 問題的提出

傳統(tǒng)的科學(xué)可視化技術(shù)已成功應(yīng)用于各學(xué)科領(lǐng)域,但如果將其直接應(yīng)用于大數(shù)據(jù),將面臨實用性和有效性問題,這說明需要對科學(xué)可視化技術(shù)重新審視與深入研究。

2.2 分布式并行可視化算法

可擴展性是構(gòu)造分布式并行算法的一項重要指標(biāo)。傳統(tǒng)的科學(xué)可視化算法應(yīng)用在小規(guī)模的計算機集群中,最多可以包括幾百個計算節(jié)點,而實際應(yīng)用是要在數(shù)千甚至上萬個計算節(jié)點上運行。隨著數(shù)據(jù)規(guī)模的逐漸增大,算法的效率逐漸成為數(shù)據(jù)分析流程的瓶頸,設(shè)計新的分布并行可視化算法已經(jīng)成為一個研究熱點。

2.2.1 并行圖像合成算法

傳統(tǒng)的并行圖像合成算法主要包括前分割算法、中間分割算法和后分割算法3種類型,前分割算法主要分為如下3步驟:

(1)將數(shù)據(jù)分割并分配到每個計算節(jié)點上;

(2)每個計算節(jié)點獨立繪制分配到的數(shù)據(jù),在這一步,節(jié)點之間不需要數(shù)據(jù)交換;

(3)將計算節(jié)點各自繪制的圖形匯總,合成最終的完整圖形。

從上述步驟中可以看出,由于節(jié)點之間可能需要大量的數(shù)據(jù)交換,尤其是步驟(3)可能成為算法的瓶頸。解決這個問題的關(guān)鍵是減少計算節(jié)點之間的通信開銷,可以通過對數(shù)據(jù)進(jìn)行劃分并在各計算節(jié)點間進(jìn)行分配來實現(xiàn)。劃分和分配方案需要與數(shù)據(jù)的訪問一致,原則是計算節(jié)點只使用駐留本計算節(jié)點的數(shù)據(jù)進(jìn)行跟蹤,從而減少數(shù)據(jù)交換。

2.2.2 并行顆粒跟蹤算法的研究

傳統(tǒng)的科學(xué)可視化研究對象主要集中在三維標(biāo)量場數(shù)據(jù)。在科學(xué)大數(shù)據(jù)中,經(jīng)常使用三維流場數(shù)據(jù),其原因如下所述。

將二維的流場可視化方法直接應(yīng)用在三維流的結(jié)構(gòu)不可能都成功,每個顆粒雖然可以單獨跟蹤,但是可能出現(xiàn)在空間中的任何一個位置,這就需要計算節(jié)點之間通過通信交換顆粒。同時,當(dāng)大量的顆粒在空間移動時,每個計算節(jié)點可能處理不同數(shù)量的顆粒,從而造成計算量嚴(yán)重失衡。解決這些問題的關(guān)鍵是減少計算節(jié)點之間的通信開銷,其基本思路同并行圖像合成算法。

2.2.3 重要信息的提取與顯示技術(shù)

科學(xué)大數(shù)據(jù)可視化的另一個重要研究方向是如何從數(shù)據(jù)中快速有效地提取重要信息,并且用這些重要信息來指導(dǎo)可視化的生成。從可視化的角度來看,一方面需要可視化設(shè)計表達(dá)數(shù)據(jù)定信息的定義,通過人機交互工具,由用戶來調(diào)整參數(shù),觀察和挖掘數(shù)據(jù)中的重要信息;另一方面需要根據(jù)用戶的反饋信息調(diào)整可視化,以更好地突顯重要信息,淡化非重要信息,方便用戶對重要信息及其背景的觀測。整個信息的提取過程是個典型的交互式可視分析過程?;谶@一思想的兩個技術(shù)是流場可視化的層次流線束技術(shù)和用于標(biāo)量數(shù)據(jù)的基于距離場的可視化技術(shù)。

2.2.4 原位可視化

傳統(tǒng)的科學(xué)可視化采用科學(xué)計算后進(jìn)行處理的模式。隨著計算機系統(tǒng)計算速度的提高,I/O速度與計算速度之間的差距增大。隨著計算規(guī)模越來越大,而相應(yīng)生成的數(shù)據(jù)規(guī)模也越來越大,現(xiàn)有的存儲系統(tǒng)無法把所有的計算數(shù)據(jù)都保存下來。解決上述問題的常用方法是采用空間或者時間上的采樣方法,最后只保存部分?jǐn)?shù)據(jù),造成結(jié)果數(shù)據(jù)的丟失,不能保證高精度數(shù)值模擬。

原位可視化的基本思想是:

(1)將可視化與科學(xué)模擬集成在一起。在科學(xué)模擬的過程中,每個時間片的結(jié)果生成之后,可以立刻調(diào)用可視化模塊,直接與科學(xué)模擬程序集成。為了減少數(shù)據(jù)的冗余,可視化程序與科學(xué)模擬程序共享數(shù)據(jù)結(jié)構(gòu)。

(2)由于數(shù)據(jù)的分割和分配優(yōu)先滿足科學(xué)模擬的需求,可視化程序的工作分配有可能是不均衡的,需要重現(xiàn)可視化的工作量在各個計算節(jié)點上分配算法,減少數(shù)據(jù)傳輸。

(3)可視化程序的開銷不能太高,要保持集成系統(tǒng)的高效能,必須提高可視化程序的效率,其可擴展性必須與科學(xué)模擬一致,可以應(yīng)用上萬個、上10萬個或更多的計算節(jié)點。

3 信息可視化

自18世紀(jì)后期數(shù)據(jù)圖形學(xué)誕生以來,抽象信息的視覺表達(dá)手段一直被用來揭示數(shù)據(jù)及其他隱匿模式的奧秘。20世紀(jì)90年代期間出現(xiàn)的圖形化界面則使得人們能夠直接與可視化信息進(jìn)行交互,從而推動了信息可視化研究。信息可視化通過人類的視覺能力,來理解抽象信息的意思,從而加強人類的認(rèn)知活動,達(dá)到能夠駕馭日益增多的數(shù)據(jù)的能力。

信息可視化是跨學(xué)科領(lǐng)域的大規(guī)模非數(shù)值型信息資源的視覺展現(xiàn),能夠幫助人們理解和分析數(shù)據(jù)。信息可視化中的交互方法能夠?qū)崿F(xiàn)用戶與數(shù)據(jù)的快速交互,更好地驗證假設(shè)和發(fā)現(xiàn)內(nèi)在聯(lián)系。信息可視化技術(shù)提供了理解高維度、多層次、時空、動態(tài)、關(guān)系等復(fù)雜數(shù)據(jù)的手段,與科學(xué)可視化相比,信息可視化更側(cè)重于抽象數(shù)據(jù)集,如對非結(jié)構(gòu)化文本或者高維空間中不具有固有的二維或三維幾何結(jié)構(gòu)的點的視覺展現(xiàn)。信息可視化適用于大規(guī)模非數(shù)字型信息資源的可視化表達(dá)。

信息可視化與科學(xué)可視化的不同之處是,信息可視化所要可視化的數(shù)據(jù)并不是某些數(shù)學(xué)模型的結(jié)果或者是大型數(shù)據(jù)集,而是具有自身固有結(jié)構(gòu)的抽象數(shù)據(jù)。

科學(xué)可視化主要處理具有地理結(jié)構(gòu)的數(shù)據(jù),信息可視化主要處理像樹、圖形等抽象式的數(shù)據(jù)結(jié)構(gòu),可視化分析則主要挖掘數(shù)據(jù)背景的問題與原因。更進(jìn)一步說,科學(xué)可視化技術(shù)是指空間數(shù)據(jù)的可視化技術(shù),而信息可視化技術(shù)則是指非空間數(shù)據(jù)的可視化技術(shù)。

4 數(shù)據(jù)可視化

4.1 概 念

數(shù)據(jù)可視化技術(shù)是指運用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的交互處理的理論、方法和技術(shù)[3]。

數(shù)據(jù)可視化不僅包括科學(xué)計算數(shù)據(jù)的可視化,而且包括工程數(shù)據(jù)和測量數(shù)據(jù)的可視化。數(shù)據(jù)可視化是對大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中的數(shù)據(jù)的可視化,它是可視化技術(shù)在非空間數(shù)據(jù)領(lǐng)域的應(yīng)用,不再局限于通過關(guān)系數(shù)據(jù)表來觀察和分析數(shù)據(jù)信息,還能以更直觀的方式看到數(shù)據(jù)及其結(jié)構(gòu)關(guān)系。

4.2 數(shù)據(jù)可視化技術(shù)的特點

數(shù)據(jù)可視化技術(shù)能夠分析大量復(fù)雜和多維的數(shù)據(jù),提供像人眼一樣的直覺的、交互的和反應(yīng)靈敏的可視化環(huán)境。數(shù)據(jù)可視化技術(shù)的特點如下所述。

(1)交互性。用戶可以方便地以交互的方式管理和開發(fā)數(shù)據(jù)。

(2)多維性。對象或事件的數(shù)據(jù)具有多維變量或?qū)傩?,而?shù)據(jù)可以按其每一維的值分類、排序、組合和顯示。

(3)可視性。數(shù)據(jù)可以用圖像、曲線、二維圖形、三維體和動畫來顯示,用戶可對其模式和相互關(guān)系進(jìn)行可視化分析。

數(shù)據(jù)可視化已經(jīng)出現(xiàn)了許多方法,主要有基于幾何技術(shù)、面向像素技術(shù)、圖標(biāo)技術(shù)、層次技術(shù)、圖像技術(shù)和分布式技術(shù)等。

4.3 數(shù)據(jù)可視化技術(shù)的相關(guān)概念

(1)數(shù)據(jù)空間:是由n維屬性和m個元素組成的數(shù)據(jù)集所構(gòu)成的多維信息空間。

(2)數(shù)據(jù)開發(fā):指利用一定的算法和工具對數(shù)據(jù)進(jìn)行定量的推演和計算。

(3)數(shù)據(jù)分析:指對多維數(shù)據(jù)進(jìn)行切片、分塊、旋轉(zhuǎn)等動作剖析數(shù)據(jù),從而能多角度多側(cè)面觀察數(shù)據(jù)。

5 大數(shù)據(jù)可視化分析

5.1 概 念

大數(shù)據(jù)可視化分析需要應(yīng)用有效的數(shù)據(jù)管理方法[4]。這也是創(chuàng)建混合環(huán)境的需要。在大數(shù)據(jù)環(huán)境下,人們利用各種技術(shù)分析數(shù)據(jù),用形象直觀的方式展示結(jié)果,這樣能夠快速發(fā)現(xiàn)數(shù)據(jù)中蘊含的規(guī)律特征。

可視化分析關(guān)注人類感知與用戶交互的問題。大數(shù)據(jù)來自不同領(lǐng)域的模擬與觀察實測。大數(shù)據(jù)可視分析通常應(yīng)用高性能計算機群、處理數(shù)據(jù)存儲與管理的高性能數(shù)據(jù)庫組件及云端服務(wù)器和提供人機交互界面的桌面計算機。

5.2 大數(shù)據(jù)可視化分析方法

5.2.1 原位交互分析技術(shù)

在進(jìn)行可視化分析時,將在內(nèi)存中的數(shù)據(jù)盡可能多地進(jìn)行分析稱之為原位交互分析。對于超過PB量級以上的數(shù)據(jù),將數(shù)據(jù)存儲于磁盤進(jìn)行分析的后處理方式已不適合。與此相反,可視分析則在數(shù)據(jù)仍在內(nèi)存中時就會做盡可能多的分析。這種方式能極大地減少I/O的開銷,并且可實現(xiàn)數(shù)據(jù)使用與磁盤讀取比例的最大化。然而應(yīng)用原位交互分析也會出現(xiàn)下述問題:①由于人機交互減少,進(jìn)而容易造成整體工作流中斷;②硬件執(zhí)行單元不能高效地共享處理器,導(dǎo)致整體工作流中斷。

5.2.2 數(shù)據(jù)存儲技術(shù)

大數(shù)據(jù)是云計算的延伸,云服務(wù)及其應(yīng)用的出現(xiàn)影響了大數(shù)據(jù)存儲。流行的Apache Hadoop架構(gòu)已經(jīng)支持在公有云端存儲EB量級數(shù)據(jù)的應(yīng)用。許多互聯(lián)網(wǎng)公司都已經(jīng)開發(fā)出了基于Hadoop的EB量級的超大規(guī)模數(shù)據(jù)應(yīng)用。一個基于云端的解決方案可能滿足不了EB量級數(shù)處理。一個主要的疑慮是每千兆字節(jié)的云存儲成本仍然顯著高于私有集群中的硬盤存儲成本。另一個問題是基于云的數(shù)據(jù)庫的訪問延時和輸出始終受限于云端通信網(wǎng)絡(luò)的帶寬。不是所有的云系統(tǒng)都支持分布式數(shù)據(jù)庫的ACID標(biāo)準(zhǔn)。對于Hadoop軟件的應(yīng)用,這些需求必須在應(yīng)用軟件層實現(xiàn)。

5.2.3 可視化分析算法

大數(shù)據(jù)的可視化算法不僅要考慮數(shù)據(jù)規(guī)模,而且要考慮視覺感知的高效算法。需要引入創(chuàng)新的視覺表現(xiàn)方法和用戶交互手段。更重要的是用戶的偏好必須與自動學(xué)習(xí)算法有機結(jié)合起來,這樣可視化的輸出具有高度適應(yīng)性。可視化算法應(yīng)擁有巨大的控制參數(shù)搜索空間,減少數(shù)據(jù)分析與探索的成本及降低難度,可以組織數(shù)據(jù)并且減少搜索空間。

5.2.4 不確定性的量化

許多數(shù)據(jù)分析任務(wù)中引入數(shù)據(jù)亞采樣來應(yīng)對實時性的要求,由此也帶來了更大的不確定性。數(shù)據(jù)中不確定性的來源對于決策和風(fēng)險分析十分重要。隨著數(shù)據(jù)規(guī)模不斷增大,直接處理整個數(shù)據(jù)集的能力也受到了極大的限制。不確定性量化已經(jīng)成為科學(xué)與工程領(lǐng)域的重要問題之一。不確定性的量化對未來的可視分析工具極端重要,新的可視化技術(shù)將提供一個不確定性的直觀視圖來幫助用戶了解風(fēng)險,從而幫助用戶選擇正確的參數(shù),減少產(chǎn)生誤導(dǎo)性結(jié)果。不確定性的量化將成為可視化分析任務(wù)的核心部分。

5.2.5 并行計算

并行處理可以有效地減少可視計算所占用的時間,從而實現(xiàn)數(shù)據(jù)分析的實時交互。多核的計算體系結(jié)構(gòu)的每個核所占有的內(nèi)存也將減少,在系統(tǒng)內(nèi)移動數(shù)據(jù)的代價也將提高。為了發(fā)掘并行計算的潛力,許多可視化分析算法需要完全地重新設(shè)計。在單個核心內(nèi)存容量的限制之下,不僅需要有更大規(guī)模的并行,也需要設(shè)計新的數(shù)據(jù)模型,需要設(shè)計出既考慮數(shù)據(jù)大小又考慮視覺感知的高效算法,需要引入創(chuàng)新的視覺表現(xiàn)方法和用戶交互手段。

5.2.7 領(lǐng)域資源庫、框架以及工具

由于缺少低廉的領(lǐng)域資源庫、框架和工具,基于高性能計算的可視化分析應(yīng)用的快速研發(fā)受到了嚴(yán)重阻礙。如用戶界面、數(shù)據(jù)庫等領(lǐng)域?qū)τ诳梢暦治鱿到y(tǒng)的開發(fā)至關(guān)重要。在絕大部分的高性能計算平臺上,即使是最基本的軟件開發(fā)工具也很少見。目前為高性能計算平臺開發(fā)定制這樣的軟件,還是個耗時耗力的做法。

5.2.8 用戶界面與交互設(shè)計

由于傳統(tǒng)的可視化分析算法的設(shè)計通常沒有考慮可擴展性,所以許多算法的計算過于復(fù)雜或者不能輸出易理解的簡明結(jié)果;加之?dāng)?shù)據(jù)規(guī)模不斷地增長,以人為中心的用戶界面與交互設(shè)計面臨多層次性和高復(fù)雜性的困難;同時計算機自動處理系統(tǒng)對于需要人參與判斷的分析過程的性能不高,現(xiàn)有的技術(shù)不能更充分發(fā)揮人的認(rèn)知能力。利用人機交互可以化解上述問題。為此,在大數(shù)據(jù)的可視化分析中,用戶界面與交互設(shè)計成為研究的熱點,主要應(yīng)考慮下述問題:用戶驅(qū)動的數(shù)據(jù)簡化、可擴展性與多級層次、異構(gòu)數(shù)據(jù)融合、交互查詢中的數(shù)據(jù)概要與分流、表示證據(jù)和不確定性、時變特征分析、設(shè)計與工程開發(fā)等一系列問題。

6 結(jié) 語

原位交互分析技術(shù)、數(shù)據(jù)存儲技術(shù)、可視分析算法和用戶界面與交互設(shè)計等多種技術(shù)的運用,使得人們可以通過交互可視界面來對大數(shù)據(jù)進(jìn)行分析、推理和決策,這種將數(shù)據(jù)通過可視化變成圖形的方法能更好地激發(fā)人的形象思維與想象力。

參考文獻(xiàn):

[1] 李國杰. 大數(shù)據(jù)研究的科學(xué)價值[J]. 中國計算機學(xué)會通訊, 2012, 8(9): 8-15.

[2] 俞宏峰. 大規(guī)??茖W(xué)可視化[J]. 中國計算機學(xué)會通訊, 2012, 8(9): 29-36.

[3] 陳明. 大數(shù)據(jù)概論[M]. 北京: 科學(xué)出版社, 2014: 182-198.

篇10

分布式數(shù)據(jù)庫系統(tǒng)作為計算機網(wǎng)絡(luò)和數(shù)據(jù)庫有機結(jié)合體,建立計算機信息平臺和分布式數(shù)據(jù)庫系統(tǒng)兩者之間息息相關(guān),相互作用。然而,網(wǎng)絡(luò)環(huán)境復(fù)雜性,加之一直處在開放式狀態(tài),致使存在諸多不安全因素,直接影響到分布式數(shù)據(jù)庫系統(tǒng)的安全使用。基于此,文章通過對分布式數(shù)據(jù)系統(tǒng)的不安全因素進(jìn)行分析,提出了分布式數(shù)據(jù)庫系統(tǒng)安全防護(hù)措施,以供參考、完善。

【關(guān)鍵詞】分布式 數(shù)據(jù)庫系統(tǒng) 安全分析

分布式數(shù)據(jù)庫作為一種計算機數(shù)據(jù)庫系統(tǒng),對計算機數(shù)據(jù)儲存于共享尤為重要。在計算機飛速發(fā)展的時代,分布式數(shù)據(jù)庫系統(tǒng)的應(yīng)用在帶來方便的同時,也面臨著巨大挑戰(zhàn),必須盡快找出處在不安全因素,并采取相應(yīng)的安全措施進(jìn)行處理,從而為用戶使用提供安全性保障。

1 分布式數(shù)據(jù)系統(tǒng)的不安全因素

1.1 黑客攻擊

黑客攻擊的方法是各種各樣的,不僅能夠利用網(wǎng)絡(luò)信息上的“監(jiān)聽客戶―數(shù)據(jù)庫服務(wù)器―服務(wù)器的報文”的方式來竊取數(shù)據(jù)信息,還可利用用戶的口令實施身份攻擊。此外,為了達(dá)到攻擊的目的性,黑客還可通過破譯攻擊方式,使用密碼分析來獲取加密文件,再解密或者是篡改數(shù)據(jù)信息。一般情況下,黑客攻擊的目的主要是為了擾亂系統(tǒng)的穩(wěn)定運行與竊取數(shù)據(jù)信息,其中黑客攻擊的方式包括3種類型:假裝攻擊、迂回攻擊及竊取攻擊。

1.2 內(nèi)部威脅

由于分布式數(shù)據(jù)庫系統(tǒng)終端位置的物理特性分布具有分散性的特點,威脅到系統(tǒng)運用內(nèi)部本身的安全性,加上它的每一個分站點都會存在薄弱環(huán)節(jié),會直接給整個系統(tǒng)運行的安全帶來威脅。因此,對于每一個分站點的潛在安全風(fēng)險引起的問題,都會發(fā)出警報,這時必須充分利用網(wǎng)絡(luò)安全性為系統(tǒng)提供安全防護(hù)措施。

1.3 計算機病毒

計算機病毒的發(fā)展與網(wǎng)絡(luò)、自身因素有關(guān),對計算機網(wǎng)絡(luò)來說,網(wǎng)絡(luò)環(huán)境的開發(fā)性加快了計算機病毒傳播的速度,難以根除計算機病毒。對計算機病毒本身而言,計算機病毒本身具有傳染性較強、隱蔽性良好和傳播速度快的特點,在發(fā)現(xiàn)病毒的時候通常已經(jīng)被感染計算機病毒。

2 分布式數(shù)據(jù)庫系統(tǒng)安全防護(hù)措施

2.1 建立安全審核系統(tǒng)

在運用分布式數(shù)據(jù)庫系統(tǒng)過程中,應(yīng)建立安全審核系統(tǒng),對獲得任何時間、用戶訪問數(shù)據(jù)庫系統(tǒng)具有舉足輕重的作用,能夠提升數(shù)據(jù)庫系統(tǒng)使用的安全性。并且還應(yīng)建立相應(yīng)的用戶權(quán)限安全性審核體系,用來找出威脅系統(tǒng)安全性的來源,以此建立有針對性的數(shù)據(jù)庫安全防護(hù)系統(tǒng)。例如某省公安廳交通警察總隊的某個項目中,運用了數(shù)據(jù)庫系統(tǒng)安全審計系統(tǒng),通過部署數(shù)據(jù)庫審核系統(tǒng),在不更改業(yè)務(wù)網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,采用旁路鏡像方法,實時采集服務(wù)器和數(shù)據(jù)庫網(wǎng)絡(luò)數(shù)據(jù)流,協(xié)議分析和識別信息數(shù)據(jù),最終將全部網(wǎng)絡(luò)操作進(jìn)行還原,然后記錄儲存于取證分析操作痕跡,以此提出相應(yīng)的設(shè)定安全策略,審核多個不同的分站點,防止違規(guī)操作同時,向管理員報警,從而實現(xiàn)分布式部署。

2.2 凈化網(wǎng)絡(luò)環(huán)境

針對上述復(fù)雜、開放性網(wǎng)絡(luò)環(huán)境條件下,分布式數(shù)據(jù)庫系統(tǒng)運用中存在的不安全因素,為了降低網(wǎng)絡(luò)環(huán)境的影響力,真正做到安全防范,必須凈化網(wǎng)絡(luò)環(huán)境,加強網(wǎng)絡(luò)管理力度,為系統(tǒng)使用的安全性提供保障。例如某市為了凈化網(wǎng)絡(luò)環(huán)境,確保計算機信息系統(tǒng)安全,促進(jìn)計算機應(yīng)用與發(fā)展,按照《中華人民共和國計算機信息系統(tǒng)安全保護(hù)條例》相關(guān)規(guī)定,結(jié)合當(dāng)?shù)赜嬎銠C應(yīng)用情況,明確相關(guān)部門工作職責(zé),加強網(wǎng)絡(luò)管理,收集和通報計算機病毒,對計算機病毒來源進(jìn)行追查,定期檢測計算機病毒,及時消除計算機病毒傳播與擴散。

2.3 病毒防控措施

分布式數(shù)據(jù)庫系統(tǒng)內(nèi)部儲存與管理著海量數(shù)據(jù)信息,都是為了防止黑客利用各種非法手段篡改、破壞和竊取數(shù)據(jù)庫中的文件,為了保護(hù)數(shù)據(jù)庫系統(tǒng)中全部文件的安全性與完整性,必須對分布式數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)庫文件進(jìn)行病毒防控,做好相應(yīng)的病毒預(yù)防與控制措施,從而有效降低黑客攻擊的威脅性。例如某校為了預(yù)防與控制本校計算機感染病毒,維護(hù)用戶利益,按照國家與公安部門相關(guān)規(guī)定,結(jié)合本校的實情,制定相應(yīng)的病毒防控措施,要求學(xué)校信息化建設(shè)和管理領(lǐng)導(dǎo)小組負(fù)責(zé)病毒預(yù)防與控制工作,并成立病毒防控小組,負(fù)責(zé)監(jiān)督與指導(dǎo)病毒防控工作,根據(jù)有關(guān)規(guī)定檢測計算機系統(tǒng)和軟件的病毒,對產(chǎn)生病毒計算機進(jìn)行清除,并更新防病毒軟件,新接入的軟件必須經(jīng)過檢測,確定沒有病毒后才能使用。

2.4 保密安全措施

用戶訪問權(quán)限在通過一系列身份驗證后,分站點和分站點之間才可以進(jìn)行數(shù)據(jù)互動。為了確保數(shù)據(jù)信息的保密性,在數(shù)據(jù)信息傳遞的整個過程中,一般會對需要傳輸?shù)臄?shù)據(jù)信息設(shè)置密碼,在通信雙方建立一條保密通道,對數(shù)據(jù)信息訪問與傳輸進(jìn)行加密處理,以此避免數(shù)據(jù)被竊取、反復(fù)發(fā)送及遭到黑客攻擊。另外,應(yīng)使用實時入侵檢測方式,加大分站點之間的安全監(jiān)測力度,在通信雙方建立一條安全通道,加強數(shù)據(jù)信息傳輸?shù)谋C苄?。例如某公司為了確保整個分布式數(shù)據(jù)系統(tǒng)信息系統(tǒng)中數(shù)據(jù)信息的保密性,在發(fā)送信息數(shù)據(jù)過程中,使用端對端加密方式對數(shù)據(jù)信息進(jìn)行加密,然后進(jìn)入TCP/IP數(shù)據(jù)包封裝,將其設(shè)置成不可識別或者是不可閱讀的信息數(shù)據(jù),最后通過網(wǎng)絡(luò)方式傳送到另一個用戶系統(tǒng)中(目的地),再對信息數(shù)據(jù)進(jìn)行解密重組,變成可讀數(shù)據(jù)信息。

3 結(jié)束語

在開放式和復(fù)雜的網(wǎng)絡(luò)環(huán)境中運用分布式數(shù)據(jù)庫系統(tǒng)時,應(yīng)充分分析了解不安全因素,通過建立訪問控制和審計體系和安全審核系統(tǒng)方式,凈化網(wǎng)絡(luò)環(huán)境,實時預(yù)防和控制病毒傳播,從而做好分布式數(shù)據(jù)庫系統(tǒng)保密安全措施,確保分布式數(shù)據(jù)庫系統(tǒng)安全使用。

參考文獻(xiàn)

[1]鄒平吉.對分布式數(shù)據(jù)庫系統(tǒng)的安全分析與探討[J].林區(qū)教學(xué),2013(12):98-100.

[2]韓春陽.分布式數(shù)據(jù)庫系統(tǒng)的安全策略研究[J].硅谷,2014(07):164-164,181.