大數據分析范文

時間:2023-04-06 11:43:51

導語:如何才能寫好一篇大數據分析,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

大數據分析

篇1

數據分析:從挖金土豆到篩金沙

大數據之所以成為業(yè)界的熱點,是因為現在做數據分析的價值越來越大,在Hadoop等技術的支持下,成本相對越來越低。對于企業(yè)做數據分析的價值和方法的前后變化,Informatica公司大中國區(qū)首席產品顧問但彬在論壇上,用一個非常生動形象的比喻做了說明:“如果將做數據分析比喻成開采金礦,原來我們所做的是用挖掘機挖金土豆,而現在則是用篩子來篩金沙。因為現在大量分布在社交網絡的數據,對企業(yè)而言就是就像是大量的金沙,分布廣泛而分散。如果能用低成本的方法篩出金沙,是非常有價值且值得做的事情?!?/p>

但彬介紹,Informatica作為一家數據集成公司,更關注的是如何把來自各個地方的大數據,通過像抽水機的泵一樣的裝置整合到需要的程度和地方。Informatica2011年完成了近8億元的收入,這也是對大數據市場火熱程度的一個印證。

Informatica主要從四個方向考慮大數據處理的一些問題:第一,大數據的集成,即從數據種類的多樣性方面,整合所有來源的所有數據類型,不管是來自交易系統(tǒng)的結構化數據,社交網絡的半結構化、非結構化數據,還是來自RFID讀卡器的感應數據;第二,保障數據的權威、可信性,保障數據安全,實現可重復利用、一致的數據質量;第三是實現數據的自助式服務,消除手工操作帶來的錯誤,提高生產率,允許分析員通過基于瀏覽器的工具直觀地定義和校驗從源到目標的處理流程,以此自動生成映射邏輯,交由開發(fā)人員部署運行;第四是自適應服務,通過多協(xié)議數據配置、集成數據質量等手段實現交付適應不同項目需求的數據。

從交易到交互,從互聯網行業(yè)到傳統(tǒng)行業(yè),大數據的滲透力和影響力不容小覷。在Teradata大中華區(qū)首席架構師張新宇看來,除了數據管理,更重要的是數據分析,利用新的分析方法,比如通過使用Map Reduce(編程語言可以是Java/Python/Perl/C/C++)新分析框架,提供針對多種數據的并行處理能力等,實現大數據的洞察力是更關鍵的。

北京賽迪時代信息產業(yè)股份有限公司存儲工程服務事業(yè)部總經理李降龍也介紹,大數據帶來的挑戰(zhàn)在于怎樣實時處理這些數據,通過虛擬化搭建一個計算和存儲資源池,以彈性架構有效地合理分配和使用它們,并建立合理應用系統(tǒng),使大數據得到最好的管理和使用,才能發(fā)揮大數據的價值。論壇上民族證券CIO顏陽也分享了證券公司對于大數據的理解以及他們所做輿情分析的大數據應用。

職場新貴:數據科學家

針對大數據而生的新一代分析工具――Map Reduce近年來備受關注,它一次遍歷數據,連接列表順序分析,而不需要像傳統(tǒng)的SQL那樣為了排序需要對表做自關聯。Map Reduce在數字營銷優(yōu)化、社交網絡及關系分析、欺詐檢測及預防、設備數據分析等場景中都有非常好的應用。

除了原有的關系型數據分析,結合非關系型數據(NoSQL)的探索性分析的需求在企業(yè)內部越來越旺盛,如此一來,一種新的IT職業(yè)――數據科學家會越來越火。

篇2

通過一系列收購,EMC已經建立了一條比較完善的大數據產品線。在此基礎上,EMC拋出了大數據之旅的三段論。

第一關:構建云基礎架構

大數據分析和處理的基礎是完善的云基礎架構,主要包括大數據存儲和大數據分析兩個平臺。

EMC大數據存儲平臺的兩大支柱產品是Isilon集群NAS以及Atmos海量智能存儲。Isilon集群NAS是EMC兩年前收購的產品,具有很強的橫向擴展能力,使用起來非常方便。目前,Isilon集群NAS被用于許多云存儲的項目。Atmos海量智能存儲可以很好地支持分布式大數據計算。許多電信運營商基于Atmos構建了公有云系統(tǒng),其部署非常簡單,而且性價比很高。

EMC的大數據解決方案分成純軟件和軟硬件一體兩種。Isilon集群NAS與Greenplum軟件組成了一體化解決方案。蔡漢輝介紹說:“Isilon集群NAS目前主要作為大數據存儲平臺,可與Greenplum、Hadoop結合,但同時也會兼顧傳統(tǒng)存儲應用。為了更好地支持大數據和云服務,Isilon集群NAS在今年底還會開放API,讓更多第三方的廠商能基于Isilon集群NAS平臺進行開發(fā)。”

EMC大數據分析平臺的核心是兩年前收購得來的Greenplum的產品,主要包括Greenplum Database(支持結構化數據庫)和Greenplum HD(支持Hadoop)。蔡漢輝介紹說:“Greenplum大數據分析平臺可以實時處理任何來源的數據,包括結構化、半結構化和非結構化的數據。Greenplum不僅可以處理PB級的數據,而且處理速度可以達到10TB/h?!?/p>

第二關:實現社交化服務

構建高性能、可靠、靈活的大數據分析平臺是第一步,接下來,用戶要構建數據處理的協(xié)作平臺,建立自助服務的環(huán)境。EMC把這個階段稱為社交化階段。

2012年3月,EMC了首個用于大數據的社交工具集Greenplum Chorus,使得數據科學家可以通過類似Facebook的社交方式進行協(xié)作。Greenplum Chorus是EMC中國研發(fā)團隊主導開發(fā)的產品。Greenplum Chorus基于開放的架構,是一個用于數據挖掘和協(xié)作分析的流程平臺。Greenplum Chorus包括數據探索、個人項目工作空間(又稱個人沙盒)、數據分析和幾個主要環(huán)節(jié)。

Greenplum Chorus開發(fā)主管莊富任介紹了Greenplum Chorus的工作流程:Greenplum Chorus提供了強大的搜索引擎,可以快速尋找到數據,并將這些數據進行關聯,從而實現數據采集的可視化;采集來的數據被放到個人沙盒中進行處理,這個處理過程不會影響整個數據庫的運行;在協(xié)作分析階段,數據分析人員可以共享工作空間、代碼,協(xié)同工作兼具靈活性和安全性;最后,相關的處理結果被出來。上述處理過程將循環(huán)往復。

Greenplum Chorus未來將走向開源。EMC已經了一個名為OpenChorus的計劃,其目標是促進技術創(chuàng)新,同時促進那些運行在Greenplum Chorus平臺上的協(xié)作的、社交化的數據應用的普及。2012年下半年,EMC還將公布Greenplum Chorus源代碼,讓更多人加入到Greenplum Chorus陣營中來。

第三關:敏捷開發(fā)服務

大數據處理的第三個階段就是構建一個敏捷的開發(fā)環(huán)境,用于實時決策,并且更好地支持大數據應用程序。

從形式上看,傳統(tǒng)的大數據方案包括打包方案和定制化開發(fā)兩種。打包方案具有高效率、低成本的優(yōu)勢,但是需要精確的數據模型。定制化開發(fā)可以實現應用的創(chuàng)新,但是實施起來難度大,周期長,而且價格昂貴。EMC希望為用戶提供一種敏捷開發(fā)的方式,在充分發(fā)揮上述兩種方案優(yōu)勢的同時彌補其不足。為此,2012年3月,EMC收購了Pivotal Labs公司。Pivotal Labs是一家私營的敏捷軟件開發(fā)服務和工具提供商。

篇3

大數據分析技術給信息安全領域帶來了全新的解決方案,但是如同其它領域一樣,大數據的功效并非簡單地采集數據,而是需要資源的投入,系統(tǒng)的建設,科學的分析。Gartner在2013年的報告中指出,大數據技術作為未來信息架構發(fā)展的十大趨勢之首,具有數據量大、種類繁多、速度快、價值密度低等特點。將大數據技術應用與信息安全領域可實現容量大、成本低、效率高的安全分析能力。

1.1信息安全分析引入大數據的必要性

大數據具有“4V”的特點:Volume、Variety、Velocity和Value,可實現大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數據的處理和分析要求,將大數據應用于信息安全領域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。隨著企業(yè)規(guī)模的增大和安全設備的增加,信息安全分析的數據量呈指數級增長。數據源豐富、數據種類多、數據分析維度廣;同時,數據生成的速度更快,對信息安全分析應答能力要求也相應增長。傳統(tǒng)信息安全分析主要基于流量和日志兩大類數據,并與資產、業(yè)務行為、外部情報等進行關聯分析?;诹髁康陌踩治鰬弥饕◥阂獯a檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應用主要包括安全審計、主機入侵檢測等。將大數據分析技術引入到信息安全分析中,就是將分散的安全數據整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關聯分析以及異常行為分類預測模型,有效的發(fā)現APT攻擊、數據泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數據分析涉及的數據更加全面,主要包括應用場景自身產生的數據、通過某種活動或內容“創(chuàng)建”出來的數據、相關背景數據及上下文關聯數據等。如何高效合理的處理和分析這些數據是安全大數據技術應當研究的問題。

1.2安全大數據分析方法

安全大數據分析的核心思想是基于網絡異常行為分析,通過對海量數據處理及學習建模,從海量數據中找出異常行為和相關特征;針對不同安全場景設計針對性的關聯分析方法,發(fā)揮大數據存儲和分析的優(yōu)勢,從豐富的數據源中進行深度挖掘,進而挖掘出安全問題。安全大數據分析主要包括安全數據采集、存儲、檢索和安全數據的智能分析。(1)安全數據采集、存儲和檢索:基于大數據采集、存儲、檢索等技術,可以從根本上提升安全數據分析的效率。采集多種類型的數據,如業(yè)務數據、流量數據、安全設備日志數據及輿情數據等。針對不同的數據采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數據可采用流量景象方法,并使用Storm和Spark技術對數據進行存儲和分析;針對格式固定的業(yè)務數據,可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數據進行檢索,大大提升數據處理效率。(2)安全數據的智能分析:并行存儲和NoSQL數據庫提升了數據分析和查詢的效率,從海量數據中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預處理)、統(tǒng)計建模工具(如回歸分析、時間序列預測、多元統(tǒng)計分析理論)、機器學習工具(如貝葉斯網絡、邏輯回歸、決策樹、隨機森利)、社交網絡工具(如關聯分析、隱馬爾可夫模型、條件隨機場)等。常用的大數據分析思路有先驗分析方法、分類預測分析方法、概率圖模型、關聯分析方法等??墒褂肕ahout和MLlib等分析工具對數據進行挖掘分析。綜上,一個完備的安全大數據分析平臺應自下而上分為數據采集層、大數據存儲層、數據挖掘分析層、可視化展示層。主要通過數據流、日志、業(yè)務數據、情報信息等多源異構數據進行分布式融合分析,針對不同場景搭建分析模型,最終實現信息安全的可管可控,展現整體安全態(tài)勢。

2安全大數據分析的典型應用

2.1基于用戶行為的不良信息治理

中國移動開展了基于大數據的不良信息治理工作,主要針對垃圾短信和騷擾詐騙電話開展基于異常行為的大數據分析。通過開源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數據分析平臺,采集用戶的行為數據,構建用戶行為分析模型;分別提出了異常行為分類預測模型、統(tǒng)計預測分析模型、社交網絡分析模型等,將用戶的行為數據輸入到模型中,可以精準地挖掘出違規(guī)電話號碼,并且發(fā)現違規(guī)號碼與正常號碼之間存在大量相異的行為特征。通過用戶的行為,構建多維度的用戶畫像數據庫,支撐全方位的大數據不良信息治理服務,支撐大數據不良內容的智能識別等。實踐表明,大數據分析技術能夠挖掘出更多潛在的違規(guī)號碼,是對現有系統(tǒng)的有效補充。除此之外,中國移動還將大數據技術應用在安全態(tài)勢感知、手機惡意軟件檢測和釣魚網站的分析中,提升了現有系統(tǒng)的分析能力。

2.2基于網絡流量的大數據分析

在互聯網出口進行旁路流量監(jiān)控,使用Hadoop存儲及Storm、Spark流分析技術,通過大數據分析技術梳理業(yè)務數據,深度分析所面臨的安全風險。主要分析思路是采集Netflow原始數據、路由器配置數據、僵木蠕檢測事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點分析及協(xié)議還原等方法,進行Web漏洞挖掘、CC攻擊檢測、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。

2.3基于安全日志的大數據分析

基于安全日志的大數據分析思路主要是融合多種安全日志,進行數據融合關聯分析,構建異常行為模型,來挖掘違規(guī)安全事件。主要的安全日志包含Web日志、IDS設備日志、Web攻擊日志、IDC日志、主機服務器日志、數據庫日志、網管日志、DNS日志及防火墻日志等,通過規(guī)則關聯分析、攻擊行為挖掘、情景關聯分析、歷史溯源等方法,來分析Web攻擊行為、Sql注入、敏感信息泄露、數據分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應用場景?;诎踩罩镜拇髷祿治鲆呀浽趪H上有廣泛的應用。如IBMQRadar應用整合分散在網絡各處的數千個設備端點和應用中的日志源事件數據,并將原始安全數據進行標準化,以區(qū)別威脅和錯誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機、垃圾郵件和其它威脅等;IBMQradar還可以將系統(tǒng)漏洞與事件和網絡數據相關聯,劃分安全性事件的優(yōu)先級等。ZettaSet海量事件數據倉庫來分析網絡中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數據倉庫)。Orchestrator是端到端的Hadoop管理產品,支持多個Hadoop分布;SDW是構建在Hadoop的基礎上,并且基于Hive分布式存儲。SDW于2011年BlackHat網絡安全會議面世,SDW可從網絡防火墻、安全設備、網站流量、業(yè)務流程以及其它事務中挖掘安全信息,確定并阻止安全性威脅。處理的數據質量和分析的事件數量比傳統(tǒng)SIEM多;對于一個月的數據負載,傳統(tǒng)SIEM搜索需要20~60min,Hive運行查詢只需1min左右。

2.4基于DNS的安全大數據分析

基于DNS的安全大數據分析通過對DNS系統(tǒng)的實時流量、日志進行大數據分析,對DNS流量的靜態(tài)及動態(tài)特征進行建模,提取DNS報文特征:DNS分組長、DNS響應時間、發(fā)送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報文特征,構建異常行為模型,來檢測針對DNS系統(tǒng)的各類流量攻擊(如DNS劫持、DNS拒絕服務攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚網站域名等。

2.5APT攻擊大數據分析

高級可持續(xù)性威脅(APT)攻擊通過周密的策劃與實施,針對特定對象進行長期的、有計劃的攻擊,具有高度隱蔽性、潛伏期長、攻擊路徑和渠道不確定等特征?,F已成為信息安全保障領域的巨大威脅?!罢鹁W”潛伏3年,造成伊朗納坦茲核電站上千臺鈾濃縮離心機故障。收集業(yè)務系統(tǒng)流量、Web訪問日志、數據日志、資產庫及Web滲透知識庫等,提取系統(tǒng)指紋、攻擊種類、攻擊時間、黑客關注度、攻擊手段類型、行為歷史等事件特征,再基于大數據機器學習方法,發(fā)現Web滲透行為、追溯攻擊源、分析系統(tǒng)脆弱性,加強事中環(huán)節(jié)的威脅感知能力,同時支撐調查取證。

3總結

篇4

關鍵詞:大數據時代;大數據;統(tǒng)計學;數據分析

引言:

目前階段,在計算機處理技術不斷發(fā)展的背景下,在對規(guī)模較大并且較為復雜的數據進行處理過程中,人們已經逐漸掌握了方法與技能,并且能夠在大規(guī)模的數據中找出具有一定價值的信息,所以,大數據時代已經來臨。在數據時代中,在人文社科與人類自然科學技術等方面都會有較大的發(fā)展,同時也會一定程度上改變人們的生活與工作方式。除此之外,大數據時代也同樣為統(tǒng)計學提供了良好的發(fā)展機會,但也存在一定的挑戰(zhàn)。

一、大數據時代的概念

大數據時代的提出者是麥肯錫,他認為數據已經逐漸進入到各個行業(yè)與各業(yè)務職能的領域中,并且逐漸成為了主要的生產因素[1]。因此,人們在對大規(guī)模數據進行挖掘與應用的過程,也就意味著新的生產率增長的來臨。雖然“大數據”在眾多行業(yè)被廣泛應用,但是,特別是在信息與互聯網的領域中應用突出。

二、怎樣理解大數據

(一)大數據概念界定與構成

大數據,即由于日常產生的數據量快速增長,使得數據庫無法利用相應的管理工具對其進行管理與收集,最終導致在進行搜索、分析、存取、共享數據時具有較大的困難。

大數據的構成包括四部分,并將其總結為4V,即Volume,Variety,Value,Velocity[2]。第一部分是價值密度低,將視頻作為具體實例來說,實現連續(xù)并且不間斷的監(jiān)控,其中有價值的數據信息只有一兩秒。第二部分是數據體量極大,已經從TB實現了PB的躍升。第三部分是數據類型眾多,主要包括視頻、圖片、網絡日志以及地理信息等。第四部分是處理的速度超快,可以用一秒定律來解釋。

(二)海量數據帶來哪些挑戰(zhàn)

第一,數據存儲。由于大數據的數據規(guī)模是PB級別,所以,存儲的系統(tǒng)也需要進行等級的拓展,并且可以通過磁盤柜或者是增加模塊實現容量的增加。然而,目前階段,數據的增長速度驚人,所以系統(tǒng)資源的消耗也不斷增加,導致系統(tǒng)的運行效率有所下降[3]。因為對海量數據始終停留在分布式的存儲階段,所以,對于爆炸式的數據增長,原有的存儲方案已經無法滿足現有的數據變化需求。

第二,處理技術。由于海量數據的分布性與數據量與以往存在較大的差異,所以,原有的數據管理技術已經處于落后狀態(tài)。

第三,數據安全。在互聯網規(guī)模逐漸擴大的情況下,數據的應用已經出現指數級別的增長,所以,對于數據安全的保護與監(jiān)控來說具有一定的難度。

(三)大數據相關應用與實踐

第一,體育賽事應用。以2014年的世界杯為例,在充分發(fā)揮記者與編輯敏銳度的基礎上,騰訊也利用對大數據的分析以及云計算等方式來為為其提供移動與社交的數據。與此同時,騰訊與IBM進行合作,并通過文化、賽事與球迷三方面來對世界杯球迷的關注重點進行信息的挖掘,進而實現新欄目的創(chuàng)作,并且在短時間內贏得了廣大球迷的認可與關注。

第二,產品推薦應用。產品推薦的應用比較廣泛,可以對客戶信息、交易歷史、購買過程等數據進行全面的分析,并進行有價值信息的挖掘。同時,針對同一產品的不同客戶訪問信息也可以進行挖掘。最終,通過對客戶行為的分析,來確定消費者的共,這樣就可以更好的為客戶推薦產品。

除此之外,在產品推薦中,可以在對客戶社交行為進行信息挖掘與分析的基礎上來進行社區(qū)的營銷。對客戶微信微博以及社區(qū)活動中的偏好數據進行分析,并為其提供符合客戶興趣愛好的產品。

圖一

三、如何分析大數據

(一)如何挖掘數據中價值

以匹配廣告為具體事例進行分析,主要有兩種數據。第一種是廣告庫,其中包括廣告庫以及廣告的客戶信息[4]。但是這種數據信息比較適合在傳統(tǒng)數據庫中應用。第二種是用戶在觀看廣告后的行為??梢园岩陨蟽煞N數據進行有效的結合,并通過相應的算法來體現價值。在實踐應用過程中,可以充分體會到第二種信息的重要作用??梢詾橛脩籼峁┢渌璧男畔?,并通過群體智能以及群體行為對之前用戶使用的效果進行分析,最終通過具體的反饋機制,將最優(yōu)質的信息提供給用戶,還可以進行搜索或者是查詢信息。

(二)如何做處理與分析

第一,更新抽樣調查的工作理念。由于大數據時代的數據樣本是以往資料綜合,所以,可以對相關事務的數據信息進行分析,進一步對總體進行了解,還可以更好的了解局部。同時需要解決以下問題:抽樣框架不穩(wěn)定,調查目的設定不合理、樣本量受限[5]。第二,積極改變對于數據精確度的標準。在大數據時代的背景下,數據的來源比較廣泛,并且對數據進行處理的技術也有所提高,所以,可以允許數據存在不準確的情況。大數據時代需要吸收多種數據,但并需要一味的要求數據精準。第三,合理轉變數據關系的分析重點。由于大數據時代的數據規(guī)模比較大,而且結構也十分復雜,變量的關系也比較繁雜。所以,在對數據進行分析的過程中,不應該對因果關系進行仔細的分析,而重要的是對事物相關的關系進行分析。需要轉換思路,對事物關系的形式與目的進行詳細的分析。

四、 大數據對統(tǒng)計學科和統(tǒng)計研究工作的影響

(一) 拓展統(tǒng)計學研究領域

因為大數據時代的到來,所以會對各個領域產生一定的影響,同樣給統(tǒng)計學帶來影響。在統(tǒng)計學中,其主要的研究對象就是其所要認識的客體,是客觀存在事物自身的數量特征與關系。其中,統(tǒng)計學研究對象最主要的特點就是數量性。然而,在傳統(tǒng)的統(tǒng)計學當中,數據主要是試驗與調查的數值。在大數據時代中,統(tǒng)計研究的對象不僅包括以結構數據度量的數量,此外,還可以包括一些無法用數量關系進行衡量的半結構與非結構數據,其中可以包括動畫、圖片、聲音、文本等等[6]。所以,可以說,在大數據時代背景下,統(tǒng)計學的研究對象領域有所擴大。

(二) 對統(tǒng)計計算規(guī)范產生影響

在傳統(tǒng)的統(tǒng)計學當中,一般是使用方差、平均數以及相對數等數據計算規(guī)范來真實反映事物量特征的,同時還可以反映事物量的關系與界限,能夠通過數據計算規(guī)范來計算出具體的數值。但是,半結構與非結構的數據是無法通過傳統(tǒng)數據計算規(guī)范進行計算的[7]。所以,在大數據時代的背景下,傳統(tǒng)的數據計算規(guī)范也同樣遇到了難題。

(三) 對統(tǒng)計研究工作的過程產生影響

1. 數據整理和分析

第一,數據審核。原有的數據審核主要的目的就是對數據準確性和完整性進行嚴格的檢查。但是,在大數據的時代中,對數據的審核就必須要確保數據處理的速度以及預測的準確程度,同時還需要對數處理的規(guī)模進行準確的確定,也就是數據量級別的確定。除此之外,因為大數據自身具有不穩(wěn)定性,并且十分混亂。但是,即使是這樣,大數據也能夠挖掘出信息內部存在的隱蔽關系以及有價值的知識。所以,大數據所反映的研究對象存在準確與不準確兩種,但是,任何一種的數據都具有一定的價值,通常情況下是不需要進行替換或者是刪除的[8]。

第二,數據存儲。在以往的數據存儲中,審核、匯總以及編制的圖表等資料是重點資料,并且需要進行保存起來的。然而,大數據保存最主要的目的就是對存儲的成本進行有效的控制,同時需要根據相應的法規(guī)計劃來確定數據存儲的規(guī)模。

2. 數據積累、開發(fā)與應用

第一,數據積累。傳統(tǒng)統(tǒng)計工作主要是根據所制定的研究目的來對數據進行匯總與分類,并進行保存,這樣可以更好的為后期數據的分析與查詢提供有利的條件。但是,在大數據的積累中,具有價值的信息需要對大數據進行處理后才可以發(fā)現。不容置疑,大數據具有一定的復雜性,所以,在積累的過程中,不可以進行簡單的處理。因為大數據的規(guī)模大,結構也比較復雜,無法實現簡單的分類,而且,在對大數據進行簡單整理時非常容易使其混亂,對其真實性產生影響,可能會丟失具有價值的信息。

第二,數據開發(fā)。大數據時代下的數據流動性極強,所以,其自身的價值有再生性。因此,大數據時代的數據不會貶值,反而會增值。為了能夠對所研究的對象進行更深入的了解,就需要對其整合。

第三,數據應用。對數據的傳統(tǒng)應用主要是為了對現象進行解釋與預測。但是,在大數據時代,數據應用的核心就是在相關關系前提下的預測。

結語

綜上所述,現階段我國社會正處于大數據時代,并且對于社會未來的發(fā)展具有重要的意義。文章對大數據時代的概念與定義以及構成進行了闡述與分析,同時,對大數據的實際應用與實踐進行了探討。針對大數據價值的挖掘與分析處理進行了研究,最后列舉了大數據對統(tǒng)計學科以及統(tǒng)計研究工作的影響,進而對今后大數據的數據分析工作提供了有價值的理論依據,并積極的推動了大數據時代的發(fā)展,進一步促進了社會的進步。(作者單位:中國人民大學)

參考文獻:

[1]朱建平,章貴軍,劉曉葳等.大數據時代下數據分析理念的辨析[J].統(tǒng)計研究,2014,31(2):10-19.

[2]張學敏.大數據時代的數據分析[J].電子世界,2014(16):5-5,6.

[3]李祥歌,王奇奇,郭軼博等.基于大數據時代的數據挖掘及分析[J].電子制作,2015(3):81-81.

[4]劉江娜.大數據時代:為什么數據分析能讓你的企業(yè)脫穎而出[J].環(huán)球市場信息導報,2014(36):92-93.

[5]郭華庚,向禮花.大數據時代網絡信息歸檔的元數據分析[J].貴州師范學院學報,2015,31(3):24-28.

[6]高書國.大數據時代的數據困惑――教育研究的數據困境[J].教育科學研究,2015(1):24-30.

篇5

一、大數據分析的概念及內涵

伴隨著互聯網、物聯網、電子商務、社交網等網絡信息化技術的逐步推廣與應用,社會各行各業(yè)中在多年以來的信息化進程中,均積累了大量的數據信息,而這些數據信息在近年來仍呈現出涌噴的增長態(tài)勢。而與此同時,數據的形態(tài)也發(fā)生了巨大的改變,以往的格式化數據正逐步過渡到格式化與非格式化數據(如圖像數據、視頻數據等)共存的時代。各類數據源的每天生成并傳輸到云計算平臺,以供前端數據挖掘、數據分析、模型建設及數據可視化展現應用,從而為社會各行各業(yè)提供綜合。可以說,社會的發(fā)展真正進入了讓數據說話的時代,即大數據時代。

大數據分析,即是各類數據進行有效分析的技術與措施。由于在大數據時代,數據信息往往呈現出數據量大(Volume)、速度快(Velocity)、類型復雜(Variety)、價值密度低(Value)這4V特點,如何在規(guī)模巨大、成分復雜的數據源中挖掘出對企業(yè)有用的信息,并在最短內做出有效分析,將是大數據時代企業(yè)所要進行的一項核心工作。

二、構建會計大數據分析型企業(yè)的意義

數據的真正價值在于發(fā)現隱藏在數據背后的信息。因此,在大數據時代,對企業(yè)會計數據的有效分析與利用,將成為所有企業(yè)共同競爭的核心。通過構建會計大數據分析型企業(yè),不僅能使企業(yè)會計成本得到量化,而且能有效促進企業(yè)經營管理水平的進一步提升。

1.改變企業(yè)傳統(tǒng)的運營與管理模式

會計大數據分析型企業(yè)的構建,以商業(yè)智能技術作為企業(yè)的決策中心與神經系統(tǒng),通過對企業(yè)各類數據的充分挖掘與分析,從而實現企業(yè)管理流程的優(yōu)化與改良,使原本經驗式或粗放式的管理的逐步轉變?yōu)閿祿寗雍途毣墓芾砟J健?/p>

例如,企業(yè)的貸款經營管理,通過收集到足夠的貸款數據,并以此建立模型進行綜合分析,可以有效評估貸款的風險,實現授信和定價的指導,以及放貸的批量化自動審批。這種企業(yè)數據化分析與管理模式的構建,不僅能最大程度的降低企業(yè)的經營成本,而且能提高放貸的效率性,使企業(yè)能很好的維持盈利水平。

2.推動企業(yè)市場競爭的深度與廣度

會計大數據分析型企業(yè)的構建,有利于企業(yè)內部管理與外部營銷的創(chuàng)新。對企業(yè)內部管理而言,通過對自身會計數據的有效分析,可以優(yōu)化各個運營環(huán)節(jié),并輔助決策,從而激發(fā)出企業(yè)業(yè)務流程中的潛在價值,進而降低運營成本,提高管理水平與運營效率;對企業(yè)外部營銷而言,企業(yè)可以通過對海量、精準客戶數據的有效分析,或者借助于第三方數據分析平臺,以進一步了解客戶的消費行為與消費方式,從而預測銷售,實現精準營銷模式與互動營銷模式,進而提高企業(yè)外部營銷的科學性與有效性。近年來,在各個行業(yè)中都出現了以數據挖掘和數據分析,作為自身市場競爭優(yōu)勢的企業(yè),例如谷歌、海爾、寶潔等企業(yè),它們都將自身的成功歸結于對企業(yè)內外部大量數據分析的有效應用。

三、會計大數據分析型企業(yè)的構建思路

會計大數據分析性企業(yè)的數據平臺建設,主要是依托于商業(yè)智能技術,通過收集大量的會計數據原始資料,并借助商業(yè)智能化工具實現對海量會計數據的分析報告、數據查詢、在線分析處理、報表生成以及數據可視化等服務。整個會計數據分析共享平臺的邏輯架構圖,見下圖所示:

1.平臺總體架構

如上圖所示,整個平臺的邏輯架構分為了數據源層、數據管理層和數據應用層。其中,數據源層是企業(yè)各類會計數據的收集源頭,各類會計數據通過“ETL過程”進行抽取、轉換、過濾和加載到數據共享分析平臺的數據倉庫中,以保障數據收集的質量;數據管理層,則是企業(yè)會計數據進行存儲、交互處理和分析的核心層,它借助于數據分析共享平臺的數據倉庫為數據應用層提供高質量和有效的數據需求;數據應用層,則是會計數據在企業(yè)各項經營管理層面中發(fā)揮真正價值的地方,企業(yè)的多項業(yè)務通過“模型應用”、“數據挖掘”、“報表應用”、“管理駕駛艙”、“即席分析與查詢”等功能實現企業(yè)各種業(yè)務的數據應用。

2.ETL過程

ETL(Extraction Transformation Load)過程,是實現對數據源層中各類會計數據處理的一個動態(tài)過程。企業(yè)可通過選擇適宜的 ETL工具,以提高數據處理的效率。目前,最為主流的ETL數據處理工具有:Ascential公司的DataStage工具、Informatica公司的Powercenter、NCR公司的ETL Automation、SAS等等。通過ETL過程,可以將滿足企業(yè)各類業(yè)務需求的數據裝載到目標數據倉庫系統(tǒng)。

3.目標數據倉庫系統(tǒng)

數據倉庫(Data Warehouse),是指適應企業(yè)會計數據決策分析的需求,而進行建設的數據庫應用技術,它與傳統(tǒng)的數據庫技術有較大的差別。數據庫技術只是數據庫倉庫系統(tǒng)的基礎,數據倉庫是一個直接面向主體的、集成的、非易失的、隨時間變化的和用于企業(yè)戰(zhàn)略決策的數據集合。

當前,目標數據倉庫技術已成為了會計大數據分析性企業(yè)由數據到知識,再由知識轉換為利潤的核心技術。近年來,隨著目標數據倉庫應用的日益成熟,我國許多行業(yè)中都紛紛建立了自身的數據倉庫,在銀行、保險、電信等行業(yè)中都得到了很好的應用。數據倉庫技術正逐漸成為21世紀企業(yè)信息化發(fā)展的核心技術。

4.數據應用層的功能實現

(1)模型應用。數據模型可以通過一系列科學標準的建模過程,以有效的對企業(yè)會計數據特征進行抽象,從而獲取關鍵信息與指標。模型應用的重點是預測未來,它主要基于企業(yè)歷史會計數據,開發(fā)各種預測模型,對企業(yè)客戶和業(yè)務的未來發(fā)展作出預測,從而對設計和策略方案進一步優(yōu)化,進而實現企業(yè)未來效益的最優(yōu)化。

(2)數據挖掘。數據挖掘是從大量數據中自動搜索隱藏于其中的具有價值信息的過程。數據挖掘功能的實現,主要是借助于數據庫技術、通信技術、人工智能技術、模式識別技術等多種新興技術對海量數據進行提取與分析。目前,最為流行的三大數據挖掘工具是SAS公司的SAS/EM,IBM公司的Intelligent Miner和SPSS公司的Clementine。

(3)報表應用。報表應用技術是利用會計數據信息,對企業(yè)歷史經營狀況進行回顧與總結。報表應用技術還可細分為常規(guī)報表與即席查詢這兩個部分,常用的報表工具有:IBM公司的Cogonos、SAS公司的PORTAL等。

(4)管理駕駛艙。管理駕駛艙技術,是幫助企業(yè)管理層能的了解到數據背后的信息,實現將報表、分析層指標等數據信息的動態(tài)形象、交互界面以友好的方式呈現為管理層,從而幫助管理層能快速掌握企業(yè)各項經營的指標狀況,為企業(yè)未來經營的合理決策與風險評估提供信息依據。

(5)即席分析與查詢。即席分析與查詢功能,是一個面向數據庫的應用,它主要用于企業(yè)會計業(yè)務信息查詢和報表生成,也能夠為企業(yè)會計數據分析提供一個高性能和高效率的查詢系統(tǒng)。

篇6

億聯國科的BigBase數據庫在3月30日舉行的2012第五屆中國數據中心大會上被評為2012年度中國優(yōu)秀大數據分析平臺。BigBase是為了滿足云計算時代海量數據在線分析應用的迫切需求,由億聯國科打造的中國首款擁有自主知識產權的基于NoSQL技術的商用大數據在線分析系統(tǒng)。BigBase是一個適用于超大規(guī)模結構化數據存儲和在線分析的專業(yè)化系統(tǒng)。該產品針對中國傳統(tǒng)行業(yè)的實際需求進行了大量技術創(chuàng)新,可以有效降低各種大數據處理應用的技術門檻,節(jié)省人力和財力,為各類企業(yè)和政府部門提供海量數據在線分析的能力。

目前,BigBase系統(tǒng)已成功應用于電子商務、通信、互聯網、物聯網等相關企業(yè)。作為一款適用于大規(guī)模結構化數據存儲和在線分析的新型數據庫,BigBase主要適用于三個方面的應用:一是大規(guī)模的數據庫應用,當數據庫中一個單表的記錄大于1億條時,必須使用類似BigBase的新型數據平臺;二是高流量的應用,大量的流式數據要高速地寫入到系統(tǒng)中; 三是應用于在線分析,要求實時獲得查詢結果,同時還要滿足多個用戶的并發(fā)查詢需求。

BigBase的出現成功地解決了傳統(tǒng)數據庫遇到海量日志類數據分析時無能為力的問題。BigBase在設計上不同于傳統(tǒng)的關系型數據庫,而是屬于典型的NoSQL數據庫。與所有NoSQL數據庫一樣,BigBase主要用于對數據的高并發(fā)讀寫和海量數據的存儲。BigBase在架構和數據模型方面進行了簡化,同時增強了系統(tǒng)的擴展能力和并發(fā)能力。

與絕大多數NoSQL數據庫不同,BigBase還擁有自己獨特的優(yōu)勢,主要包括以下四方面:第一,具有高吞吐率,數據寫入速度達到每臺服務器每秒100萬條記錄以上,比傳統(tǒng)關系型數據庫的速度快100倍以上,數據查詢時間為毫秒級;第二,可以實現服務端的計算,提供NoSQL數據所不具備的區(qū)間查詢以及服務端統(tǒng)計計算能力;第三,具有更高的數據壓縮率;第四,實現了軟硬件一體化,通過專用的服務器硬件和數據壓縮技術,可以更大程度地提高系統(tǒng)的處理性能。

BigBase已經成為海量數據在線分析的利器。目前,大數據的商業(yè)價值逐漸受到用戶的肯定。傳統(tǒng)商業(yè)智能系統(tǒng)中用于分析的數據,大多是企業(yè)自身信息系統(tǒng)所產生的標準化和結構化的運營數據,這些數據只占企業(yè)所能獲取數據的不足15%。另外85%的非結構性和半結構性數據廣泛存在于社交網絡、物聯網、移動計算、傳感器和電子商務等媒介之中。企業(yè)如果能將這些新的數據與業(yè)務進行融合,那么依此做出的決策會更加準確。

篇7

關鍵詞:城市交通;空氣質量監(jiān)測;移動物聯;公共交通;大數據

空氣質量監(jiān)測作為促進經濟社會綠色發(fā)展中的重要一環(huán),以往的技術研究和應用大多存在固定監(jiān)測站成本高、覆蓋范圍不全、難以實時反饋等問題[1]。目前,在大力推行清潔生產,發(fā)展循環(huán)經濟的背景下,我國的城市空氣質量雖有好轉,但由于機動車的快速增加,尾氣排放加劇,大氣環(huán)境污染治理依舊嚴峻[2-3],亟需完善空氣質量監(jiān)測方法和機制,推進空氣污染治理智能化進程。當前,國家在大多數城市布設或完善了顆粒物、氣體監(jiān)測設備,形成了國省控點結合的地面污染源檢測網。然而,傳統(tǒng)監(jiān)測模式存在覆蓋范圍不大、數字化水平不高、監(jiān)測與監(jiān)管結合不緊密、監(jiān)測數據質量有待提高等問題,且固定監(jiān)測點成本投入較大、只能靜態(tài)收集污染數據、不能實時掌握和反饋、日常維護復雜,難以滿足大氣污染治理的綠色發(fā)展需求[4]。由于交通工具的移動特性,若在交通工具上安裝多種傳感器,便能在城市中獲取覆蓋范圍廣,頻率高的動態(tài)感知數據用以相關研究,彌補固定傳感器靜態(tài)感知的不足[1]。有研究指出可以通過可移動的傳感器來感知城市空氣質量[5-6],利用車輛的移動性來對城市的整體空氣質量進行細粒度感知,彌補固定地面空氣監(jiān)測站的不足。然而,目前仍未見有系統(tǒng)的研究及規(guī)模應用。因此,面對我國空氣污染的嚴峻形勢,亟需采取新方法實現空氣污染治理智能化,并進行應用實踐?;诖?,本文開展了基于移動物聯的空氣質量監(jiān)測大數據融合分析應用研究。利用公交系統(tǒng)覆蓋范圍廣,運行軌跡、時間和發(fā)班間隔穩(wěn)定的特點,在公交車輛上搭載移動空氣質量監(jiān)測設備實時采集PM2.5、PM10等空氣污染物監(jiān)測數據,并與車輛定位等數據進行融合,對各污染物進行動態(tài)監(jiān)測,全面掌握路段區(qū)域空氣質量污染的時空差異性,快速識別出污染因子,掌握其擴散與傳播機理,并在廣州市進行實踐應用,助力空氣治理智能化、數字化轉型。

1研究框架概述

研究技術框架主要包括四個部分:①數據采集。通過安裝在公交車上的車載移動式空氣微型監(jiān)測傳感器,實時采集大氣環(huán)境中的PM2.5、PM10等信息,車載GPS定位器可實時采集車輛的GPS位置信息,攝像頭可以采集車輛運行時的環(huán)境視頻數據。②數據傳輸。本研究采用標準的環(huán)保部通訊規(guī)范協(xié)議,將實時采集到的PM2.5、PM10、車載GPS數據,視頻數據傳輸至網格化在線監(jiān)測系統(tǒng)軟件平臺。③數據分析?;诙嘣创髷祿诤戏治?,提供實時、準確、可視的管理決策依據,支撐政府環(huán)保部門對空氣質量的監(jiān)測和分析挖掘,可指導提出有效的整改措施,實現治理工作的全面協(xié)同和問題的高效辦理,使空氣污染治理更加精細化、智能化,促進降本增效。④信息。應用可在公交車載屏幕上展示監(jiān)測信息,為乘客提供實時空氣質量信息服務,也可以通過手機APP移動端向市民空氣質量相關信息。研究的整體框架圖如圖1。本文充分利用現有公共交通資源搭載移動式空氣微型監(jiān)測站,既能有效降低建設和維護成本,又彌補了固定監(jiān)測點覆蓋面不廣的短板。通過固定與移動監(jiān)測的動靜結合,使兩種監(jiān)測方式采集的數據相互補充,相互校準,真正實現空氣污染的全面監(jiān)測。同時,在數據分析過程中,有效地融合多源數據,有助于實現空氣監(jiān)測區(qū)域化、精準化、智能化,減少人力巡查和治理投入。

2監(jiān)測原理及設備安裝布點選線

2.1監(jiān)測原理

本文采用激光光散射法原對空氣質量進行監(jiān)測。監(jiān)測傳感器主要由激光源、測量腔、透鏡組、光檢測器、濾波放大電路、微處理器元器件等組成,工作時,由激光源發(fā)出的激光通過透鏡組形成一個薄層面光源。當其照射在由氣流吹入測量腔內的氣溶膠時,會產生散射光。散射光經過透鏡組再照射到光檢測器上面時,會產生電信號,經過放大電路生成模擬信號,得到散射光強度的變化曲線。微處理器可基于米氏理論算法,得到顆粒物的等效粒徑和顆粒數量,從而輸出結果。作為傳感器的載體,公交車輛具有以下特性:①行駛時間一般為6:00-22:00,可滿足對空氣質量監(jiān)測的時間段要求;②運行軌跡固定,能夠滿足對特定路線和區(qū)域進行持續(xù)監(jiān)測的需求;③公交車輛發(fā)班間隔時間一般不超過15分鐘,可滿足對空氣監(jiān)測的頻次要求;④公交線路覆蓋范圍廣,可以監(jiān)測城市大部分區(qū)域內的空氣質量水平。在公交車輛運行時,通過安裝在公交車上的傳感器,可實現對空氣中PM2.5,PM10等污染物數據的采集,同時,車載GPS和攝像頭等設備可實時采集公交車輛運行的位置和環(huán)境視頻等數據,為空氣質量監(jiān)測大數據融合分析提供基礎。

2.2監(jiān)測設備安裝與布點選線

2.2.1監(jiān)測設備安裝選擇合適線路的公交車輛安裝數據采集設備。采用車頂安裝方式,利用設備底部的強力磁鐵,無需對車體進行改裝,直接放置即可與車頂牢固連接在一起。車載微站主機安裝在公交車前端應急逃生口后側,將主機磁體部分向下吸附在安裝車輛車頂即可,主機電源線順延車頂至公交車前門防水刷處,線纜加套波紋管并使用玻璃膠固定,可防止因為長時間暴曬造成線纜老化。使用玻璃膠對波紋管進行固定,可防止在車輛形成過程中造成不必要的刮蹭。2.2.2監(jiān)測布點選線試點應用城市此前所使用的空氣質量監(jiān)測手段主要為地面固定監(jiān)測站,存在成本投入高、難以實時跟蹤污染情況等短板[15]。為了滿足更高的環(huán)境治理要求,有必要采用更加科學、高效且經濟的監(jiān)測方式。基于重點監(jiān)測區(qū)域和最大化覆蓋范圍原則,選擇合適的公交線路。根據公交線路分布情況,共選擇21條線路,225臺公交車輛,監(jiān)測范圍覆蓋10個國控站點,確定研究應用試點范圍,數據采集時間段為每天6:00-22:00及政府環(huán)保部門指定的其他時間段。

3研究應用場景

通過數據采集、挖掘分析,可實現空氣質量動態(tài)監(jiān)測和智能決策治理。具體研究應用場景如下:

3.1多源大數據融合的實時監(jiān)控

融合車載GPS數據以及實時采集到的PM2.5、PM10等污染物的含量數據,可形成帶有每個路段,每種污染物實時污染程度的電子地圖,形成實時路段熱力圖及三維熱力圖;融合車輛運行所采集到的視頻數據和實時空氣質量數據,可以迅速定位污染源,初步確定污染原因,如道路施工揚塵,工廠工業(yè)氣體排放等。

3.2污染因子識別

實現各污染物多時空維度的實時動態(tài)監(jiān)測和分析,能夠全面掌握路段區(qū)域空氣質量污染的時空差異性。通過多維時空交叉統(tǒng)計分析,快速識別出污染因子。(圖2)

3.3數據存儲與動態(tài)分析預測

對至少1年的實時數據及至少3年的平均數據(包括車輛衛(wèi)星定位、視頻監(jiān)控、空氣質量等)進行存儲,根據路段及時間對數據進行統(tǒng)計分析,供用戶可視化查詢。此外,可對監(jiān)測數據的變化趨勢進行動態(tài)分析、預測,并疊加歷史數據進行綜合對比分析,提供可視化界面供用戶查詢。

3.4大數據驅動的智能化閉環(huán)治理設定

PM2.5、PM10等污染物的濃度預警限值,實時動態(tài)告警。同時,基于公交車輛運行的規(guī)律性,可對指定監(jiān)測區(qū)域或時段進行重點監(jiān)測。通過挖掘監(jiān)測大數據價值,掌握污染源的時空分布規(guī)律,快速鎖定污染源位置及傳輸方向。通過多維度智能分析,支撐提出有針對性的治理手段,跟蹤反饋治理效果,形成閉環(huán)。

3.5基于移動物聯的多源信息服務

將空氣質量監(jiān)測采集數據與車載數據進行融合,實現信息交互,可在公交車載屏幕上展示監(jiān)測信息,為乘客提供實時信息服務,也可通過手機APP移動端向市民空氣質量相關信息,提高公眾環(huán)保參與意識,促進經濟社會綠色健康發(fā)展。

4結束語

篇8

當一家企業(yè)的推銷員拿著產品挨家挨戶推銷時,另一家同類產品企業(yè)足不出戶,就已通過互聯網采集到大量的數據,并對海量的碎片化數據進行深挖和分析,從而為客戶提供更好的服務。

后者采用的方式正屬于“大數據分析”的范疇。作為國內領先的數據分析公司,國雙科技在此領域已深耕數年。其年輕的創(chuàng)始人、CEO祁國晟接受《財經界》記者采訪時表示,相對于傳統(tǒng)的線下營銷,大數據分析能更精準、快速地從海量數據中挖掘出有效的價值,并可以直觀明了的方式度量結果。

不過,他同時坦言,作為一個新興領域,受安全、人才等因素的影響,大數據分析還有待市場的進一步認可。

“大數據推動快速發(fā)展”

國雙科技是從2005年開始做數據生意的。“當時還不叫‘大數據’,也沒有‘云計算’的說法,業(yè)內的普遍觀點是通過互聯網提供軟件服務,叫做SaaS(軟件即服務)?!逼顕烧f。

談到大數據,祁國晟認為這是一個相對的概念,“大數據不是單純說數據量有多大,它至少包含了三方面的要求:數據量大、對于數據的分析深度要求高、時效要求快。當這三個問題擺在一起,而傳統(tǒng)的IT不能解決的話,這就是一個大數據問題?!边@個概念是近兩年才熱起來的,一經提出,迅速被IT和互聯網行業(yè)廣泛認同;對大數據進行有效分析和應用能夠為組織帶來價值,很快成為共識。

國雙科技數年前就開始向客戶提供“數據分析”相關的服務,涉及電子政務咨詢、運營商數據分析、網絡電視臺解決方案、搜索引擎營銷、廣告效果量化、用戶體驗優(yōu)化、移動應用解決方案等,“我們已經服務了數百家企業(yè)和政府機構,核心技術現如今已覆蓋到網站、移動APP、互聯網電視等多領域的數據分析,并通過結合整合營銷方案AdSuite、SEO(搜索引擎優(yōu)化)、SEM(搜索引擎營銷)、UEO(用戶體驗優(yōu)化)提供給客戶?!逼顕山榻B說。

經過幾年的技術和數據積累,加上“大數據”概念在國內的走熱,祁國晟專注的數據生意開始釋放能量。據悉,2011年,國雙科技實現銷售收入增長10倍以上,2012年同樣保持著這樣的增長態(tài)勢。就在最近,國雙科技入選“2013 德勤高科技、高成長中國50強”榜單。

在祁國晟看來,國雙科技得到快速發(fā)展是必然的,因為不僅公司有技術創(chuàng)新,市場也有“剛性”需求?;ヂ摼W的超高速發(fā)展,帶動數據量急速膨脹,即使硬件一步一步升級,數據處理的速度也趕不上數據產生的速度;即使用戶可以從一些現有數據庫廠商那里買來解決方案,也解決不了用戶對數據挖掘的深度和量級的需求。

而從國際上來看,大數據分析也在成為大企業(yè)的“制勝法寶”。比如,沃爾瑪“顧問式營銷”就是以大數據為支撐。在其全球的任何一個賣場,顧客購買任何一件產品,其購物信息都會即時傳送到沃爾瑪的企業(yè)級數據倉庫,并實時地進行分析,并及時挖掘到也許連顧客自己都不清楚的潛在購物需求。日本服裝品牌優(yōu)衣庫也通過對銷售的每一件服裝的相關數據進行分析,并根據其結果來進行新品設計和生產,確保其深得世界各地用戶的喜愛。

同時,數據分析不受行業(yè)的限制?!拔覀兊挠脩粢押w汽車、食品、快消、旅游、金融等各個行業(yè)?!逼顕烧f。

市場有待進一步拓展

然而,從目前國內外大數據營銷市場情況看,熱衷于此的似乎都是上規(guī)模、具有核心競爭力的大企業(yè),中小企業(yè)較少問津。

國雙科技的情況也是如此。這個成立僅8年的本土企業(yè),服務的客戶也“鎖定”在規(guī)模相對較大的企業(yè)群,如中國人保財險、日產汽車、可口可樂、歐萊雅、央視國際、江蘇衛(wèi)視等。2012年3月,國雙科技獲得政府青睞,成為國家信息中心戰(zhàn)略合作伙伴,雙方共同成立了網絡政府研究中心,為全國的政府網站提供技術與服務。

祁國晟表示:“大企業(yè)機構更成熟、架構更完善,對精細化運營的要求更高,需要很詳細的數據分析和數據挖掘以降低成本。”

“而中小企業(yè)大多還處于跑馬圈地的階段,對他們來說,優(yōu)先考慮的是如何發(fā)展,”祁國晟認為,“雖然有些中小企業(yè)在發(fā)展階段對數據分析也有需求,但往往因為相關產品和服務費用較高而止步?!?/p>

“數據類人才短缺也是導致數據分析類產品和服務成本高的原因之一,”祁國晟說:“全球大數據行業(yè)都有這個問題,我國更加嚴重?!?/p>

因為缺少相關的技術人員,小企業(yè)即使有第三方數據公司提供的軟件系統(tǒng)也無法很好使用,必然還需要相應的服務;而服務成本又因為人才短缺相對較高,所以,矛盾必然出現。

對于國雙科技來說,人才同樣是個頭疼的問題?!拔覀冃枰叨葟秃闲偷娜瞬牛@樣的人才在市場上比較少,需要很長時間的培訓。因為缺人,我們有時候不得不放棄一些本來很優(yōu)質的客戶,” 祁國晟說:“我們寧可少做幾個客戶,也不能因為人手不足而降低服務質量?!?/p>

企業(yè)在委托第三方技術公司幫助其應用大數據方面,另一個擔憂來自于對數據安全的顧慮。事實上,目前,數據安全威脅已經可以通過技術手段加以防范。“企業(yè)數據安全有關的技術已經很成熟,通過加裝防火墻、密碼保護、存儲安全技術云計算等等多種IT手段,已經可以確保核心數據不被外泄或篡改?!?/p>

篇9

【關鍵詞】大數據分析 公共交通 醫(yī)藥 移動通信

所謂大數據,一方面是指在一定時間內無法被常規(guī)信息技術和傳統(tǒng)數據庫管理軟硬件工具感知、獲取和處理的巨量數據集合;另一方面,是指形成、管理、挖掘大數據, 快速搜集、處理、分析大數據的技術和能力。

大數據的主要特點是海量、非結構化和半結構化、實時處理。大數據技術,或大數據分析技術,就是對這些數量巨大的海量數據進行搜索、整理、分析、加工,以便獲得有價值的產品和服務,以及提煉出具有深刻見解和潛在價值信息的技術和手段。

1 大數據分析在公共交通中的應用

交通擁堵日益嚴重,交通事故頻繁發(fā)生,這些都是各大城市亟待解決的問題,科學分析交通管理體系成為改善城市交通的關鍵所在。因此,高效、準確地獲取交通數據是構建合理城市交通管理體系的前提,而這一難題可以通過大數據管理得到解決。

大數據分析技術改變了傳統(tǒng)公共交通的路徑:大數據可以跨越行政區(qū)域的限制;大數據可以高效地整合交通信息;大數據可以較好地配置公共交通資源;大數據可以促進公共交通均衡性發(fā)展。在大數據中,隨著數據庫攝入更多數據,所消耗的計算工作量反而遞減,配置成本也隨之減小,但所做的計算則更加精準。大數據在公共交通中的應用表現在:一旦某個路段發(fā)生問題,能立刻從大數據中調出有用信息,確保交通的連貫性和持續(xù)性;另一方面,大數據具有較高預測能力,可降低誤報和漏報的概率, 可隨時針對公共交通的動態(tài)性給予實時監(jiān)控。因此,在駕駛者無法預知交通擁堵的可能性時,大數據可幫助用戶預先了解。

2 大數據分析在醫(yī)藥領域中的應用

在醫(yī)學領域,我們正處在一醫(yī)學信息爆炸的時代?;蛐蛄?、各種醫(yī)學圖像、電子病歷記錄和多中心臨床藥物試驗等,使生物醫(yī)學領域跨入網絡化的大數據時代。如何從醫(yī)療大數據中提取出有用的信息是目前亟待解決的問題,構建醫(yī)療大數據系統(tǒng)需要將各家醫(yī)院通過互聯網連接,實現各家醫(yī)院之間的數據共享。將醫(yī)療數據存于專門的數據庫中,在信息協(xié)作平臺上將各種醫(yī)療信息分類整合,建立成一個相互共享的網絡,從而實現醫(yī)療數據信息的共享。

大數據技術的核心就是預測,使用大數據分析技術可以提高診斷疾病的準確率,對有效地治療疾病具有重要價值。其中最好地體現在傳染病預測上,因為傳染病的發(fā)生、發(fā)展、分布與地理地貌、生態(tài)景觀、人文環(huán)境有密切關系,特別在全球氣候變化和經濟全球化背景下,自然環(huán)境及人類社會活動對傳染病的影響越來越重要。因此,時間和空間信息對傳染病的預測、預警具有重要意義。利用大數據可對傳染病疫情的時間、空間信息進行多維搜索,檢索、處理和分析這些疫情信息可實現對傳染病的流行趨勢及影響范圍進行預測、預警,對提高傳染病防控的針對性、預見性和主動性,抑制流行病的蔓延,以及制定衛(wèi)生決策都具有十分重要的意義。

3 大數據分析在移動通信網絡優(yōu)化中的應用

當前的大數據技術面臨著數據過大和安全隱患越多這兩個問題。在移動通信網絡發(fā)展的過程中,網上用戶在不斷增加,通信網絡的范圍在不斷擴大, 而移動通信網絡所產生的數據量也在不斷上升。大數據技術和移動通信網絡的安全問題密切相關,一旦技術出現漏洞,移動通信網絡的數據就會出現安全隱患。大數據技術中存儲功能的是云儲存技術,它將大量的網絡數據放在統(tǒng)一的平臺之上,加大了數據丟失的風險,影響移動通信網絡的安全。

優(yōu)化移動通信網絡,需要運用大數據技術的儲存功能。移動通信網絡的用戶在不斷變化,每天都要更新大量的數據,而且這些數據都需要進行妥善管理和保存。在這一過程中,可以應用大數據技術的存儲功能, 將存儲虛擬化作為解決存儲問題的有效策略。

優(yōu)化移動通信網絡,需要獲取相關的數據信息。移動通信網絡的用戶非常多,而且其所跨越的時間、空間維度都很大,這些用戶在移動通信網絡留下的海量的數據信息,使數據獲取工作難以繼續(xù)。在進行數據的獲取和收集工作時,移動通信網絡可以應用大數據技術,減少人力和物力的投入,同時增加數據的準確度。

4 結語

本文是大數據技術在實際生活領域的應用,分別闡述了大數據分析技術在公共交通、醫(yī)藥領域、移動通信網絡優(yōu)化中的具體運用。借助大數據技術的即時性、準確性和預測性,將其應用到人們的日常生活領域,提高了人們的生活質量。

參考文獻

[1]陳美.大數據在公共交通中的應用[J]. 圖書與情報,2012(06):22-28.

[2]張春麗,成.大數據分析技術及其在醫(yī)藥領域中的應用[J].標記免疫分析與臨床,2016(03):327-333.

[3]汪敏,廖名揚.大數據分析在移動通信網絡優(yōu)化中的應用研究[J].通訊世界,2017(02):123.

[4]祝興平.大數據分析技術及其在數字出版中的應用[J].出版發(fā)行研究,2014(04):13-16.

[5]程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數據系統(tǒng)和分析技術綜述[J]. 軟件學報,2014(09):1889-1908.

作者簡介

段雯瓊(1996-),女,河南省漯河市人。大學本科學歷。研究方向為通信、互聯網。

篇10

現在的大數據的后面是個大冰川,海平面上的普通人一般能看見,海平面以下是專業(yè)人士能看見的。Linkedin內部大約有起碼20種不同的數據庫,就是完全不同的技術的數據庫,還不包括同樣一種數據庫有不同的應用。但實際上我們真正的內部企業(yè)用戶,包括Linkedin本身,需要的不是一個大冰川,需要的最后是冰激淋,就想把結果出來就行,他不需要大冰川。

怎么能做到這個冰淇淋呢?咱們講講數據分析的變革。基本大數據分析的三個原則,這個基本的原則是我大約加入Linkedin9個月以后我們決定下來的。我們如果要做一件最重要的事的話,那個事需要有三個屬性:

第一個簡單,他出來的結果必須要非常非常簡單,沒有任何花哨的東西,任何人都能夠看明白看懂。

第二個迅速,就是剛才說的速度的問題,越慢結束度越低,越快接受度越高。當然在Linkedin使用的是藍圖法則,3秒鐘的法則。

第三就是要規(guī)模化,規(guī)?;鬟@的角度來說,我們當時思考的方法是這樣的,希望Linkedin內部所有的員工每一個人都能夠用數據來分析幫他們做決策,很快的做決策。

怎么做到這一點?

第一步,我們需要建立一個真正的金字塔。分析師不應該從數據開始,他必須要從客戶、產品、市場、銷售開始,也就是說明白公司怎么能做到這件事。他必須要明白如何在這種層面標記未來的事物,標記比數據本身重要得多。分析師本身要分析自己以后要分析什么,這樣才能把正確標記加到數據庫里面去。他還必須要明白,數據庫之間的公用,流程,每種數據是怎么分工的。

下面就干活了。在Linkedin有一個不成文的共識,你做的東西不僅僅是有趣是不夠的,必須要注重執(zhí)行性。我分析到這個結果以后到底能做什么,這是很重要的。說完了做以后咱們就走到決策,決策本身一定要實現增加商業(yè)的價值,或為團隊增加價值。

第二步是規(guī)?;?。需要用科技來把金字塔變成一個非常小的底,而大的中心,最小的一個尖的一個過程。舉個例子,Linkedin我待的九個月之內和另外一個同事合作,完成了500個不同的需求項目和模型,但是當年我們其實直接支持兩百個人,500&pide;200,每年我才回答2.5個問題,這絕對是非數據驅動。后來我們決定是把整個做一個系統(tǒng),來模擬以前我們兩做的大部分工作,這個系統(tǒng)響應3秒鐘,簡單的規(guī)?;?,大概花了三個月,五個人,在內部支持銷售的,在今天為止每天這個系統(tǒng)可以服務1000個銷售員工,大約用這個系統(tǒng)十次,用一次大約時間是3秒到一分鐘,這個系統(tǒng)一天就能做到以前我們兩個人做不到的事情,這就是一個規(guī)?;慕Y果。當年出來結果是我們銷售增長了175個百分點。