對計算機視覺的理解范文

時間:2023-12-22 18:02:34

導語:如何才能寫好一篇對計算機視覺的理解,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

對計算機視覺的理解

篇1

關鍵詞:國庫集中支付制度 高校 預算管理

在我國財政預算管理改革中,國庫集中支付制度是一個非常重要的內容,它是我國在財政改革中的一項重大舉措。所謂國庫集中支付制度就是政府將所有財政性資金統(tǒng)一納入國庫單一賬戶體系管理中,所得的收入直接繳入國庫或財政專戶,支出時通過國庫單一賬戶體系支付到商品和勞務供應者或用款單位。目前,國庫集中支付制度逐漸進入到了高校中,并且開始全面實施,這給高校的預算管理產(chǎn)生了非常大的影響,新形勢下怎樣對預算管理工作進行完善與加強是高校面臨的一個重要問題。

一、國庫集中支付制度下對高校預算管理的影響

國庫集中支付制度在高校全面實施以后,財政資金不再直接下?lián)艿礁咝?,而是由高校根?jù)財政部門審核通過的部門預算編制用款計劃,報經(jīng)財政部門批復后,根據(jù)批復的計劃,在這個計劃之內以財政授權支付以及財政直接支付兩種方式來對資金進行使用,而不是以前的將財政資金直接下?lián)艿礁咝V小_@就給高校預算編制提出了更高要求,對高校預算管理產(chǎn)生了重要影響。

(一)預算編制趨于科學與準確

我國實行國庫集中支付制度以后,財政依照實際支付數(shù)反映支出,對于一些專項經(jīng)費以及人頭經(jīng)費則是直接支付,高校不能隨意把項目與用途進行改變,這就要求高校及其下屬單位必須如實申報用款計劃,建立科學合理的預算定額和指標體系,最大可能對預算予以細化,讓學校所有的財政性資金的支付都能以明細預算為前提,對年度支出進行一個詳細安排,從本質上讓學校預算編制趨于科學和準確。

(二)預算執(zhí)行趨于嚴肅與合理

在國庫集中支付制度下,必須提出一個比較詳盡的論證報告以及預期效益才能實施專項經(jīng)費,預算執(zhí)行與財政資金的實際支出在時間上一致,這樣可以從源頭上促使單位按預算規(guī)定執(zhí)行,避免亂挪亂用財政資金的現(xiàn)象發(fā)生,預算單位所要支付的每一筆資金的具體使用情況都可以進行全過程監(jiān)控,有效提升了財政資金運轉的透明度,增強了監(jiān)管力度,預算執(zhí)行逐漸趨于嚴肅與合理。

(三)預算管理趨于規(guī)范與高效

在傳統(tǒng)的預算管理中,多頭開設賬戶普遍存在于各個高校中,造成預算內轉預算外以及賬外賬等情況的發(fā)生,這不但使資金管理混亂不堪以及效率低下,還極容易引發(fā)腐敗。在國庫集中支付制度下,高校對現(xiàn)有的預算編制、銀行清算制度、收付程序以及預算執(zhí)行等進行了不同程度的修改,建立起了統(tǒng)一的預算資金申請和撥付體系,對預算資金的管理和使用進行了更進一步的監(jiān)督約束,預算管理逐漸趨于規(guī)劃與高效。

二、高校預算管理中存在的問題

(一)對預算管理不夠重視

受長期以來預算管理不嚴格以及制度不健全的影響,一些高校部門負責人對國庫集中制度下的預算管理不夠重視。在實施預算編制時,只是被動接受下達的預算指標,不能把各個部門理財?shù)姆e極性充分調動起來。許多高校在申報預算程序時不夠明確,預算編制主要由財務部門個別人員參與,預算數(shù)據(jù)也只是在往年的開支基礎上進行簡單的加減,編制預算成為“數(shù)字游戲”,甚至有的高校在財務上仍實行“報賬式”的管理模式,這就讓學校的發(fā)展規(guī)劃和資金供給嚴重不符。

(二)預算信息系統(tǒng)不夠完善

在部門預算、國庫單一以及政府采購賬戶實行以后,許多高校的預算軟件沒有和以往使用的會計賬務管理軟件進行聯(lián)網(wǎng),政府采購、國庫支付以及部門預算三個軟件比較單一,不能從根本上實現(xiàn)數(shù)據(jù)的共享。

(三)實行的編制方法不夠科學

目前,許多高校的預算編制方法都采用傳統(tǒng)的增量預算,也就是在確定年度預算的時候以上一年的實際支出為基礎,在這個基礎上考慮下一年度財政收支的各種因素變化。此方法簡單而且易行,但是很容易形成一個剛性支出,對支出數(shù)額以及支出結構的調整與優(yōu)化有著不良的影響。又由于基數(shù)中包含有許多不科學以及不合理的因素,用增量預算方法編制的預算只能是一年一年增加,資金的供需矛盾被加劇,預算中的平均主義會滋長出來。

(四)編制范圍不夠完整

當前,許多高校的資金逐漸呈現(xiàn)出多元化現(xiàn)象,學校中的各個院系以及各個部門通過多渠道創(chuàng)收的資金收入和有關的支出都沒有全部納入到預算當中,與預算管理相脫離,相關的主管部門對學校專項經(jīng)費撥款不確定,不能很好的在年初部門預算中反映,只能實行在年中進行追加的方式,尤其是對項目的確立比較滯后,預算指標不能及時進行下達,導致預算內容不健全,預算不完整,收支的口徑和核算的口徑出現(xiàn)偏差,對預算執(zhí)行的有效考核缺乏一個可比性。

三、加強高校預算管理的措施

(一)更新管理觀念

在國庫集中支付制度下,高校在預算中要積極更新管理觀念,把各個部門參與預算管理的積極性給充分調動起來。其一,高校財務部門要改變過去的僅看重分配的舊觀念,要積極將預算轉變?yōu)檫^程管理,在實施過程中對學校中的每一項預算都要進行全過程管理,把預算的事前控制作用突顯出來,讓預算逐漸向微觀管理層次遞進。其二,要注重以人為本和廣泛參與意識。在高等學校中,預算管理就似“一盤棋”,需要各個部門之間的相互協(xié)調、相互配合以及及時溝通,為預算管理的良好方法提出意見,避免因為主體和客體之間交流不足而出現(xiàn)預算管理的負面效應情況發(fā)生。

(二)健全管理系統(tǒng)

為了使高校預算編制更加準確與合理,就必須對預算編制基礎數(shù)據(jù)的搜集以及整理工作進行加強,用現(xiàn)代科學技術為部門預算提供必要的信息保障,增強預算管理的信息化。各個高校要整合現(xiàn)有的應用系統(tǒng),建立一個綜合性的信息平臺,將以往的預算系統(tǒng)單機版改為網(wǎng)絡版,對預算指標管理、專項支出項目庫、管理預算基礎信息、預算執(zhí)行檢測分析以及預算編制審查等工作進行合理統(tǒng)籌,在網(wǎng)絡上將各項預算數(shù)據(jù)與執(zhí)行情況進行,控制人員可以隨時進行調用,對預算的執(zhí)行情況和財務狀況進行查詢,對各責任單位的業(yè)務活動實行全面控制,發(fā)現(xiàn)問題及時解決,對預算執(zhí)行時出現(xiàn)的偏差進行糾正。

(三)嚴格編制程序

高校在預算管理中要做到公開、公平和公正,對于一些重大的項目要由專門的機構進行論證,杜絕那些“小頭大尾”工程的出現(xiàn),對教育資源造成很大浪費。在對預算進行編制時,各個高??梢园蚜慊?、滾動和彈性等預算法有效結合起來,把預算主體的活動和目標及趨勢融合在一起,使編制的預算能夠在以效益為中心的基礎上具有現(xiàn)實性以及可行性。對年度為單位的預算要運用零基預算式的編制方式。對于那些比較長遠的預算,則應用彈性預算式的編制方式。

(四)健全管理機制

在高校中,預算管理機制由評價、激勵、控制以及決策組成。所謂預算管理的評價機制就是當預算活動結束以后,要對預算執(zhí)行的結果進行評價,為以后的預算管理制定提供一個良好信息;對于激勵機制就是運用不同的激勵手段把管理主體的行為動機激發(fā)出來,調動他們的積極性與主動性;控制機制在預算管理中不可或缺,它是依照預算目標的要求來對預算績效的標準進行確定和衡量,將實際的執(zhí)行情況和預算標準進行比較,確定預算執(zhí)行時出現(xiàn)的偏差,在這個基礎上進行調節(jié);預算管理決策機制是核心,它主要目的就是通過科學而又合理的決策,對預算目標做出正確合理的規(guī)劃。

(五)提高綜合素質

高校的財務人員要加強學習,掌握預算運作情況,提高發(fā)現(xiàn)問題、總結問題以及解決問題的能力,為良好的預算管理打好基礎。要注重去社會上學習新的知識和好的經(jīng)驗,各個高校之間要互動交流,逐漸探求預算管理的有效方法,通過這種互動交流,不但開闊了認知視野,還可以學到優(yōu)秀的管理經(jīng)驗。同時,高校的財務人員要重視觀念的更新,把專業(yè)知識與財務管理結合起來,發(fā)揮自身的參謀作用,實現(xiàn)從傳統(tǒng)的核算型會計到管理型會計的轉變。

四、結語

我國實行國庫集中支付制度,改變了過去傳統(tǒng)的資金管理方式,是財政資金的全新模式,具有比較強的行業(yè)特征以及獨立性,這就讓具有自身行業(yè)特點的高校財政部門面臨著很大挑戰(zhàn),會計業(yè)務更加繁多復雜,廣大高校只有明確方向,積極溝通,在實踐中進行探究,逐步完善校內的預算管理制度,才能真正適應國庫集中支付制度的改革,也才能促進高等教育事業(yè)的健康、穩(wěn)步發(fā)展。

參考文獻:

[1] 孫惠娟.國庫集中支付制度改革研究[J].行政事業(yè)資產(chǎn)與財務,2013(01)

[2] 姜亞萍.淺談國庫集中支付制度下教育系統(tǒng)內部審計的對策[J].財經(jīng)界,2013(02)

[3 朱生明,張彩玲,王瑛.對推進國庫集中支付制度改革的幾點思考[J].財會研究,2012(23)

篇2

關鍵詞:計算機視覺;案例推理;圖像處理;圖像描述

中圖分類號:TP391.41 文獻標識碼:A文章編號:1009-3044(2007)04-11102-03

1 引言

基于案例推理(case-base reasoning)是人工智能中正不斷發(fā)展的一項重要推理技術?;诎咐评砼c類比推理方法相似,案例推理將舊經(jīng)驗或教訓轉換為知識,出現(xiàn)新問題時,首先查找以前是否有相似的案例,并用相似案例解決新問題。如果沒遇到相似案例的,經(jīng)過推理后解決新問題的方法,又會成為新的案例或新經(jīng)驗,下一次再遇到相同問題時,就可以復用這些案例或經(jīng)驗。

這與人遇到問題時,首先會用經(jīng)驗思考解決問題的方式相似,這也是解決問題較好的方法。基于案例推理應用于工業(yè)產(chǎn)品檢測或故障診斷時具有以下特點:

CBR智能化程度較高。利用案例中隱含的難以規(guī)則化的知識,以輔助規(guī)則推理的不足,提高故障診斷系統(tǒng)的智能化程度。

CBR較好解決“知識獲取”的瓶頸。CBR知識表示以案例為基礎,案例的獲取比規(guī)則獲取要容易,大大簡化知識獲取的過。

CBR求解效率較高。是對過去的求解結果進行復用,而不是再次從頭開始推導,可以提高對新問題的求解效率。

CBR求解的質量較高。CBR以過去求解成功或失敗的經(jīng)歷,可以指導當前求解時該怎樣走向成功或避開失敗。

CBR持續(xù)不斷的學習能力,使得它可以適應于將來問題的解決。

所以基于案例推理方法正不斷應用在產(chǎn)品質量檢測和設備故障診斷方面,并取得較好的經(jīng)濟效益。為了產(chǎn)品檢測和設備故障診斷中,更為智能化,更容易實現(xiàn)現(xiàn)場檢測和診斷,計算機視覺技術起到很大的作用。

計算機視覺是研究用計算機來模擬人和生物的視覺系統(tǒng)功能的技術學科,使計算機具有感知周圍視覺世界的能力。通過計算機視覺,進行圖像的獲取預處理、圖像分割與特征抽取、識別與分類、三維信息理解、景物描述、圖像解釋,讓計算機具有對周圍世界的空間物體進行傳感、抽象、判斷的能力,從而達到識別、理解的目的。

計算機視覺隨著科學技術發(fā)展,特別計算機技術、通信技術、圖像采集技術、傳感器技術等,以及神經(jīng)網(wǎng)絡理論、模糊數(shù)學理論、小波的分析理論等計算機視覺理論的不斷發(fā)展和日趨成熟,使計算機視覺從上世紀60年代開始興起發(fā)展到現(xiàn)在,取得快速發(fā)展,已經(jīng)從簡單圖像質量處理發(fā)展到圍繞著紋理分析、圖像編碼、圖像分割和濾波等研究。圖像的分析與處理,也由靜止轉向運動,由二維轉向三維,并主要著眼于對圖像的識別和理解上,也使計算機視覺的應用領域更為廣泛,為案例推理中運用計算機視覺打下基礎。

2 案例推理系統(tǒng)的主要關鍵技術

(1)案例的表示與組織

案例的表示與組織即是如何抽取案例的特征變量,并以一定的結構在計算機中組織存儲。如何將信息抽取出特征變量,選擇什么語言描述案例和選擇什么內容存放在案例中,案例按什么組織結構存放在存儲器中,這關系到基于案例推理方法的效率,而且對于案例數(shù)量越來越多,結構十分復雜的案例庫,尤其重要。

(2)案例的索引與檢索

案例的索引與檢索即是為了查找最佳相似案例,如何建立案例索引和相似度算法,利用檢索信息從案例庫中檢索并選擇潛在可用相似案例。后面的工作能否發(fā)揮出應有的作用,很大程度上依賴于這一階段得到的案例質量的高低,因此這一步非常關鍵。

(3)案例的復用和調整

案例的復用即是如何根據(jù)舊案例得出新解,涉及到找出案例與新問題之間的不同之處,案例中的哪些部分可以用于新問題,哪些部分不適合應用于新問題的解決。而復用還分案例的結果復用,案例的求解方法復用。

(4)案例的學習

案例的學習即是將新解添加到案例庫中,擴充案例庫的案例種類與數(shù)量,這過程也是知識獲取。此過程涉及選取哪些信息保留,以及如何把新案例有機集成到案例庫中,包括如何存儲,如何建立索引等等。

針對案例推理的關鍵技術,根據(jù)檢測和故障診斷系統(tǒng)的特點,計算機視覺主要解決如何將產(chǎn)品圖像輸入系統(tǒng),如何將產(chǎn)品圖像特征進行抽取和描述,如何區(qū)別產(chǎn)品不同之處。以便案例推理系統(tǒng)進行案例建模,確立案例的表示形成和案例相似度的計算。本文主要從計算機視覺如何運用在案例推理系統(tǒng)進行探討。

3 產(chǎn)品輸入系統(tǒng)

產(chǎn)品輸入系統(tǒng)在不同產(chǎn)品類型和生產(chǎn)環(huán)境可能有不同之處,主要應有傳感器單元和圖像采集單元。如圖1。

圖1 產(chǎn)品輸入系統(tǒng)結構

傳感器單元主要判斷是否有產(chǎn)品存在,是否需要進行圖像采集,是否繼續(xù)下一個產(chǎn)品圖像的采集。這簡單傳感器可使用光電開關,配合光源,當產(chǎn)品經(jīng)過時,產(chǎn)品遮擋住光源,使光電開關產(chǎn)生一個0值,而沒有產(chǎn)品經(jīng)過時,光電開關產(chǎn)生相反的1值,系統(tǒng)通過判斷光電開關的值,從而判斷是否有產(chǎn)品。

圖像采集單元簡單地說是將產(chǎn)品拍攝并形成數(shù)字化圖像,主要包括光源、反射鏡、CCD相機和圖像采集卡等組成。光源和反射鏡作用主要使圖像中的物體和背景之間有較大灰度。CCD相機主要是拍攝設備。圖像采集卡主要是將圖像數(shù)字化。通過傳感器判斷有產(chǎn)品后,光源發(fā)出的光均勻地照在被測件上,CCD相機拍攝,拍攝圖像經(jīng)過圖像采集卡數(shù)字化后輸入存儲設備。存儲設備即為計算機硬盤。存放原始圖像、數(shù)據(jù)、處理結果等。

這是案例推理系統(tǒng)的原始數(shù)據(jù),是圖像處理、圖像特征抽取描述的基礎。

4 圖像處理

在案例推理系統(tǒng)中,需要對案例的組織和案例建模,案例的組織即案例的表示,相對計算機而言,即圖像特征的抽取,即某圖像具有與其它圖像不同之處,用于區(qū)別其它圖像,具有唯一性。同時,又能完整地表示該圖像。所以案例的表示要體現(xiàn)案例的完整性、唯一性、操作容易性。

圖像中有顏色區(qū)別、又有物體大小之分以及圖像由不同的物體組成。如何表示圖像,或說圖像內部包含表示的本質,即圖像的描述。根據(jù)圖像特點,確立圖像案例的表示,以圖像的像素、圖像的數(shù)字化外觀、圖像物體的數(shù)字組成等屬性。這需要對產(chǎn)品輸入的原始圖像進行處理。

在計算機視覺技術中,對原始圖像主要進行圖像增強、平滑、邊緣銳化、分割、特征抽取、圖像識別與理解等內容。經(jīng)過這些處理后,輸出圖像的質量得到相當程度的改善,既改善了圖像的視覺效果,又便于計算機對圖像進行分析、處理和識別。具體工作流程如圖2所示:

圖2 計算機視覺的任務與工作流程

圖像預處理是將產(chǎn)品的數(shù)字圖像輸入計算機后,首先要進行圖像的預處理,主要完成對圖像噪聲的消除以及零件的邊緣提取。預處理的步驟為:圖像二值化處理;圖像的平滑處理;圖像的邊緣提取。

圖像二值化處理主將灰度圖形二值化的關鍵是閾值的選取,由于物體與背景有明顯的灰度差,可以選取根據(jù)灰度直方圖中兩峰之間的谷值作為閾值來分割目標和背景。

圖像的平滑處理技術即圖像的去噪聲處理,主要是為了去除實際成像過程中因成像設備和環(huán)境所造成的圖像失真,提取有用信息。

圖像邊緣提取是為了將圖像中有意義的對象與其背景分開,并使之具有某種指定的數(shù)學或符號表達形式,使計算機能夠理解對象的具體含義,檢測出邊緣的圖像就可以進行特征提取和形狀分析了??刹捎枚喾N算法,如采用Sobel算子提取邊緣。

圖像預處理是為下一步的特征描述打基礎,預處理的好壞直接影響案例推理的結果和檢測診斷的效率。

特征提取是對圖像進行描述,是案例建模關鍵,案例建模是根據(jù)案例組織要求抽取圖像特征,是建立案例索引和檢索的關鍵。如果圖像沒有特征,就談不上進行檢索。圖像特征可通過圖像邊界、圖像分割、圖像的紋理等方法,確定圖像特征,包括是什么產(chǎn)品、產(chǎn)品形狀大小、產(chǎn)品顏色,產(chǎn)品有什么缺陷、產(chǎn)品缺陷在什么位置等特征,根據(jù)這些圖像特征進行描述,形成計算機中屬性值,并從數(shù)據(jù)庫查找相應信息資料,從而確定產(chǎn)品之間的關系,相似度,也就是案例推理的方向。

5 系統(tǒng)的檢索

根據(jù)案例推理原理和相應算法,建立案例推理系統(tǒng)模型,如圖3所示。

圖3 案例推理系統(tǒng)

對話系統(tǒng):完成人機交互、問題描述、結果顯示和系統(tǒng)總控制。

案例庫系統(tǒng):由案例庫及案例庫管理系統(tǒng)組成。

數(shù)據(jù)析取系統(tǒng):對各種已有的源數(shù)據(jù)庫的數(shù)據(jù)通過轉換而形成所需的數(shù)據(jù)。

多庫協(xié)同器:根據(jù)問題求解的需要,按照一定的數(shù)據(jù)抽取策略,完成問題求解過程中對模型庫系統(tǒng)、方法庫系統(tǒng)、知識庫系統(tǒng)和數(shù)據(jù)庫系統(tǒng)等資源的調度與協(xié)調。

知識庫系統(tǒng):由產(chǎn)生式規(guī)則組成,這些知識包括專家經(jīng)驗和以規(guī)則形式表示的有關知識,也可以是數(shù)據(jù)挖掘結論,支持案例檢索、案例分析、案例調整等。 模型庫系統(tǒng):由模型庫、算法庫、模型庫管理系統(tǒng)組成。完成模型識別和調用,并把結果綜合,送入對話系統(tǒng)顯示,作為補充信息供案例檢索、調整使用。

數(shù)據(jù)庫系統(tǒng):存放待決策支持的所有問題,并完成其維護與查詢等功能。

由于系統(tǒng)主要應用產(chǎn)品的現(xiàn)場實時檢測監(jiān)控或故障診斷,所以系統(tǒng)的檢索時,也必須輸入檢索值,即輸入現(xiàn)場產(chǎn)品的圖像,在通過產(chǎn)品預處理、圖像的二值化、分割和邊界處理后,進行圖像特征描述,根據(jù)圖像描述進行分類識別。根據(jù)案例推理的算法檢索案例庫中,是否有相似的案例。即確定相似度。相似度確定主要由案例推理的算法確定,如貼近分析法。確定相似度最大作為結果,并將案例的解輸出,給相關控制系統(tǒng)進行決策。如產(chǎn)品質量檢測,確定產(chǎn)品質量是否合格,是否有不合格產(chǎn)品,不合格產(chǎn)品是什么原因造成,故障源是什么,如何解決和排除故障,等等。

6 結論

案例推理方法有效地解決計算機視覺技術中圖像檢索問題。對提高圖像檢索的效率和準確度提供了平臺。

計算機視覺技術也為案例推理系統(tǒng)實現(xiàn)產(chǎn)品現(xiàn)場實時檢測、監(jiān)控、診斷提供技術支持。計算機視覺技術現(xiàn)場的數(shù)據(jù)采集、處理為案例推理打好基礎。

兩者的結合設計的系統(tǒng)適用范圍很廣,只要產(chǎn)品需要進行質量檢測、監(jiān)控,或設備需要進行故障診斷和維護,都可以適用。

系統(tǒng)提供的實時檢測、監(jiān)控和診斷功能,提高企業(yè)的生產(chǎn)效益,降低了生產(chǎn)成本。

參考文獻:

[1](美)??希⊿onka,M).圖像處理分析與機器視覺[M].人民郵電出版社.

[2]王宏等譯.計算機視覺[M].電子工業(yè)出版社.

[3]蔡建榮.自然場景下成熟水果的計算機視覺識別[J].農業(yè)機械,36(2):61-64.

[4]王宇輝.基于計算機視覺的錐體零件尺寸在線檢測算法[J].重型機械,2005,2:4-6

[5]駱志堅.基于計算機視覺檢測技術自動計數(shù)系統(tǒng)的研究與應用[J].儀表技術與傳感器,2005,3:41-43.

[6]左小德.貼近度分析法在案例庫推理中的應用[J],南大學學報(自然科學版),1997,18(1):21-26.

[7]姜麗紅.案例推理在智能化預測支持系統(tǒng)中的應用研究[J].決策與決策支持系統(tǒng),1996,6(4):63-69.

篇3

關鍵詞:計算機數(shù)字技術;虛擬現(xiàn)實;視覺文化;時代影像;觀察模仿與建構

“計算機是形而上學的實驗室”――哲學家海姆說。

大部分的知識與經(jīng)驗,我們都是從視覺經(jīng)驗中去獲取。視覺,作為第一感官,讓視覺文化的發(fā)展史成為人類文明史很重要的部分。所以視覺技術的發(fā)展和變化也必將對文化產(chǎn)生深刻的影響。

隨著視覺技術的發(fā)展也相應改變了人們看的方式,看的方式的改變也將反過來作用于人們的認識。計算機視覺技術作為一種現(xiàn)代社會最重要的新媒介,必然也將影響和擴展無數(shù)的可能性。

一、技術革新與觀察方式的變化

(一)原始的觀察方式

視覺作為一種可以有效感知形體及色彩節(jié)奏變化、可以較為穩(wěn)定保存與傳播的感官形式,成為了人類文明的重要載體。但視覺也受到空間范圍和錯覺現(xiàn)象等因素的影響,劃定了它所存在的局限性。于是人們不再僅僅滿足于這種單純的看,而希望和渴望視覺的無限延伸,“千里眼”的神話就是體現(xiàn)了人類這種希望拓展視覺能力很好的例子。

(二)技術革新下的觀察方式

“千里眼”的神話不是遙不可及。望遠鏡的發(fā)明,極大的擴展了人類視覺空間范圍,最終在這種外在視覺輔助工具的幫助下從新發(fā)現(xiàn)和認識了這個世界。除了這種拓展視覺空間的外在設備,還有對于視覺成像形式發(fā)生改變的視覺技術。從三菱鏡對于不同可視光線的發(fā)現(xiàn)再到x射線,紅外線夜視設備等都大大拓展了肉眼的可視領域,我們可以觀察到紅外線等特殊光線。

二、計算機視覺技術下建構虛擬現(xiàn)實

(一)什么是虛擬現(xiàn)實

英國的克里斯托弗.霍洛克斯在其《麥克盧漢與虛擬實在》一書中對于“虛擬性”這一概念作了比較明確的界定:虛擬性又兩層涵義,一是虛擬作為科技的虛擬效果,一是虛擬文本所帶來的虛擬實在。第一層含義是這篇文章重點討論的,且計算機視覺技術是怎么實現(xiàn)這種虛擬效果的。一般我們所說的“虛擬現(xiàn)實”主要是指電腦虛擬環(huán)境,這和“虛擬性”是有概念上的差別的,不僅僅“虛擬實在”具有“虛擬性”,而我們由很多的形式據(jù)有“虛擬性”。而怎么界定什么就是“虛擬實在”,什么又不足以構成虛擬實在?蘭尼爾認為這種“虛擬實在”得以體現(xiàn)需要“沉浸”(immersion)“交互作用”(interaction)和信息的“密集度”(intensity)三者對于“虛擬”的作用程度?!俺两钡母杏X“來自某些設備,他們將完全將人們的感官隔離開來,讓人覺得從一個地方移到另一處”,信息的“密集度”的界定取決于虛擬性能給用戶提供什么樣的信息構建,尤其是關于自身處境是否真實程度的信息。所以對于“沉浸”“信息密集度”三者作用于人的程度就是衡量是否實現(xiàn)虛擬實在的重要標準。

(二)計算機視覺技術對“虛擬實在”實現(xiàn)的影響

1.計算機視覺技術對于“沉浸”現(xiàn)象的影響

首先對于“沉浸”蘭尼爾提到“來自某種設備”“他們完全將人們的感官隔離開來”“讓人感覺從一個地方移到另一個地方”。其實單純的理解“沉浸”的這種狀態(tài),會發(fā)現(xiàn)在人們生活中就會經(jīng)常有所體驗。繪畫可以實現(xiàn)沉浸對于視覺的要求,但是繪畫所營造的視覺感受不管再寫實也不如攝影影像來的真實,而我們更要注意到的是繪畫也好攝影圖片也好都是相對靜止的畫面,這樣很容易隨時讓我們從沉浸的虛擬環(huán)境中看見不真實,從而破壞這種沉浸。而電影用時間幀將靜止的畫面實現(xiàn)了運動,而且因為視圖像的可組合排列的特點,實現(xiàn)了對于情節(jié)視覺圖像的編排的可能性,我們甚至就可以感覺時間就從我們身邊穿過,完成了對于深度“沉浸”的實現(xiàn)。

2.“信息密集度”與計算機視覺技術的關系

計算機作為現(xiàn)代最偉大的發(fā)明,依靠“0”“1”的運算模式,從某種意義上來說突破了“形式”與“內容”的不完全一致性,比如計算機如果要想改變外在的圖像元素,就必然要改變內在的程序模式,如果一旦改變了其內在的程序也必然導致外在圖像元素的改變。計算機視覺技術正隨著計算機處理能力的提升,飛速地發(fā)展著,這樣處理信息的密度越大,計算機處理圖像的質量就越高,所以可以達到的“沉浸”和“交互作用”就越強烈,視覺、聽覺等感官所感知真實的可能性被大大減小,所以“信息的密集度”是前兩者得以實現(xiàn)的保證和巨大推力。

(三)計算機視覺技術對于現(xiàn)實本身的超越性

更值得注意的是通過計算機視覺技術手段,虛擬世界可以穿過不完美的現(xiàn)實世界,建構一個比現(xiàn)實更美麗、更刺激、更富神奇的空間。這是一種技術浪漫主義。柯伊斯提出“如果計算機允許我們塑造,模仿和重現(xiàn)實在,那么計算機當然也該允許我們改變知覺領域,挑戰(zhàn)并扭曲實在,并建造另外的實在,所以經(jīng)驗主義并非挑戰(zhàn)浪漫主義,而是提供技術浪漫主義的敘事條件”。而這種對于現(xiàn)實的跨越與改變是可以在視覺虛擬與文本虛擬下實現(xiàn)的。于是人們可以在虛擬的游戲世界中感受到上天入地、吞云吐霧、時間穿梭、性別轉換等超越現(xiàn)實的虛擬實現(xiàn)。再次,在這種虛擬實在構建的電腦游戲中,可以將虛擬的時間延長,減小人們“醒來”的機會,使人長時間地沉浸在這個虛擬的夢境中。比如在棋類游戲中會因為一局的結束而脫離棋局這個“弱虛擬”,但是在電腦游戲中可以通過“虛擬文本”的預先設計實現(xiàn)這個游戲的“無始無終”。而且在這種預設的“虛擬文本”中可以最大程度的降弱現(xiàn)實世界的殘酷與復雜,比如,在現(xiàn)實中對于“死亡”的巨大恐懼,可以通過虛擬文本改變成為 “靈魂出竅”并通過找回“尸體”這一種形式而得到重生,在這個虛擬世界里死亡只是可能會帶來一些虛擬的道具裝備和虛擬貨幣的丟失,這樣就大大降弱了現(xiàn)實世界的殘酷性和復雜性,建立一個更易于掌握的極樂世界。

參考文獻:

[1]周憲,視覺文化的轉向[M],北京大學出版社,2008年1月第1版

[2]尼古拉斯?爾佐夫,視覺文化導論[M],江蘇人民出版社,2006年11月第1版

篇4

關鍵詞:OpenCV;手勢識別;模式識別;圖像處理

中圖分類號:TP368 文獻標識碼:B 文章編號:2095-1302(2015)06-00-03

0 引 言

隨著科技的日益進步,傳統(tǒng)的、基于鍵盤鼠標的人機交互方式略顯單調。各國的研究者們探索著一個又一個新的人機交互方式,而在這些方式中,基于圖像理解的方式已經(jīng)取得了很大的進展。我們的生活離不開肢體動作,而圖像方式是計算機能夠理解人類動作最直接的方式。圖像處理的研究內容非常廣泛,配合統(tǒng)計、模式識別等學科知識的應用,我們已經(jīng)能夠識別并理解常用的人類肢體動作。

在肢體動作中,手勢動作又是其中的重點。如今很多新的交互方式都建立在手勢識別理解的基礎上,例如:Microsoft的kinect系統(tǒng),primesense的生物識別系統(tǒng)等。很多公司已經(jīng)將其應用到了醫(yī)療、教育教學、失語者手勢理解等領域。因此,研究手勢識別理解將會是未來計算機領域的一大熱點。

運動識別系統(tǒng)的進步伴隨著數(shù)字圖像處理領域的進步,各國學者相繼開發(fā)出了大量優(yōu)秀的計算機視覺和圖像處理軟件包。大多數(shù)軟件包基于計算速度的考慮采用C/C++ 編寫[1]。雖然這些軟件包對計算機圖像處理和計算機視覺的研究提供了很大地便利,但也存在著不足之處[2]:

(1)現(xiàn)行的多數(shù)圖像處理平臺沒有提供高級數(shù)學函數(shù);

(2)Matlab 的運行速度需要提高并且對宿主機器的配置要求較高;

(3)絕大多數(shù)圖像處理庫不支持嵌入式程序開發(fā)。

開源計算機視覺庫OpenCV(Open Source Computer Vision Library)的出現(xiàn)極大地彌補了這些不足,給開發(fā)者提供了強大的綜合開發(fā)平臺。

1 OpenCV簡介

OpenCV(Open Source Computer Vision Library)誕生于Intel 研究中心,是一個開放源代碼的、高質量的計算機視覺庫。它輕量且高效,采用C/C++ 語言編寫,可以運行在Linux/Windows/Mac等操作系統(tǒng)上。OpenCV 還提供了Python、Ruby、Matlab及其他語言的接口[3]。OpenCV中包含了大量經(jīng)典的計算機視覺處理函數(shù),這些函數(shù)涵蓋了機器視覺領域的大多數(shù)應用。OpenCV提供的視覺處理算法非常豐富,利用其開源特性,只要開發(fā)者處理得當,不需要添加新的外部支持也可以支持完整的編譯鏈接生成執(zhí)行程序。

OpenCV 現(xiàn)行版本為2.4.11.0,已放出了3.0.0的Beta版本。現(xiàn)行版本的OpenCV分為18個模塊,其中常用的有8個模塊:

(1)Core:定義基本的數(shù)據(jù)結構,包括矩陣和被其他模塊使用的公共函數(shù);

(2)Imgproc:包含線性和非線性圖像過濾器、幾何圖形變化、色彩空間變化等功能;

(3)Video:包含運動分析、背景剪切和對象追蹤等功能;

(4)Calib3d:包含多視角集合算法、3D重建等功能;

(5)Features2d:包含特征匹配等功能;

(6)Objdetect:包含預定義對象距離探測等功能;

(7)Highui:包含一個簡單易用的高層級接口,用以抽象不同操作系統(tǒng)對視頻提取和圖像操作的功能;

(8)GPU:包含GPU加速相關的算法,這些算法可以被其他模塊使用以加速程序的運轉。

2 手勢識別簡介

根據(jù)計算機系統(tǒng)檢測手勢姿態(tài)的傳感器的不同,我們可以將手勢識別理解系統(tǒng)分為兩類:一是利用數(shù)據(jù)手套獲相關技術;二是利用計算機視覺捕獲和處理圖像流。利用數(shù)據(jù)手套捕獲技術實現(xiàn)的手勢識別系統(tǒng)使用不方便,用戶需要學習的內容多且使用場景受到限制,而且成本較高[4]。而基于計算機視覺的手勢識別系統(tǒng)則具有使用場景廣闊、使用習慣符合人體本能、傳感器成本低、普及率高等優(yōu)勢。

基于圖像的手勢識別系統(tǒng)一般可分為手勢姿態(tài)圖像采集、手勢姿態(tài)圖像分割、手勢姿態(tài)特征提取及手勢姿態(tài)識別四個步驟[5]。

在大量手勢識別系統(tǒng)的實際開發(fā)過程中,都牽扯到使用膚色過濾系統(tǒng)來分割獲取手勢的binary圖像。手勢姿態(tài)的binary圖像的獲取關系到后期手勢姿態(tài)理解的穩(wěn)定性和準確性,但是人體的手部顏色受到個體差異、光源顏色以及光照角度的影響,其中任何一個因素變化都將造成陰影、遮蔽等不良影響[6]。手勢識別的方法主要有4種,具體見表1。

表1 手勢識別方法靜態(tài)識別[7] 動態(tài)識別[8]

模板匹配法(TM) 動態(tài)時間規(guī)整法(DTW)

神經(jīng)網(wǎng)絡法(NN) 隱馬爾可夫模型法(HMM)

本文首先使用YCrCb膚色分割算法在使用者在線模式下提取使用者手勢姿態(tài)30組,利用30組手勢姿態(tài)的均值測量出使用者手部的色彩平均值;然后提取環(huán)境光照的平均值、極大值和極小值,利用環(huán)境關照的取值和手部均值做運算,特定區(qū)域內找點最少的環(huán)境光照值和手部均值,最后利用這兩個值進行手勢姿態(tài)圖像binary處理。將得到的binary圖像進行特征化處理,得到手部特征點,通過對特征點的運算,得到最終的手勢姿態(tài)理解。

3 手勢姿態(tài)的binary處理

手勢姿態(tài)的binary處理核心代碼如下:

主函數(shù):

frame = cvQueryFrame(capture);

//讀取一幀圖像

//cvShowImage( “Main_cam” , frame);

if( !frame ) break;

assert( 0 ==

binary_image_process( frame , mask , high_threshold1 , high_threshold2 , high_threshold3 , &is_get_binary )

);

cvShowImage( “Binary_cam” , mask );

//binary_image_process函數(shù),使用環(huán)境光和膚色在線測量均值得到的三個閾值:threshold1,threshold2,threshold3,分別對應YCrCb顏色空間的Y,CR,CB通道:

IplImage* ycrcb = cvCreateImage( cvGetSize(frame) , 8 , 3 );

cvCvtColor( frame , ycrcb , CV_BGR2YCrCb );

for(int i=0 ; i < ycrcb->height ; i++ ) //二值化

{

uchar *row = (uchar *)(ycrcb->imageData) + i * ycrcb->widthStep;

for(int j=0 ; j < ycrcb->width ; j++ )

{

uchar *p = row + 3*j ;

//if( *(p+1) > threshold2 && *(p+2) < threshold3 )//||

if( *(p) < threshold1 )

{

binary_image->imageData[ i * (binary_image->widthStep) + j ] = 255; // 白色

}

else

{

binary_image->imageData[ i * (binary_image->widthStep) + j ] = 0; // 黑色

}

}

}

IplConvKernel *element = cvCreateStructuringElementEx( 4 , 4 , 0 , 0 , CV_SHAPE_RECT );//創(chuàng)建用于腐蝕的核函數(shù)

cvErode( binary_image , binary_image , element , 1); // Erotion

cvDilate( binary_image , binary_image , NULL , 1); // Dilation

cvReleaseStructuringElement( &element );

cvReleaseImage( &ycrcb );

經(jīng)過提取的手勢識別binary圖形如圖1(a)~(e)所示。

可見此方法提取的binary圖像清晰準確,具有利用價值,可以為后期的特征提取與識別創(chuàng)造有利條件。

(a) (b)

(c) (d)

(e)

圖1 手勢識別binary圖形

4 手勢姿態(tài)特征的識別與理解

首先,我們通過對最小包絡圓和手腕的計算得出手掌心的位置,然后利用每個點與相鄰點做向量外積計算是否為手指尖點和手縫點,最后即可得出手勢姿態(tài)的全部特征點。

//計算整個輪廓的中心點

for( int i=0 ; i < real_contours_number ; i++ ){

contour_rectangle = cvMinAreaRect2( sort_contours[i] , 0 );

arm_center[i].x = cvRound( contour_rectangle.center.x );

arm_center[i].y = cvRound( contour_rectangle.center.y );

cvCircle( frame , arm_center[i] , 10 , CV_RGB(255,255,255) , -1 , 8 , 0 );

}

//取得凸包,畫出指縫

for( int i=0 ; i < real_contours_number ; i++ ){ get_convex_hull( i );

finger_tip( i );

hand( i );

cvClearSeq( hull ); //清空凸包序列

cvClearSeq( defect );

}

最終,得到的含有全部手勢特征點的圖像如圖2(a) 、圖2(b)所示。

(a) (b)

圖2 含有全部手勢特征點的圖像

5 結 語

新版本的OpenCV計算機視覺庫給我們提供了很強大的計算機視覺處理能力,利用其提供的高級別函數(shù)和矩陣運算能力,開發(fā)者們可以開發(fā)出大量基于圖像的應用。利用OpenCV強大的可移植能力,開發(fā)者可以使用相應的移植工具將PC平臺上的成果轉化到移動端,這將會為開發(fā)者創(chuàng)造新的機會。

參考文獻

[1]喻擎蒼, 翁秀娟, 趙勻,等.交互式開放結構計算機視覺平臺[J]. 計算機工程與應用,2006,42(23):78-81.

[2]秦小文, 溫志芳, 喬維維. 基于OpenCV的圖像處理[J]. 電子測試, 2011(7):39-41.

[3]于仕琪, 劉瑞禎. 學習OpenCV( 中文版)[M]. 北京:清華大學出版社,2009.

[4] LEE C, XU Y. Online interactive learning of gestures for human /robot interfaces [C] Proceedings of the 1996 IEEE International Conference on Robotics and Automation. Washington,DC: IEEE Computer Society Press,1996,4: 2982-2987.

[5]趙健, 張冬泉. 基于OpenCV的數(shù)字手勢識別算法[J]. 計算機應用, 2013, 33(z2):193-196.

[6] SURAL S,QIAN G,PRAMANIK S.Segmentation and histogram generation using the HSV color space for image retrieval[C] of the 2002 International Conference on Image Processing.Piscataway: IEEE,2002: 589 - 592.

篇5

多媒體技術是計算機技術和社會發(fā)展進程中人類總需求的結合。計算機技術發(fā)展的初期解決的是數(shù)值計算問題,誕生的緣由是美國為了研究軍事技術,對攻擊精度的計算。計算機硬件設備的發(fā)展,使計算機處理數(shù)據(jù)的能力越來越強,逐漸從處理數(shù)值發(fā)展到對復雜的多種形式媒體的處理。多媒體技術融合了對數(shù)據(jù)、多種媒體、復雜的智能化處理和交互,并在高速信息網(wǎng)的作用下實現(xiàn)了信息資源的共享。目前,計算機多媒體技術已經(jīng)改變了人類的生活方式,促進了現(xiàn)代文明的進程,廣泛應用于軍事、工業(yè)、通信、教育、金融、娛樂等諸多領域。

2多媒體技術的特征

從計算機處理多媒體的種類和處理的效果、人類接受的方式來分析,計算機多媒體技術主要具有多樣性、集成性、數(shù)字化、實時的交互性等特征。

2.1多樣性

計算機多媒體技術面向的媒體種類眾多(章惠,多媒體技術和教學的有機結合:洛陽大學學報,2003),從最初的數(shù)值處理發(fā)展到了人類感官能觸及到的文字、圖像、聲音、動畫、視頻等多種形式媒體的處理。媒體的多樣性,使媒體形式變得豐富多樣,這必將使表達更為自然生動,表現(xiàn)更為靈活,解決問題更為便捷。

2.2集成性

為了獲得更好的展示效果,各種媒體并不是各行其是的。計算機使用不同的媒體,共同展示相同的內容,媒體與媒體之間的融合集成、充分展示,讓人們的不同感官得到充分刺激,使人們更易于接受(孫濤,計算機多媒體技術的應用:長春理工大學學報,2011)。為了多媒體后期的運用,各種媒體會被進行數(shù)字化處理,然后由多通道統(tǒng)一采集、編輯、存儲、檢索、顯示、傳輸與合成。計算機領域內最新的硬件和軟件技術也將促使多種媒體更好的處理效果和更快的處理速度。

2.3數(shù)字化

多媒體中的各種媒體,進入計算機后,已全部轉化為了數(shù)字,以數(shù)字的形式展示和存儲。圖像經(jīng)采樣量化后,以BMP、RGB、CMYK、黑白灰度圖等數(shù)字化形式顯示、存儲;聲音是通過一定的采樣頻率和采樣周期,實現(xiàn)模擬到數(shù)字的過程;而視頻是在每幀圖像和聲音的采樣、數(shù)字化基礎上,形成的連續(xù)信息。

2.4實時的交互性

傳統(tǒng)媒體是指報紙、廣播、電視、雜志,這些媒體只能單向、被動地傳播信息,不能稱其為多媒體。多媒體技術與傳統(tǒng)媒體最大的區(qū)別就是實現(xiàn)了人機交互,使用戶能對多媒體信息進行主動選擇、操縱和控制,使得獲取和使用信息變被動為主動,同時被人的多種感官所感受、體驗。不僅如此,因為多媒體的實時性,即是視頻、聲音等媒體是沒有延遲的,隨著時間的變化而變化。所以,多媒體的交互在高速網(wǎng)絡的幫助下,能做到?jīng)]有延遲的做出實時反饋。

3計算機創(chuàng)新技術在多媒體技術上的應用

多媒體技術涉及范圍非常廣泛,包括了計算機軟硬件技術、數(shù)字信息處理技術、數(shù)據(jù)壓縮、高性能大容量存儲、網(wǎng)絡通信技術等等。這些日新月異發(fā)展的新手段、新技術,推動多媒體系統(tǒng)逐步進入人類社會許多領域。多媒體新的技術不時涌現(xiàn),帶給人們新的驚喜。人工智能是一門新的科學技術,甚至有些大學將人工智能從計算機科學與技術專業(yè)剝離出來,獨立成一個專業(yè),在學生本科期間就進行相關研究。但事實上,人工智能是建立在數(shù)學和計算機科學與技術基礎上的高層次學科,是一門近幾年出現(xiàn)的最引領人類研究興趣的技術。人工智能研究的最終結果就是機器人,而事實上,機器人集多種媒體表現(xiàn)于一生,通過機器人的觸感模仿人類去理解和辨別外界。人工智能研究的圖像識別、自然語言處理、語言識別融合在了機器人身上,與多媒體技術廣泛結合,應用于人類生活。我們從機器人身上看到了人工智能對多媒體技術的影響。下面從涉及到的幾個方面去分別探討。

3.1計算機視覺

人們通過感官獲取外界信息,僅視覺就能獲得外界80%-90%的信息(王守佳,基于圖像的人體檢測跟蹤和人臉識別的研究:吉林大學,2013)。計算機視覺是一門屬于計算機智能的學科,采用了動物視覺原理,具有獲取圖像、分析圖像到理解圖像的工作過程。計算機視覺通過鏡頭等圖像傳感設備代替人類的眼睛來獲取周圍環(huán)境的圖像,依靠計算機來代替人類大腦的工作,將采集到的圖像進行分析和處理。人類處于一個三維的環(huán)境之中,計算機視覺技術可以幫助分析處理。處理的手段可分為三個層次,底層、中間層、高層。底層就是圖像處理技術,將二維圖像去噪、邊緣檢測后進行分割、根據(jù)圖像特征進行提取、圖像識別等。中間層是指對圖像、視頻外在特征的歸納判斷,譬如形狀、顏色、運動軌跡等。高層,即是對外界事物和環(huán)境的觀察和理解。由以上三個層次可見,利用計算機視覺技術能對數(shù)字化圖像改變形態(tài)、尺寸、色彩調整、文件格式轉換等。目前,計算機視覺技術還能對圖像進行高效的檢測、高速的識別,對運動軌跡進行精準判斷。而這些已被廣泛地應用于多媒體產(chǎn)品中。

3.2音頻技術

聲音是多媒體技術經(jīng)常采用的一種媒體形式,包括了語音和音樂等。多媒體通常需要通過聲音去烘托主題氣氛,彰顯意境。特別是自學型多媒體系統(tǒng)和多媒體廣告,沒有人進行現(xiàn)場講解,那么就需要加入聲音進行解說,這樣,數(shù)字音頻信號顯得更加重要。音頻技術基于電聲技術,主要包括:去噪、壓縮、調整振幅等的數(shù)字化處理,以及語音處理和識別。長久以來,語音識別是人們的夢想,人們一直期盼計算機能夠聽懂人說話,根據(jù)人的語言做出相應動作,這也是設計智能計算機的目的之一。如今,具備多種語言識別功能已成為多媒體設備的標配,識變率也非常高。無論持哪種語言、地方口音的人們,都能通過語音轉化為文字,甚至通過語音傳送指令,得到回應、達到意圖。

3.3虛擬現(xiàn)實技術

虛擬現(xiàn)實技術是利用計算機多媒體技術,運用3D場景、燈光、聲音、動感創(chuàng)造模擬出真實氛圍,為用戶建立出一個虛擬環(huán)境。虛擬現(xiàn)實技術與計算機仿真技術相結合,將用戶置身其中進行學習、工作與娛樂。這種技術已被廣泛應用于教育教學、科普、軍事、醫(yī)療、娛樂以及大型的網(wǎng)絡游戲中。虛擬技術投入成本較高,成熟的設施主要運用于教學,比如多媒體航空飛行教學系統(tǒng),通過該系統(tǒng),可按100%比例局部展示表盤、操縱桿、艙外景物,通過配合空中場景、感知各種場景給身體帶來的變化。使用這套系統(tǒng)進行模擬訓練,可以有效的提高飛行員對飛機的操作水平。隨著計算機技術的迅猛發(fā)展,虛擬現(xiàn)實技術成為目前的高新技術。在多媒體環(huán)境中,多種媒體的相互融合,使媒體的形式更加多樣,多媒體技術在模式識別、語音識別和傳感技術基礎上,提取對象面部特征,模擬觸覺、視覺、聽覺等感官,使人處于逼真的三維世界,當人有反應或行動時,場景還會適時變化,即是讓人如臨其境的、自然的與計算機進行交互。虛擬現(xiàn)實技術具有非常廣闊的發(fā)展前景,為人們的日常生活提供了很多樂趣和便捷。

3.4網(wǎng)絡化

多媒體應用的數(shù)據(jù)通道是通信網(wǎng)絡,網(wǎng)絡給了多媒體更大的施展空間。多媒體技術的應用要想在網(wǎng)絡上有所建樹,必要受通信技術的影響。在網(wǎng)絡通信技術的進步和整合下,網(wǎng)絡帶寬影響傳輸速率、通信協(xié)議影響傳輸可靠性、交換方式影響信道利用率,這些勢必會影響多媒體的傳輸。計算機網(wǎng)絡給用戶提供了一個難以想象的龐大的信息網(wǎng)絡平臺,豐富的信息資源隨手拈來,方便于人們的學習、工作和生活交流。而無線網(wǎng)絡技術的發(fā)展,使資源變得隨手可?。ɡ顣造o,計算機多媒體技術的應用現(xiàn)狀與發(fā)展前景:科技情報開發(fā)與經(jīng)濟,2007),人們可隨時隨地通過訪問全球網(wǎng)絡和設備,便捷地實現(xiàn)對多媒體資源的共享,是未來發(fā)展的主題。計算機技術的不斷創(chuàng)新和發(fā)展,促使了巨大的變革。CPU、內存、GPU等在內的計算機終端硬件設備性能越來越先進;而網(wǎng)絡設備,例如服務器、路由器、網(wǎng)橋、交換機等也越來越強大。計算機計算的精度、速度、邏輯判斷能力和充裕的帶寬,讓人們更加游刃有余的與網(wǎng)絡虛擬世界互動。網(wǎng)絡環(huán)境的高質、高速,消除了人與人空間和時間上的困擾,能全方位的為人類效勞。動態(tài)和交互式多媒體技術還能在網(wǎng)絡環(huán)境中創(chuàng)建更形象的2D和3D場景。辦公、教學和娛樂工具在視頻、音頻設備的協(xié)助下,集成在終端多媒體計算機中,新一代用戶界面與人工智能等個性化、網(wǎng)絡化的多媒體軟件應用,可隨時與身處世界任何角落的人們進行交流。

4結論

篇6

1引言

利用攝影測量和遙感為制圖和GIS獲取數(shù)據(jù),傳統(tǒng)方法的特點是人工有效地從影像__匕提取高精度的三維數(shù)據(jù),在距離_匕這些影像從空間平臺獲取的圖像到近景固定目標圖像。一般來說,這些生產(chǎn)程序是費時并且很昂貴。在目前的制圖和GIS預算基礎上,傳統(tǒng)的方法限制了能提取的地形信息的數(shù)量和分辨率。另外,山于數(shù)據(jù)獲取當局采用了不合理的數(shù)據(jù)更新周期,在很多情況下,數(shù)據(jù)趨向于過時。數(shù)據(jù)獲取系統(tǒng)總是技術驅動的,并且適應最新的方法和設備。將來,當數(shù)字系統(tǒng)成為現(xiàn)實時,這將毫無疑問會繼續(xù).在提高自動化水平的基礎上,數(shù)字系統(tǒng)為提取制圖和GIS所需信息提供新方法。新方法中也包括計算機視覺中的邊緣裁剪技術,該技術利用了人工智能和機器學習等領域知識。兇此,攝影測量與遙感和計算機視覺與人工智能等領域的研究人員觸合他們各自的技能來解決這個應用領域的一些具體的問題。在攝影測量與遙感領域自動提取地面地形信息需要過程的簡潔表達和壓縮影像范圍的知識。這是一個很重要的工作,因為影像中儲存著極其復雜的信息。攝影測量中獲得的地表地形的影像的比例尺可從l:3000到l:90000,而遙感獲得的影像的像素分辨率可從!米到30米不等。地形的影像特征的結構很復雜.它是由很多不同的亮度組合而成的,這些亮度可以表達例如,核物、地表、水文等這樣的自然特征:也可以表達例如,房屋、道路等人工建筑,還能表達像陰影或亮度所造成影明的人造物體。另外,遙感影像中,一些特征之間的關系比一般照片上的特征之間的關系復雜。這些特征意味著航天和衛(wèi)星影像的信息提取是很大的挑戰(zhàn)。信息提取的研究首先得考慮數(shù)據(jù)的語義方面的問題??墒?提取的信息的幾何性質也必須被考慮,以至于可以確??臻g數(shù)據(jù)的相關規(guī)范性。計算機視覺是一門自動和集成廣泛可用于可視處理和表達方法的科學,通過建立清晰、有意義的影像上的對象描述,應用方法和技術很廣泛,其中包括數(shù)字影像處理,模式識別,幾何建模,理解和認知處理.計算機視覺本身主要涉及影像解譯和圖像識別問題,并且試圖通過目標和場景識別來解決這些問題。在這個過程中,使用從影像中提取屬性和關系的技術、形狀表達和描述技術,最后,利用提取和描述的特征進行基于模型的識別。由于影像獲取的方法,在從數(shù)字遙感影像提取信息的過程中計算機視覺方法的應用是很復雜的,因而,當使用針對普通照片影像的提取方法時,要仔細考慮遙感影像的數(shù)據(jù)特征。在計算機視覺應用中很難處理的特征,在航空和衛(wèi)星影像同樣也是很難處理。普通的影響因素包括獲取影像過程中的噪音,陰影的影響,由于照相機的角度和定位引起的幾何變形的影響和光照的影響,由于封閉和部分目標等問題所引起的影響.解譯航空(衛(wèi)星)影像和其他的圖像時采用的方法是不同的.三維物體幾何形狀是航空影像判讀過程中的最基本的元素,這并不是因為要提取高程的原因,而且是因為在判讀中三維對象可提供更多的信息。是三維還是二維信息更有利于特征的描述,這樣的問題便被提出來了。在計算機科學領域里,對大多數(shù)研究而言,二維圖像數(shù)據(jù)一般認為是足夠的,盡管有研究小組正從事立體視覺和深度信息提取方面的研究。盡管有些例外,但大多數(shù)形狀和位置描述決定了計算機視覺中的對象模型,對于中、低分辨率的航空影像,使用纂于形狀的識別是令人質疑的。然而,上下文信息對遙感影像的解譯有很大的作用。比如,橋作為穿過河流的道路的一部分可能很容易被識別。航空影像中的目標很密集,并有很多的組成部分,這一現(xiàn)象己被認識到了。這與計算機視覺最近的發(fā)展趨勢是一致,計算機視覺識別圖像上的目標,首先是分離不同目標的組成部分和它們之間的關系。這篇文章將回顧一些在計算機視覺中己使用的知識描述和建模的方法,并給出他們在研究遙感影像理解方面的例子。方法很多,要討論這個領域中所有正在被研究者所使用的方法是不可能的。其他方法的討論可能會涉及其他的領域,如Crevicr和LePage基于知識的影像理解的方法.Hancock和Kittler方法是兩種松弛技術,sriniva犯n是人工智能技術在遙感方面的探索等。第二部分將介紹機器視覺領域中的知識的定義、知識表達的方法、控制問題、特征建模方法。第三部分介紹特征表達和特征識別的過程。第四部分介紹知識表達方法在航空測量和遙感中的應用實例.

2知識、表達和模型

2.1知識的定義•MerriamWebsterDictionary把知識定義為己知的事實和條件,知識是通過經(jīng)驗和聯(lián)想獲得,它的范圍包括人所獲得的信息和理解,是己知的總和。表達是描述的行為,狀態(tài)和行為的描述.表達成與本質相應的具有特殊特征或品質的符號、副本或圖像。模型是事物的仿真表達,是仿真的實例。在計算機視覺和人工智能中,這些術語的應用不是很嚴格.與它們的字典中的意思和技術定義相適應,很難確切定義。計算機視覺必須獲取影像中場景的有用的描述,最初的描述就是圖像強度值的陣列。在低層視覺階段,進行圖像的初步處理。中級階段應用獨立的鄰域處理方法提取圖像的特征和標識不同的部分。高級階段歸納更多圖像特征表達,在這個階段進行初步識別.為了處理光線和視角的變化、形狀和陰影的影響、圖像處理如,相機角度和位置的變化和低層處理中的嗓聲問題,我們需要現(xiàn)實世界有關圖像獲取和應用等方面的知識,這些知識是較高層的豐富的表達,這在計算機視覺中稱為模型。這些模型解釋、描述或抽象了圖像信息。圖像和模型之間的橋梁就是一定范圍的表達,它聯(lián)結著輸入圖像和輸出解釋。(l)生成圖像,圖像是輸入數(shù)據(jù)的圖像和模擬表達例如:二值圖像和側面影像。(2)分割圖像,分割后的圖像由與實際目標相應的一些像素組成,例如:分割算法的輸出。(3)關系模型,它是經(jīng)過編碼后的知識,用于高層推理和解譯.每種表達方法有它的應用范圍的局限性。所以,在圖像解譯中,所有四種類型的表達方法都是重要的。我們應該重點放在第四種上,即關系模型,它包含了用于圖像理解目的的知識表達和模型。2.2知識表達知識表達的目的是用計算機易于處理的形式表達知識。一個好的計算機表達語言應該易于表達、簡潔、意義明了的、獨立的。FOL(FirstOrderLoglc)語言是人工智能中表達方案的基礎.FOL有規(guī)范的語法和語義,在這種語言里,一個句子的解譯也就是上面談及的。FOL的推斷過程允許從舊語句中推斷出新語句。這種規(guī)范的推斷過程可以用于自動的從已知的事實中獲取正確的結論.邏輯編程語言和產(chǎn)品系統(tǒng)二者都以FOL為基礎.像Prolog這樣的邏輯編程語言允許用FOL的嚴格模式描述知識,也能完成推斷過程,可以從通用的知識里提取新的信息。邏輯編程語言通常使用“后向鏈”控制,用后向的邏輯推理法:為證明一些事物,他們發(fā)現(xiàn)數(shù)據(jù)庫中的邏輯關系有助于結論的形成。因此,當一個目標確定后,“后向鏈”是推理中的最佳方式。產(chǎn)品系統(tǒng)由現(xiàn)存的事物的知識庫、一組規(guī)則或“產(chǎn)品”組成,這些都是用邏輯關系表達的。下面是一個產(chǎn)品系統(tǒng)的例子。如果一個區(qū)域是一個長型的、性質相同的目標,那么他屬于道路。產(chǎn)品系統(tǒng)以匹配,選擇,產(chǎn)生結果這種方式永不停息地循環(huán),應用數(shù)據(jù)庫的知識,產(chǎn)生新的信息。在匹配階段,系統(tǒng)尋找所有已有的、滿足當前數(shù)據(jù)的法則。在選擇階段,系統(tǒng)運用第一階段的匹配原則,選擇一個規(guī)則來執(zhí)行。選擇的規(guī)則在結果產(chǎn)生階段被執(zhí)行,在這個階段可能會牽涉知識庫里知識的增加或側除,和數(shù)據(jù)的輸入、輸出。在人工智能和航空側里與遙感領域,框架和語義網(wǎng)絡是最近最流行的值時表達結構。它應用隱喻,把對象表達為曲線圖中的節(jié)點,這些節(jié)點用分類的結構組織,節(jié)點之間的關系表述為二進制的關系.在框架系統(tǒng)中,二進制的關系被認為是其他框架填充過來的空槽;在語義網(wǎng)絡中,它們之間的關系被認作是節(jié)點中的有向線。這兩個系統(tǒng)的意義和所要完成的任務是相同的.描述邏輯系統(tǒng)是從語義網(wǎng)絡發(fā)展而來的,最基本的思想是利用目標和類別的復雜定義和它們之間來進行表達和推理。描述邏輯語言提供三種推理支持:(l)概念描述的分類,在特殊的層次中概念的自動整理。(2)對獨立目標根據(jù)它們的屬性分類。(3)知識庫所有知識一致性維護。對于這些邏輯所支持的語言幾乎無法表達,并且很難詳細闡述復雜的制約條件.這些語言的優(yōu)點是他們有依據(jù)推理服務的正式的語義和簡單的邏輯操作.簡言之,像Prolog這樣的邏輯編程語言有一個執(zhí)行模型,這種執(zhí)行模型很簡單,以至于一個程序設計員就可處理。近來,Pr。109編譯器被推薦作為小型人工智能項目一c產(chǎn)品系統(tǒng)的首選開發(fā)工具,該產(chǎn)品系統(tǒng)是一個流行的人工建模推理系統(tǒng);與Prolog不同的是,產(chǎn)品系統(tǒng)不是基于查詢的,而是開放的、不間斷的系統(tǒng),它處于連續(xù)的操作中。語義系統(tǒng)提供一個比基于文本式的形式主義更容易理解的圖形界面。它可以像FOL一樣富有表現(xiàn)力,盡管大多數(shù)并不是這樣,因為這種系統(tǒng)強加嚴厲的拘束于可以表達的對象之上.他的優(yōu)點其中包括能表模塊方法中的層次關系,并且相對比較簡單。描述邏輯把清楚的語義與簡單的邏輯操結合起來.所以,當所有的方案都依據(jù)FOL語言,就有這種或那種方法的折衷.2.3控制問題不管選擇什么樣的影像表達,影像數(shù)據(jù)的處理和影像數(shù)據(jù)的表達處理可以稱為影像數(shù)據(jù)驅動,稱為從下而上的控制,或可稱為內部模型控制,叫做從上而下的控制。自下而上的數(shù)據(jù)驅動包括從影像處理、分割到描述,每一階段為下階段準備數(shù)據(jù)。如果鄰域影像處理方法成本底,而且輸入的數(shù)據(jù)是準確、可信的話,從下而上的控制是有用的.馬爾(Marr)和Ullman致力于自下而上的方法研究.這種自下而上的方法是基于人類視覺數(shù)據(jù)不變的自下而上的處理基礎上的。Marr認為這個系統(tǒng)導致一個中間描述叫做21/2維的結構,包括地表定位、參考視場中的距離和方位。另外,Ullman假設高水平的處理叫做可視化程序,它檢測中間表達中的感興趣特征。自上而下的模型驅動控制是被知識庫里產(chǎn)生的可能性和先決條件驅動的。因而,模型驅動控制嘗試用一種目標指向的行為去執(zhí)行內部的模型證明.一個普通的自上而下的控制方法是假設和證明。這個一般可以控制低層次的操作.好像支持的人類可視化某些方面的關系并不是自上而下,這個發(fā)現(xiàn)促進了模型驅動方法的發(fā)展。降低低水平處理過程的設想亦如此。在實際操作中,計算機視覺系統(tǒng)趨向于混合使用自上而下和自下而上兩中控制方法,系統(tǒng)的重點在方法效率和實用上.并行和串行計算可能在所有的設計中都用上了。自上而下和自下而上這兩種控制隱含了一種層次處理關系.在層次控制中,控制程序看作是合作收集和競爭專家,在任何時候,“專家”幫助大多數(shù)選擇。黑板結構是這種方法的一個例子,在黑板結構中模塊化的知識源之間通過一個公共的黑板(存儲器)進行通訊,它們可以通過這個公共的黑板進行輸入和輸出。2.4建模問題在計算機視覺中的基于模型的方法中,在一類圖象中可按優(yōu)先次序定義了一些模型,并利用這些模型來進行目標識別。這些模型對現(xiàn)實世界和應用中的一些外部知識進行編碼二目標模型可能是外觀模型,形狀模型,物理模型等。在目標表達上,每一個模型應該適應一定的變化范圍,這些變化可能是由于視角的變化、光照的變化、柔韌目標的形狀變化等因素引起的.另外,影像獲取本身的多變性、每組對象中單個對象的多變性,也要考慮進去.感興趣的目標可能是二維的或三維的:這些目標可能是剛性的、有鏈接的或有韌性的。圖像可能是距離圖像或是強度圖像.識別就是確定圖像上不同的特征和在匹配階段對比模型特征。模型(圖像)的關聯(lián)特征可以用前面己經(jīng)討論過的方法中的一種來表達。在一幅沒有限制場景的強度圖像識別一個三維目標是很困難的,航片和衛(wèi)星影像就屬于這類情況。深度信息的丟失、遮擋和混亂的細節(jié)信息產(chǎn)生了很多問題:另外,圖像的強度間接與目標的形狀相關.

3特征的自動提取

絕大多數(shù)影像解譯系統(tǒng)的目的是在影像中提取/識別目標.在基于模型的方法中,它通過首先提取目標屬性,然后再將他們與模型匹配。3.1特征屬性的描述在計算機可視中,目標的屬性、性質和可以從影像中提取的場景都叫做特征.這些屬性有時被分類為全局屬性和局部屬性。然而,在攝影測量與遙感領域,“特征”這個術語是指圖像上可識別的目標或者結構,如道路、建筑物,特征的分類依賴于具體應用:舉個例子,對航空影像來說,全局性的描述可以包括航影像覆蓋的地區(qū)例如:城區(qū)或郊區(qū)。避免過多的名字和定義,文章中的混淆就會減少。在這篇文章里,攝影測量中的術語“特征”即是影像中可識別的對象。若涉及對象的性質,我們就要用術語:“屬性”了。目標的全局屬性可以概括為目標完全可視化部分的信息,如面積、周長、長度等。理論上講,為了處理多分辨率和多變的圖像,這些全局性屬性應是縮放和平移不變的。特征不應該重疊,這樣可以避免混亂和遮擋:另外,目標每個不同視角需要獨立的模型,這樣可以處理多視角圖像。例如,在攝影測量中,局部屬性可能是聯(lián)結和分割的邊緣,這些可以看作特征的獨立屬性。然而,在計算機可視化中,局部屬性大多數(shù)時候被看作屬性之間的聯(lián)系,或者是上下文。相關的屬性在圖表中構成。評價特征屬性表達方案的標準是敏感度、范圍、穩(wěn)定性、有效性和獨特性.根據(jù)這些標準,研究者總結出一個基于模型方法的好的表達,.其中包括局部屬性和圖像特定區(qū)域和目標的組合。這是因為局部屬性可以根據(jù)輸入數(shù)據(jù)的有限部分有效計算出來;這些屬性很穩(wěn)定,因為表象的一點變化僅僅影響某些屬性,目標的局部遮擋僅僅影響局部特征。邊緣連接就是邊緣分析基礎上的局部特征的一個例子.多尺度表達是可取的,因為在大尺度上,兩個大體上相似的目標具有相似的描述,即使在小尺度上有一些不同。不管是從影像數(shù)據(jù)庫還是從經(jīng)過高分辨率重采樣的影像上,對于航空影像和衛(wèi)星影像而言,這種多尺度描述是比較容易獲得的。這個選擇項并不是對大多數(shù)計算機視覺應用都有用。唯一的模型判斷標準在特征識別過程中并不重要,因為識別的方法能夠允許由于噪音和遮擋等原因造成的錯誤匹配。比較航空影像、衛(wèi)星影像和計算機視覺中的圖像而言,前者局部特征的定位比較容易,因為前者的外方位元素和相機參數(shù)是己知的或者可以推倒出來。對于大多數(shù)航空影像計算機視覺研究而言二描述己經(jīng)是足夠的,但是三維模型和匹配經(jīng)常應用于攝影測量中,例如建筑物形狀提取。最后,什么屬性對于特征提取或識別有用呢?屬性要能表達不同的特征和圖像不同的部分之間的區(qū)別。第二,屬性要能反映外部世界的規(guī)律和結構。這樣,屬性的選擇就是與應用無關的了.在遙感中,通過輻射校正、地物的光譜特征和地面的真實情況,所得到的多光譜影像的特征是眾所周知的。一些屬性的規(guī)律將可以從這些特征知識中提取:例如,不同類型的地面覆蓋的光譜特性,如不同類型的植被、土壤、礦物質、水和一些人工建筑物經(jīng)過多年廣泛的實驗和地面事實已經(jīng)被確定了。在計算機視覺中,另外一些屬性是基于形狀和外形的;例如.道路是窄的條帶,建筑物是封閉的多邊型等。另外一些屬性是基于上下文的,例如,建筑物通常位于道路旁,橋一般是跨越在河上的。特征可以一定的結構進行組織。一種方法是用層次的方法組織它們的部分或全部關系,例如基于系統(tǒng)的語義網(wǎng)絡。第二種方法根據(jù)鄰接關系來組織它們。后者對應于空間臨近或上下文關系。二者都可以用圖形表達。32特征識別計算機視覺中的目標識別與攝影測量中的特征提取相對應。為了從一幅圖像上識別單個目標,自下至上的數(shù)據(jù)驅動控制通常是足夠的,其中屬性第一次被檢測和表達成符號.通過聚集比較原始的屬性來確定新的特征.利用這些屬性從模型庫中選擇合適的模型,也稱為索引。然后找到與影像屬性最匹配的模型屬性。最后,利用一些決策程序來校正模型屬性.查找過程本質上包括歸類、建立索引和匹配等步驟。然而,在包含多個目標,并且有遮擋和重疊的比較復雜的遙感影像中自下至上控制是不適用的,另外,在質量比較差的圖像中噪聲會產(chǎn)生假屬性。對于遙感圖像,這是一個非常合適的方案.在這種情況下,自上而下或者混和控制策略是比較有用的.在自上而下的方法中,假設階段需要利用屬性檢索模型的組織,使得基于觀測的屬性和一小部分合適的目標可以被選擇.在校正階段應用選用的模型來識別目標.在混合方法上,兩個階段的聯(lián)合提高了處理效率。當結果屬性比單個屬性更豐富時,就可以對屬性進行組合.這個過程稱為知覺組織.Lowe提出了目標識別中組合問題和屬性組合標準。他尋找邊緣分割的結構,它應該是在一定的投影方式下具有普遍性。例如同線性和平行邊緣。Zerroug和Nevatia應用均勻投影方法把圓柱投影到二維空間。許多研究者己經(jīng)研制了專業(yè)組合方法,例如:steger等的用于路道提取的方案,Hewricsson和Baltsavias等的用于建筑物的提取方案。顯然局部上下文信息在屬性組合中發(fā)揮著重要的作用,因為,為了定義局部上下文信息,人們希望把描述局部屬性與其他屬性之間的關系作一些特定安排。有關遮擋、透視、幾何、物理方面的一般知識對識別來說是必要的.Brooks(1981)建立了一個名為^eRoNYM的目標識別幾何推理系統(tǒng).Matsuyama和H、ang(一985)研制的s一oMA系統(tǒng),其中包括了幾何推理專家模塊。Mc引one和Shufelt(1994)在他們的系統(tǒng)中考慮了投影幾何,以用于建筑物提取,而Lang和Forstner(1996)在建筑物提取中應用了多態(tài)特性.上下文信息在圖像理解起著重要的作用。特別在松弛標記方法中,該方法用局部和全局上下文信息來進行圖像區(qū)域或目標標記。經(jīng)過分割階段,場景標記應該與場景知識相對應,并且標記應該是一致的.這個問題用約束傳播的方法來解決.局部約束導致局部一致,并且通過迭代的方法,局部一致性與整幅圖像的一致性相協(xié)調。關于松弛標記方法的詳細論述可以參考Hancock和Kittle:的文章。離散的松弛方法很簡單,只能處理完整和精確的分割.概率松弛方法是建立在局部不一致性很可能全局解譯比一致很有價值但不易于解釋的基礎上的,可參見早期Rosenfeld等人(1976)關于這種方法的一個例子.為了處理匹配階段的不確定性,人們應用了多種基于證據(jù)的技術,例如:Dompstershafer理論,可靠性估計,模糊邏輯,最小錯誤原理,可信度估計,隨機封閉集,貝葉斯網(wǎng)絡等.

4建模和表達方法應用的一些例子

在計算機視覺和攝影測量與遙感領域中的知識表達和建模方法的應用就是前述一些方法的具體化。這些應用的領導者在理論上是機器械視覺的研究者。在攝影測量與遙感領域,所采用的方法緊隨計算機視覺領域之后,這些方法己經(jīng)改進成信息提取的方法了.這些應用表明攝影測量與遙感領域的研究者在人工智能技術上達到了專業(yè)水平。這些方法己經(jīng)從基于規(guī)則的系統(tǒng)發(fā)展到語義網(wǎng)絡,從框架發(fā)展到邏輯描述。在這一部分,計算機視覺和攝影測量與遙感領域中的一些應用的回顧就表明了這個趨勢.4.1邏輯Reiter和Mackworth是第一批在計算機視覺系統(tǒng)中,應用邏輯作為一種表達方式的研究者.在他們的著作中,他們提議用一個邏輯框架結構來描述和解譯圖像和場景知識,并且提出二者之間的形式映射關系。他們陳述了影像原理,場景原理和描述原則,這些原理的邏輯模型形成了影像的解譯。他們應用一個稱為Mapse的簡單地圖理解系統(tǒng)來說明他們的方法。雖然這種應用具有相對的局限性,但是還沒有新的系統(tǒng)被報道。一個原因是計算方法的復雜性。當邏輯提供一個一致的形式來說明約束,特定的研究使用邏輯的效率并不高。另外,FOL本身善長描述數(shù)據(jù)的不確定性和不完整性,這些存在于圖像屬性之中。影像元素與影像對象之間的對應并不是一對一的關系,另外的邏輯關系對這些模型是必要的。Matsuyama和Hwang采用了一個邏輯框架結構,在這種結構中,動態(tài)產(chǎn)生新的邏輯一致性和規(guī)則。4.2基于規(guī)則的產(chǎn)品系統(tǒng)Brooks研制了基于模型的影像理解系統(tǒng)一一ACRONYM系統(tǒng)用來檢測三維目標,并用它進行了從航空影像上提取人工地物的實驗。三維模型使用一個基于框架的表述來儲存。對提供的影像進行了分析,ACRONYM系統(tǒng)提取了線段并獲得二維圓柱。幾何知識和圖像條件經(jīng)過編碼,形成規(guī)則被用來產(chǎn)生場景的三維模型,然后這些與框架相匹配以便識別人工地物。sIGMA是一種用框架來描述知識,并且使用從上而下和從下而上兩種控制方案來提取特征的航空影像理解系統(tǒng)。它包括三個子系統(tǒng):幾何推理專家系統(tǒng)(GRE)、模型選擇專家系統(tǒng)(MSE)、低水平視覺專家系統(tǒng)(LIVE)。信息從GRE傳至MSE,然后同LIVE進行通訊。SIGMA中的框架使用槽儲存一個對象的屬性和它與其他對象之間的關系。以框架中空間知識為基礎,產(chǎn)生目標的假設并用于影像特征相匹配。與目標外形有關的推理,由MSE子系統(tǒng)來處理,并轉換成圖像術語傳遞給LIVE子系統(tǒng)。這種自上而下的影像屬性的選擇有利于檢測到一些小屬性,通過從航空影像中提取房屋和路段信息的實驗對這個系統(tǒng)進行了測試。Mckeown等提出一個基于規(guī)則的系統(tǒng),用來從航空圖像上解譯飛機場.這個系統(tǒng)以大約450條規(guī)則為基礎,分為6組:初始化、用于原始圖像片段解譯的區(qū)域解譯、一致性檢查、組合圖像片段對功能區(qū)域的規(guī)則和用于建立機場模型的目標生成規(guī)則.Mckeown和Harvey研制了稱為•schemata一個航空影像解譯系統(tǒng),該系統(tǒng)中包括一個從標準知識集編匯的一些規(guī)則。它們從較高的層次模式中自動生成規(guī)則,這有利于更好地進行錯誤處理和更有效的操作。他們的系統(tǒng)包括大約100schemeta,其中每一個都會產(chǎn)生大約5個規(guī)則。start和Fischler提出了一個基于知識的系統(tǒng),用上下文信息進行地形識別。在不同的層次上用規(guī)則對上下文進行定義。上下文信息并不一定可靠,結果導致很多冗余.這個解譯系統(tǒng)是以三種規(guī)則為基礎的:候選結果,候選結果評價,一致性確定。在評價過程中,候選結果的比較是基于可靠的候選結果評價的基礎上的,在這個過程中評價相關相似性,候選結果是這類結果中的一個.作者認為這樣劃分知識是為了使其成為便于操作的大小單元。Stilla等描述了一個基于模型的系統(tǒng),用來從航空影像中自動提取建筑物信息,目標既具有特殊性又具有一般性。該系統(tǒng)中用產(chǎn)品規(guī)則和產(chǎn)品描述集來對要識別的目標進行建模.特殊的模型用不變的拓撲邏輯結構來描述目標,而一般的模型更具有普通性.這些系統(tǒng)說明基于規(guī)則的系統(tǒng)不能保證知識的添加性和推理的一致性。如果打破單一規(guī)則基礎而采用多尺度的多規(guī)則那么就會使程序模塊化程度降低,而且不易于更改。Draper等人建議用黑板系統(tǒng)和基于schema的結構來處理之。4.3黑板系統(tǒng)Nagao和Matsuyama首先陳述了用黑板模型的影像理解的問題,并把它應用到郊區(qū)的航空影像中,用于識別汽車、房屋、道路等。他們的系統(tǒng)包括全局的數(shù)據(jù)庫和一組知識源.黑板用層次方法記錄由:基本區(qū)域、典型區(qū)域和目標等組成的數(shù)據(jù).黑板還存儲一個標記圖,它連接原始影像的象素和數(shù)據(jù)庫中的相應區(qū)域?;緟^(qū)域是影像段分割的結果,并用灰度、尺寸、影像中的位置來標記。然后區(qū)域中的獨特的特征被提取,識別的結果是具有下面的基本屬性的區(qū)域。1.依據(jù)區(qū)域尺寸,大的、同類的區(qū)域;2.依據(jù)區(qū)域形狀,長的區(qū)域:3.依據(jù)區(qū)域光照,有陰影的區(qū)域;4.依據(jù)臨近區(qū)域的定位和太陽的定位,有陰影的區(qū)域;5.有植物和水的區(qū)域;6.根據(jù)紋理信息,高反差紋理區(qū)域。這些屬性以單獨的模式儲存在黑板上,然后根據(jù)不同區(qū)域的特殊特征存在或不存在,知識源會識別出一個特殊的目標.每種知識源都是一個規(guī)則,這些規(guī)則是在目標識別的圖像處理操作過程中的一個條件或是復雜操作的一部分。例如,利用知識源檢洲莊稼地就是這樣:“如果”是大的同類的區(qū)域、植被區(qū)域、沒有水的區(qū)域、沒有光照源的區(qū)域,“那么”可以證明這片區(qū)域是莊稼地。每種知識源單獨識別一個目標,且這個可以導致同一個區(qū)域識別相互沖突(如莊稼地和草地)。為了解決這個問題,系統(tǒng)自動地計算一個可靠值.然后,取可靠值最高的識別結果奮舍棄其他的識別結果。Fuger等描述了一個基于黑板的數(shù)據(jù)驅動系統(tǒng)來分析航空影像中人工的目標.一般的目標模型在黑板中用符號表達,單個對象用幾個屬性描述.模型被許多參數(shù)所限制,這種參數(shù)被一個用“發(fā)展階段”的封閉的循環(huán)系統(tǒng)所決定。stilla提出一個基于黑板影像理解的系統(tǒng),這種系統(tǒng)適合于航空影像中復雜場景的結構分析。從一個原始對象開始,反復使用中間結果,目標對象就可以一步一步地組成。對象的組成用一個派生的圖表來表達和記錄.通過二維圖像的分割和直線的近似計算來進行圖像的分析識別。黑板系統(tǒng)一般趨向于具有一個集中控制的結構,所以效率就成了問題。另外,黑板系統(tǒng)假設所需要的知識源是有效的,所以在計算機視覺應用中應用該方法前提是圖像已經(jīng)被分析過了。4.4框架Hanson和Rieman把框架作為假設的產(chǎn)生的機器。關于目標分類的知識表達為框架。槽描述了目標類別之間二進制幾何關系。槽還包括例示其他的對象描述的產(chǎn)品規(guī)則,這樣,框架可用于控制又可用于表達.Ikeuchi和kanade用來表達三維對象.當明確了目標模型是有用的,處理過程是自上而下的。然后,如果模型比較弱并且有較準確的數(shù)據(jù),那么處理過程是自下而上的。其他使用框架的系統(tǒng)包括^eRONYM、sxGMA、Nagao和Matsuyama等人的系統(tǒng),這些己經(jīng)在上面介紹過了。4.5語義網(wǎng)絡Nicolin和Gabler描述了一個分析航空影像的系統(tǒng),該系統(tǒng)用語義網(wǎng)絡來表達和解譯圖像。系統(tǒng)由一個短期存儲器(STM)、一個方法庫(MB)、一個長期存儲器(LTM)組成.5丁M的概念地等同于黑板,儲存影像解譯的部分結果.LTM存儲場景的先驗知識和特殊領域知識。系統(tǒng)匹配STM的內容和LTM的內容來產(chǎn)生解譯結果.這個過程由MB中的推理機模塊來完成.STM最墓本的內容是用一種自上而下的方式建立起來的,并且在一種模型驅動階段狀態(tài)產(chǎn)生,校驗LTM中存儲的目標屬性的已有部分和缺少的部分。為了基于知識從數(shù)字地圖中提取目標,Ma}’er已經(jīng)發(fā)展了一個基于語義網(wǎng)絡的系統(tǒng)。該系統(tǒng)是建立在語義網(wǎng)絡和框架描述相結合的基礎上的,在控制上采用模型驅動和數(shù)據(jù)驅動相結合。模型是由三個層次組成的,一般與自上而下的影像處理過程的各自的層相一致:(l)影像層,如數(shù)字地圖;(2)影像圖表和文本層:(3)語義對象語義網(wǎng)絡以圖形層的部分元素為基礎構建語義對象,這些對象構成了圖形對象和地形對象之間的一般或特殊的關系.例如,一個圖表對象層中延長的區(qū)域特征化為“路的兩邊”、“人行道”、“道路網(wǎng)”等.雖然其他對象的描述沒有給出,但是測試己證明了道路網(wǎng)的提取.用框架被設計來分析不同的概念和他們的屬性.對象的提取以模型驅動和數(shù)據(jù)驅動實例為基礎,初始的研究以用戶確定的特定目標為基礎的。雖然方法是以地圖上明確定義的信息提取為基礎,但是M叮er認為這個過程對影像信息的提取也是很有用的。Tonjes己使用語義網(wǎng)絡從重疊的航空影像來建立影像模型。輸出是具有適當植被表示的三維景觀。Tonjes認為語義網(wǎng)絡適用于表達結構化目標的知識.它的語義網(wǎng)絡是用框架描述的,其中包括關系、屬性和方法。語義網(wǎng)絡有三個層:(l)傳感器圖層,該層從紋理,條帶和圖像細節(jié)為基礎描述分割層。(2)幾何和材料層,該層利用傳感和地形解譯結果來描述三維表面層。(3)影像層,它是要提取的對象。語義網(wǎng)絡建立在三層之間。目標描述通過每層來重建,重建是基于數(shù)據(jù)驅動和模型驅動的。Lang和Forstner把他們的建筑物的提取方法建立在多態(tài)的中間層特征的基礎上。該方法中應用了部分分層描述的語義模型。各部分之間的關系沒有包括在其中。結合應用于頂點原始層的數(shù)據(jù)驅動模型和用于目標解譯、驗證假設層的模型驅動方法的基礎上,建立了建筑物假設層,應用了四種建筑物類型:平屋頂、非直角平屋頂、人字形屋頂、曲線屋頂.sch川ing和vogtle開發(fā)了一個利用已知地圖庫輔助解譯的數(shù)字地圖史新系統(tǒng)。影像與地圖相比較,檢測出地圖自編輯以來的變化。接著,語義網(wǎng)絡分析新的特征。產(chǎn)生了兩個網(wǎng)絡,一個用場景,另一個用于圖像,在其中網(wǎng)絡中的典型關系建立在不同的層次上.DoGunst提出了一個數(shù)據(jù)驅動和模型驅動相結合的方法,用來識別數(shù)字地圖更新所需的目標,這個方法是建立在用于道路描述的目標導向模型和用于特征識別的基于框架的語義網(wǎng)絡基礎上的??蚣茉敿毝x了目標之間的關系,目標的定義,可選的目標定義和預處理關系。道路的細節(jié)包括復雜道路的結合點,這些在知識庫中己被描述。這是一個包括幾個不同類型的道路特征的非常細節(jié)的研究。研究效果很明顯,但同時也表明解譯如此多細節(jié)存在著困難。Quint和sties在一996年,quint在1997年提出了一個叫MOSES的航空影像分析系統(tǒng),該系統(tǒng)用語義網(wǎng)絡作為建模工具,利用從地形圖和GIS數(shù)據(jù)中獲取的知識來自動精練。地圖和圖像中的一般模型的概念是相應的生成的模型概念的特例。對應于特定的場景的特定模型由系統(tǒng)自動產(chǎn)生:它是通過結合用圖像的一般模型進行地圖分析而產(chǎn)生場景的描述而產(chǎn)生的。一開始,數(shù)字化的有用的線段用來作為地圖的結構分析,從而獲取地圖的結構分析結果。這樣,結果圖像一般模型來產(chǎn)生特殊模型,以用于圖像分析,對于結構分析,原始影像用作輸入部分。分析是模型驅動的,進行目標識別。在圖像分析處理中用價值函數(shù)指導研究。總結之,己發(fā)現(xiàn)語義網(wǎng)絡有很廣泛的應用,并且己經(jīng)應用于航空影像和數(shù)字地圖的解譯中.4.6描述邏輯邏輯描述的方法在攝影測量方面的應用微乎其微.其中一個是Lang和schroder(1994)研制的基于描述邏輯的方法,利用該方法結合從地圖上提取的參考信息來解譯航空影像的變化。用KL一one相似描述邏輯來描述不同類型的目標知識和可能的變化類型,它在必要和充足的條件下對概念進行描述。用描述邏輯的描述模塊對有關場景和解譯的實際信息進行描述。用目標概念和變化概念在邏輯上描述空間地物的幾何關系和拓撲關系。目標被認為是經(jīng)過圖像處理和屬性提取后的目標概念的一個實例。變化概念的概念被定義為識別變化.利用目標導向和許多啟發(fā)式方法實現(xiàn)快速搜索。然而,這篇文章的例子似乎都以人工影像為基礎的。

篇7

因為太多的交流是非語言性的,這就很容易理解為什么人與計算機交互會有障礙。我們經(jīng)歷了從打孔卡到鍵盤的發(fā)展,隨著諸如Siri等APP的興起,我們可以進行語音輸入,但是僅僅通過語言,機器還是不能理解我們。

這就是為什么最近機器情緒識別的發(fā)展會如火如荼的原因。由于照相機技術和計算機視覺算法的發(fā)展,計算機通過面部表情、眼動方式、肢體語言、說話方式甚至抬頭等理解我們的能力顯著提高。

想象一下:一位虛擬心理醫(yī)生在臨床診斷時可以通過分析患者的面部表情來確診抑郁癥,甚至可以隨著病情的變化來量化情緒變化。銷售人員能更好地分析客戶對其產(chǎn)品和廣告的反應,老師們能知道課程計劃是否適用于全體學生,智能手機如果感覺到我們不安或困惑,會改變方式并提出建議。

換句話說,冷靜的設備會通過我們的面部表情來得知我們的情緒。

計算機視覺研究者已經(jīng)致力于這項研究幾十年了。在這幾十年中發(fā)生了哪些改變?照相機技術是一個改變。為了理解面部表情,通常需要對表情的微妙變化進行檢測,比如臉頰肌肉、嘴部的變化以及挑眉。然而,直到最近,在許多網(wǎng)絡相機中人臉看起來還是像一大團粉紅色的物質。但是現(xiàn)在即使最原始的智能手機都具有高質量的照相機,能捕捉到諸多顯示面部情緒和意圖的面部動作。

另一個變化是常規(guī)可用計算能力與內存的提高,從而可以運行更加復雜的情緒感知算法。由于有大量訓練面部表情算法的視頻數(shù)據(jù)庫可用,計算機視覺算法變得越來越正確、有效,還能實時工作。

卡耐基梅隆大學機器人研究所的Fernando De la Torre發(fā)明了特別強大的面部識別軟件,被稱作IntraFace。他的團隊采用機器學習的方法來教IntraFace如何以一種適用于大多數(shù)面孔的方式來識別和追蹤面部表情。然后他們創(chuàng)建了個性化算法能夠讓軟件對個人進行情感表達分析。不僅準確,而且高效,該軟件甚至能在手機上運行。

De la Torre和匹茲堡大學心理學家Jeffrey Cohn已經(jīng)在臨床檢測抑郁癥上獲得了令人鼓舞的結果。在自然環(huán)境下檢測抑郁癥要求能夠捕捉微妙的面部表情,這就是他們正在做的事。

當然,這并不是萬無一失的。演員可能會成功地偽造情感表達。但是,由于真假情緒在表達時間上的不一致,因此關注時間的算法不會輕易上當。此外,面部表情是嵌入到其他非語言行為中的。Cohn和其同事發(fā)現(xiàn)嚴重抑郁癥和輕微抑郁癥之間在聲音的時間上有細微的差別。

另一位成員,語言技術研究所的Louis-Philipe Morency使用多模式機器學習來評估病人的非語言行為來幫助醫(yī)生更好地評估抑郁癥和焦慮。他設想這項技術不僅能幫助診斷疾病,還能在某種程度上量化情感反應,可以幫助醫(yī)生追蹤精神疾病,就像血液檢測和X射線能夠幫助醫(yī)生監(jiān)測身體疾病一樣。

如果機器能理解我們的情緒,我們與機器的交互就會變得更加豐富??突仿〈髮W的Justine Cassell研究虛擬同伴在教育行業(yè)的應用,她發(fā)現(xiàn)當虛擬同伴能對學生們的情緒狀態(tài)做出適當反應,甚至在某些場合嘲笑他們時,學生們會更積極地參與也會學得更多。

篇8

關鍵詞:數(shù)字圖像技術;應用;發(fā)展趨勢

中圖分類號:TP391.41

計算機的特點在于能夠處理各種數(shù)據(jù),數(shù)字圖像能夠經(jīng)過增強、復原、分割等處理,隨著計算機技術的不斷發(fā)展和進步,現(xiàn)在的數(shù)字圖像技術具有圖像處理多樣性、精度高、圖像的再現(xiàn)性好、處理量大的優(yōu)點,本文主要研究數(shù)字圖像處理技術的發(fā)展現(xiàn)狀和發(fā)展趨勢。

1 數(shù)字圖像處理技術研究現(xiàn)狀

所謂圖像處理是指利用計算機來處理圖像的過程,主要是實現(xiàn)改善圖像的視覺效果,研究的內容主要包括圖像數(shù)字化、圖像增強、圖像還原以及圖像分割等。數(shù)字圖像處理最早來源于20世紀20年代的報紙業(yè),到20世紀50年代,隨著計算機的發(fā)展,數(shù)字圖像處理技術得到人們的普遍關注,數(shù)字圖像處理技術隨著太空計劃得到很大的發(fā)展,最具有典型的例子,是對月球照片的處理。

進入到20世紀70年代后,數(shù)字圖像處理技術隨著計算機斷層掃面(CT)的出現(xiàn)得到發(fā)展,在以后的時間里,數(shù)字圖像處理技術不斷有新的研究成果,1975年EWI公司研究的CT裝置獲得諾貝爾獎,目前數(shù)字圖像技術已廣泛應用在各行各業(yè)中。

2 數(shù)字圖像處理技術的應用

數(shù)字圖像處理技術目前在各行各業(yè)中都得到了很大的進展。在遙感航空航天方面,不少國家都派出了偵查飛機對目標地區(qū)進行空中攝影,進而通過圖像處理技術來分析照片,節(jié)省了人力、物理,也能夠從圖片中得到其他的有用信息。在20世紀60年代以來,美國以及其他的一些國家發(fā)射了資源遙感衛(wèi)星,由于成像條件非常差,因此圖像本身的質量也不高,需要采取數(shù)字圖像處理技術處理,如采用多波段掃描器進行掃描成像,圖像分辨率為30m,這些圖像轉變?yōu)閿?shù)字信號傳送下來,再經(jīng)過處理。數(shù)字圖像處理技術在各國的應用中已非常廣泛,如用在森林調查、災害監(jiān)測、資源勘查以及城市規(guī)劃中。

數(shù)字圖像處理技術最早來源于醫(yī)藥方面,因此在生物醫(yī)學工程方面,數(shù)字圖像處理技術也發(fā)揮出了巨大作用,除了上文所講述的CT之外,還有一些顯微圖像處理技術,主要是識別紅細胞、白細胞以及染色體分析等,在醫(yī)學診治方面X光肺圖像增強、心電圖分析以及超聲波圖像處理技術等發(fā)揮出了重要作用。

在通信工程方面,目前通信主要的發(fā)展趨勢為綜合性的多媒體通信,也就是將電視、計算機以及電話聯(lián)合在一起在數(shù)字通信網(wǎng)上傳輸,在傳輸?shù)倪^程中最為復雜和困難的地方集中在圖像的處理中,比如說,彩色電視信號速率為100Mbit/s以上,想要傳輸出去就需要壓縮信息的比特量,因此技術成敗的關鍵就在于編碼壓縮。目前國家正在大力研發(fā)的新的編碼方法,如小波變換圖像壓縮編碼以及自適應圖像網(wǎng)絡編碼等。

在工業(yè)和工程方面,主要的應用集中在自動裝置配線中檢測零件的質量、彈性力學照片的應力分析以及郵政信件的自動分檢等,另外在智能機器人中也有應用。在軍事、公安方面,數(shù)字圖像處理技術的應用主要集中在導彈的精確制導、偵查照片以及圖像的傳輸和顯示方面,在公安方面,主要應用在鑒別人臉、識別指紋以及圖片復原方面。數(shù)字圖像處理技術除了以上所講述的應用領域之外,在電視圖像的編輯、服裝設計、發(fā)型設計以及文物資料復原等方面也有廣泛的使用。

3 數(shù)字圖像處理技術的發(fā)展趨勢

目前數(shù)字圖像技術隨著科技的進步得到了很大的發(fā)展,隨著低成本硬件相關技術的發(fā)展可以想象數(shù)字圖像技術將會得到更加廣泛的應用,目前國內的研究成果主要集中在一些診斷、圖像壓縮編碼以及目標識別等方面,但是還沒有廣泛應用在實際生活中。數(shù)字圖像處理技術將會向著高分辨率、立體化、超高速以及智能化等方面發(fā)展,下面具體講述數(shù)字圖像處理技術的發(fā)展趨勢。

隨著計算機、人工智能以及思維科學研究的不斷發(fā)展,數(shù)字圖像處理技術在計算機視覺方面將會進一步的發(fā)展,智能機器人的重要感覺器官是視覺,目前研究的開放話題集中在理解和識別三維應力,將會應用在軍事勘察、危險環(huán)境作業(yè)以及家庭服務等方面,目前人們對于自身的視覺了解的還非常少,因此在計算機視覺方面還需要進一步的探索。

數(shù)字圖像處理技術還會向著虛擬現(xiàn)實發(fā)展,所謂虛擬現(xiàn)實就是使用計算機構成一個虛擬的三維空間,這項技術的發(fā)展是在計算機硬件技術的提高方面提出的,人們應用機器人身上的攝像機能夠真實的感受到所在的環(huán)境,進而操縱機器人的行為,另外網(wǎng)上虛擬現(xiàn)實也是未來的一個發(fā)展方向。人們在完成社會生產(chǎn)中往往習慣使用自身的認識和工具,將這些掌握在自身手中,因此目前時代的發(fā)展趨勢就是將原來二維的東西向著三維發(fā)展,如三維重建技術在地圖方面的使用,在軍事方面能夠使用電子沙盤實現(xiàn)任意角度的轉化和計算,也能夠真實的直觀的反應兩點之間的障礙物等,還能夠實現(xiàn)模擬飛行路線,為作戰(zhàn)指揮帶來極大的便利。在計算機中進行三維重建目前的熱點和難點問題主要是計算機視覺研究領域。在圖像壓縮、識別以及分割方面,目前已取得很大的研究進展,目前圖像處理面臨的新的問題主要是圖像專業(yè)壓縮算法、圖像識別算法等。

4 結束語

綜上所述,本文先分析了數(shù)字圖像處理技術研究現(xiàn)狀和主要的應用領域,進而研究數(shù)字圖像技術的發(fā)展趨勢。目前數(shù)字圖像處理技術已廣泛的應用在生活中,如在網(wǎng)絡、手機等中的應用,數(shù)字圖像處理技術的發(fā)展與人們的生活息息相關,隨著技術的不斷發(fā)展,數(shù)字圖像處理技術還會不斷得到進步,這些還需要更多的人努力去研究。

參考文獻:

[1]孔大力,崔洋.數(shù)字圖像處理技術的研究現(xiàn)狀與發(fā)展方向[J].山東水利職業(yè)學院院刊,2012(04):11-14.

[2]陳炳權,劉宏立,孟凡斌.數(shù)字圖像處理技術的現(xiàn)狀及其發(fā)展方向[J].吉首大學學報(自然科學版),2009(01):63-70.

[3]呂戈靜.淺談數(shù)字圖像處理技術的現(xiàn)狀及發(fā)展[J].電腦知識與技術,2012(33):8035-8036.

[4]丁可.數(shù)字圖像處理技術研究與發(fā)展方向[J].經(jīng)濟研究導刊,2013(18):246+270.

篇9

一、數(shù)據(jù)融合

1.1概念的提出

1973年,數(shù)據(jù)融合技術在美國國防部資助開發(fā)的聲納信號理解系統(tǒng)中得到了最早的體現(xiàn)。

7年代末,在公開的技術文獻中開始出現(xiàn)基于多系統(tǒng)的整合意義的融合技術。1984年美國國防部數(shù)據(jù)融合小組(dfs)定義數(shù)據(jù)融合為:“對多源的數(shù)據(jù)和信息進行多方的關聯(lián)、相關和綜合處理,以更好地進行定位與估計,并完全能對態(tài)勢及帶來的威脅進行實時評估”。

1998年1月,buchroithner和wald重新定義了數(shù)據(jù)融合:“數(shù)據(jù)融合是一種規(guī)范框架,這個框架里人們闡明如何使用特定的手段和工具來整合來自不同渠道的數(shù)據(jù),以獲得實際需要的信息”。

wald定義的數(shù)據(jù)融合的概念原理中,強調以質量作為數(shù)據(jù)融合的明確目標,這正是很多關于數(shù)據(jù)融合的文獻中忽略但又是非常重要的方面。這里的“質量”指經(jīng)過數(shù)據(jù)融合后獲得的信息對用戶而言較融合前具有更高的滿意度,如可改善分類精度,獲得更有效、更相關的信息,甚至可更好地用于開發(fā)項目的資金、人力資源等。

1.2基本內容

信息融合是系統(tǒng)所具備的一個基本功能,人類本能地將各感官獲得的信息與先驗知識進行綜合,對周圍環(huán)境和發(fā)生的事件做出估計和判斷。當運用各種現(xiàn)代信息處理方法,通過計算機實現(xiàn)這一功能時,就形成了數(shù)據(jù)融合技術。

數(shù)據(jù)融合就是充分利用多傳感器資源,通過對這些多傳感器及觀測信息的合理支配和使用,把多傳感器在空間或時間上的冗余或互補信息依據(jù)某些準則進行組合,以獲得被測對象的一致性解釋或描述。數(shù)據(jù)融合的內容主要包括:

(1)數(shù)據(jù)關聯(lián)。確定來自多傳感器的數(shù)據(jù)反映的是否是同源目標。

(2)多傳感器id/軌跡估計。假設多傳感器的報告反映的是同源目標,對這些數(shù)據(jù)進行綜合,改進對該目標的估計,或對整個當前或未來情況的估計。

(3)采集管理。給定傳感器環(huán)境的一種認識狀態(tài),通過分配多個信息捕獲和處理源,最大限度地發(fā)揮其性能,從而使其操作成本降到最低。傳感器的數(shù)據(jù)融合功能主要包括多傳感器的目標探測、數(shù)據(jù)關聯(lián)、跟蹤與識別、情況評估和預測。

根據(jù)融合系統(tǒng)所處理的信息層次,目前常將信息融合系統(tǒng)劃分為3個層次:

(l)數(shù)據(jù)層融合。直接將各傳感器的原始數(shù)據(jù)進行關聯(lián)后,送入融合中心,完成對被測對象的綜合評價。其優(yōu)點是保持了盡可能多的原始信號信息,但是該種融合處理的信息量大、速度慢、實時性差,通常只用于數(shù)據(jù)之間配準精度較高的圖像處理。

(2)特征層融合。從原始數(shù)據(jù)中提取特征,進行數(shù)據(jù)關聯(lián)和歸一化等處理后,送入融合中心進行分析與綜合,完成對被測對象的綜合評價。這種融合既保留了足夠數(shù)量的原始信息,又實現(xiàn)了一定的數(shù)據(jù)壓縮,有利于實時處理,而且由于在特征提取方面有許多成果可以借鑒,所以特征層融合是目前應用較多的一種技術。但是該技術在復雜環(huán)境中的穩(wěn)健性和系統(tǒng)的容錯性與可靠性有待進一步改善。

(3)決策層融合。首先

每一傳感器分別獨立地完成特征提取和決策等任務,然后進行關聯(lián),再送入融合中心處理。這種方法的實質是根據(jù)一定的準則和每個決策的可信度做出最優(yōu)的決策。其優(yōu)點是數(shù)據(jù)通訊量小、實時性好,可以處理非同步信息,能有效地融合不同類型的信息。而且在一個或幾個傳感器失效時,系統(tǒng)仍能繼續(xù)工作,具有良好的容錯性,系統(tǒng)可靠性高,因此是目前信息融合研究的一個熱點。但是這種技術也有不足,如原始信息的損失、被測對象的時變特征、先驗知識的獲取困難,以及知識庫的巨量特性等。

1.3處理模型

美國數(shù)據(jù)融合工作小組提出的數(shù)據(jù)融合處理模型,當時僅應用于軍事方面,但該模型對人們理解數(shù)據(jù)融合的基本概念有重要意義。模型每個模塊的基本功能如下:

數(shù)據(jù)源。包括傳感器及其相關數(shù)據(jù)(數(shù)據(jù)庫和人的先驗知識等)。

源數(shù)據(jù)預處理。進行數(shù)據(jù)的預篩選和數(shù)據(jù)分配,以減輕融合中心的計算負擔,有時需要為融合中心提供最重要的數(shù)據(jù)。目標評估。融合目標的位置、速度、身份等參數(shù),以達到對這些參數(shù)的精確表達。主要包括數(shù)據(jù)配準、跟蹤和數(shù)據(jù)關聯(lián)、辨識。

態(tài)勢評估。根據(jù)當前的環(huán)境推斷出檢測目標與事件之間的關系,以判斷檢測目標的意圖。威脅評估。結合當前的態(tài)勢判斷對方的威脅程度和敵我雙方的攻擊能力等,這一過程應同時考慮當前的環(huán)境和對敵策略等因素,所以較為困難。

處理過程評估。監(jiān)視系統(tǒng)的性能,辨識改善性能所需的數(shù)據(jù),進行傳感器資源的合理配置。人機接口。提供人與計算機間的交互功能,如人工操作員的指導和評價、多媒體功能等。

二、多傳感器在林業(yè)中的應用

2.1在森林防火中的應用

在用modis(moderateresolutionimagingspectroradiometer)數(shù)據(jù)測定森林火點時的2、22、23波段的傳感器輻射值已達飽和狀態(tài),用一般圖像增強處理方法探測燃燒區(qū)火點的結果不理想。余啟剛運用數(shù)據(jù)融合技術,在空間分辨率為1m的熱輻射通道的數(shù)據(jù)外加入空間分辨率為25m的可見光通道的數(shù)據(jù),較好地進行了不同空間分辨率信息的數(shù)據(jù)融合,大大提高了對火點位置的判斷準確度。為進一步提高衛(wèi)星光譜圖像數(shù)據(jù)分析的準確性與可靠性,利用原有森林防火用的林區(qū)紅外探測器網(wǎng),將其與衛(wèi)星光譜圖像數(shù)據(jù)融合,可以使計算機獲得gps接收機輸出的有關信息通過與rs實現(xiàn)高效互補性融合,從而彌補衛(wèi)星圖譜不理想的缺失區(qū)數(shù)據(jù)信息,大大提高燃燒區(qū)火點信息準確度和敏感性。

2.2森林蓄積特征的估計

hampusholmstrom等在瑞典南部的試驗區(qū)將spot-4×s衛(wèi)星數(shù)據(jù)和carabas-iivhfsar傳感器的雷達數(shù)據(jù)進行了融合,采用knn(knearestneighbor)方法對森林的蓄積特征(林分蓄積、樹種組成與年齡)進行了估計。

knn方法就是采用目標樣地鄰近k個(k=1)最近樣地的加權來估計目標樣地的森林特征。研究者應用衛(wèi)星光譜數(shù)據(jù)、雷達數(shù)據(jù)融合技術對試驗區(qū)的不同林分的蓄積特征進行估計,并對三種不同的數(shù)據(jù)方法進行誤差分析。試驗表明,融合后的數(shù)據(jù)作出的估計比單一的衛(wèi)星數(shù)據(jù)或雷達數(shù)據(jù)的精度高且穩(wěn)定性好。

2.3用非垂直航空攝像數(shù)據(jù)融合gis信息更新調查數(shù)據(jù)

森林資源調查是掌握森林資源現(xiàn)狀與變化的調查方法,一般以地面調查的方法為主,我國5年復查一次。由于森

林資源調查的工作量巨大,且要花費大量的人力、物力和資金。國內外許多學者都在探索航空、航天的遙感調查與估計方法。 trevorjdavis等22年提出采用非垂直的航空攝影數(shù)據(jù)融合對應的gis數(shù)據(jù)信息實現(xiàn)森林調查數(shù)據(jù)

的快速更新,認為對森林資源整體而言,僅某些特殊地區(qū)的資源數(shù)據(jù)需要更新。在直升飛機側面裝上可視的數(shù)字攝像裝置,利用gps對測點進行定位,對特殊地區(qū)的攝像進行拍攝,同時與對應的gis數(shù)據(jù)進行融合,做出資源變化的估計或影像的修正。

試驗表明,融合后的數(shù)據(jù)可以同高分辨率矯正圖像相比,該方法花費少,精度高,能充分利用影像的可視性,應用于偏遠、地形復雜、不易操作、成本高的區(qū)域,同時可避免遙感圖像受云層遮蓋。

三、數(shù)據(jù)融合在林業(yè)中的應用展望

3.1在木材檢測中的應用

3.1.1木材缺陷及其影響

木材是天然生長的有機體,生長過程中不可避免地有尖削度、彎曲度、節(jié)子等生長缺陷,這些缺陷極大地影響了木材及其制品的優(yōu)良特性,以及木材的使用率、強度、外觀質量,并限制了其應用領域。在傳統(tǒng)木制品生產(chǎn)過程中,主要依靠人的肉眼來識別木材缺陷,而木材板材表面缺陷在大小、形狀和色澤上都有較大的差異,且受木材紋理的影響,識別起來非常困難,勞動強度大,效率低,同時由于熟練程度、標準掌握等人為因素,可能造成較大的誤差。另外在集成材加工中,板材缺陷的非雙面識別嚴重影響了生產(chǎn)線的生產(chǎn)節(jié)拍。因此必須開發(fā)一種能夠對板材雙面缺陷進行在線識別和自動剔除技術,以解決集成材加工中節(jié)子人工識別誤差大、難以實現(xiàn)雙面識別、剔除機械調整時間長等問題。

3.1.2單一傳感器在木材檢測中的應用

對木材及人造板進行無損檢測的方法很多,如超聲波、微波、射線、機械應力、震動、沖擊應力波、快速傅立葉變換分析等檢測方法。超聲技術在木材工業(yè)中的應用研究主要集中在研究聲波與木材種類、木材結構和性能之間的關系、木材結構及缺陷分析、膠的固化過程分析等。

隨著計算機視覺技術的發(fā)展,人們也將視覺傳感器應用于木材檢測中。新西蘭科學家用視頻傳感器研究和測量了紙漿中的纖維橫切面的寬度、厚度、壁面積、壁厚度、腔比率、壁比率等,同時準確地測量單個纖維和全部纖維的幾何尺寸及其變化趨勢,能夠區(qū)分不同紙漿類型,測定木材纖維材料加固結合力,并動態(tài)地觀察木材纖維在材料中的結合機理。

新西蘭的基于視覺傳感器的板材缺陷識別的軟件已經(jīng)產(chǎn)業(yè)化,該軟件利用數(shù)碼相機或激光掃描儀采集板材的圖像,自動識別板材節(jié)子和缺陷的位置,控制板材的加工。該軟件還具有進行原木三維模型真實再現(xiàn)的計算機視覺識別功能,利用激光掃描儀自動采集原木的三維幾何數(shù)據(jù)。

美國林產(chǎn)品實驗室利用計算機視覺技術對木材刨花的尺寸大小進行分級,確定各種刨花在板中的比例和刨花的排列方向;日本京都大學基于視覺傳感器進行了定向刨花板內刨花定向程度的檢測,從而可以通過調整定向鋪裝設備優(yōu)化刨花的排列方向來提高定向刨花板的強度。

在制材加工過程中,利用計算機視覺技術在線實時檢測原木的形狀及尺寸,選擇最佳下鋸方法,提高原木的出材率。同時可對鋸材的質量進行分級,實現(xiàn)木材的優(yōu)化使用;在膠合板的生產(chǎn)過程中,利用計算機視覺技術在線實時檢測單板上的各種缺陷,實現(xiàn)單板的智能和自動剪切,并可測量在剪切過程中的單板破損率,對單板進行分等分級,實現(xiàn)自動化生產(chǎn)過程。wengert等在綜合了大量的板材分類經(jīng)驗的基礎上,建立了板材分級分類的計算機視覺專家系統(tǒng)。在國內這方面的研究較少,王金滿等用計算機視覺技術對刨花板施膠效果進行了定量分析。

x射線對木材及木質復合材料的性能檢測已得到了廣泛的應用,目前該技術主要應用于對木材密度、含水率、纖維素相對結晶度和結晶區(qū)大小、纖維的結構和性質等進行檢測,并對木材內部的各種缺陷進行檢測。

3.1.3數(shù)據(jù)融合在木材檢測中的應用展望

單一傳感器在木材工業(yè)中已得到了一定程度的應用,但各種單項技術在應用上存在一定的局限性。如視覺傳感器不能檢測到有些與木材具有相同顏色的節(jié)子,有時會把木板上的臟物或油脂當成節(jié)子,

造成誤判,有時也會受到木材的種類或粗糙度和濕度的影響,此外,這種技術只能檢測部分表面缺陷,而無法檢測到內部缺陷;超聲、微波、核磁共振和x射線技術均能測量密度及內部特征,但是它們不能測定木材的顏色和瑕疵,因為這些缺陷的密度往往同木板相同。因此,一個理想的檢測系統(tǒng)應該集成各種傳感技術,才能準確、可靠地檢測到木材的缺陷。

基于多傳感器(機器視覺及x射線等)數(shù)據(jù)融合技術的木材及木制品表面缺陷檢測,可以集成多個傳統(tǒng)單項技術,更可靠、準確地實時檢測出木材表面的各種缺陷,為實現(xiàn)木材分級自動化、智能化奠定基礎,同時為集裁除鋸、自動調整、自動裁除節(jié)子等為一身的新型視頻識別集成材雙面節(jié)子數(shù)控自動剔除成套設備提供技術支持。

3.2在精確林業(yè)中的應用

美國華盛頓大學研究人員開展了樹形自動分析、林業(yè)作業(yè)規(guī)劃等研究工作;auburn大學的生物系統(tǒng)工程系和usda南方林業(yè)實驗站與有關公司合作開展用gps和其他傳感器研究林業(yè)機器系統(tǒng)的性能和生產(chǎn)效率。

篇10

關鍵詞:智能科學與技術專業(yè);課程體系;教材建設

繼2004年北京大學率先在國內建立“智能科學與技術”本科專業(yè)之后,2005年,北京郵電大學、南開大學和西安電子科技大學;2006年,首都師范大學、北京信息科技大學、武漢工程大學和西安郵電學院;2007年,北京科技大學、廈門大學和湖南大學;2008年,河北工業(yè)大學和桂林電子科技大學;2009年,重慶郵電大學和大連海事大學;2010年,中南大學和上海理工大學先后經(jīng)教育部批準先后設立了“智能科學與技術”本科專業(yè)[1-2]。在中國人工智能學會教育工作委員會的指導下,自2002年起,各相關專業(yè)教師定期召開智能科學與技術教育學術研討會,并出版教育論文專輯,大力推進了我國智能科學與技術教育的健康、快速發(fā)展,并對我國智能科學技術的人才培養(yǎng)和學科建設起到了極大的帶動作用。

作為一個發(fā)展中的新興專業(yè),目前各高校仍主要結合自身基礎和特點建設該專業(yè)。如南開大學以智能技術與智能工程為核心專業(yè)課程[3];北京科技大學從社會需求角度出發(fā),以提高學生軟件實踐能力為切入點[4];河北工業(yè)大學根據(jù)相關專業(yè)的就業(yè)現(xiàn)狀,以提高學生硬件實踐能力為著力點[5]。為了解決南開大學、北京科技大學和河北工業(yè)大學3所高校共同面臨的課程體系和教材建設等問題,三校教師分別于2010年6月16日和8月2日在南開大學、河北工業(yè)大學進行了兩次研討,現(xiàn)將研討成果匯總于此。

1研討背景

“智能科學與技術”專業(yè)自開辦以來,不可避免地要回答如下3個方面的問題:

1) 來自用人單位的問題:“智能科學與技術”專業(yè)是做什么的?與其他專業(yè)相比優(yōu)勢何在?

2) 來自學生及家長的問題:“智能科學與技術”專業(yè)是學什么的?與其他專業(yè)相比優(yōu)勢何在?

3) 來自教師自身的問題:“智能科學與技術”專業(yè)應該教什么?與其他專業(yè)相比優(yōu)勢何在?

無論是做什么、學什么還是教什么,歸根到底是課程體系和教材內容。無論是研究生課程下移(帶來學生接受知識的困難),還是在其他專業(yè)教學體系基礎上做簡單的增、刪、改(帶來學生知識結構的凌亂),都是不行的,長此以往的后果將是沒有優(yōu)勢,只有劣勢。

南開大學、北京科技大學和河北工業(yè)大學3所高校的“智能科學與技術”專業(yè)建設都源于自動化專業(yè)基礎,而且都具有典型的工科特色;同時3所高校分別是教育部直屬“985”高校、教育部直屬國家“優(yōu)勢學科創(chuàng)新平臺”建設項目試點高校和河北省屬“211”高校,3所高校的“智能科學與技術”專業(yè)分別于2006、2007和2008年招生。3所高校在“智能科學與技術”專業(yè)建設上的異同特點以及地域便利的條件,為優(yōu)勢互補、交流融合提供了機遇。

2課程體系

根據(jù)研究任務的不同,智能科學技術涵蓋的內容可以劃分為智能科學、智能技術、智能工程三個層次[6]。

1) 智能科學:主要任務是研究人的智慧,建立人機結合系統(tǒng)理論,并用其模擬人的智慧。

2) 智能技術:在智能科學的框架內創(chuàng)建人機結合智能系統(tǒng)所需要的方法、工具和技術。

3) 智能工程:利用智能科學的理念和思想,充分運用智能技術工具創(chuàng)建各種應用系統(tǒng)。它是當前新技術、新產(chǎn)品、新產(chǎn)業(yè)的重要發(fā)展方向、開發(fā)策略和顯著標志。

根據(jù)上述智能科學技術的劃分,智能科學與技術專業(yè)的課程體系同樣劃分為理論、技術與工程應用3個層次,具體框架如圖1所示。

需要說明的是,由于課時、學時等因素的限制,有些課程需要包含未列入課程的部分內容。如智能科學與技術概論課程內含系統(tǒng)論的簡要介紹;智能控制系統(tǒng)包含可編程序控制器、智能傳感器、智能執(zhí)行器等內容;智能工程包含若干典型智能系統(tǒng)實例。

3教材建設

經(jīng)南開大學、北京科技大學和河北工業(yè)大學3所高校的討論,一致認為工科專業(yè)應以技術和工程應用兩個層次為核心,并將人工智能導論和智能信息處理兩門課程的教材合并為智能技術。同時,根據(jù)南開大學側重理論、北京科技大學側重軟件、河北工業(yè)大學側重硬件的原則進行分工,編寫對應課程的教學大綱和教材內容。

3.1智能技術

本課程包括智能計算和計算機視覺兩部分,分別介紹以對人腦的物理結構進行模擬為主要特征的聯(lián)接主義智能技術和以模擬人類視覺處理為主要特征的計算機視覺兩部分。它是智能技術的主干內容;也是實現(xiàn)智能技術、組成智能系統(tǒng)的重要工具,屬于本專業(yè)本科生的專業(yè)基礎課。通過智能技術的學習,學生應能夠掌握智能技術的基本原理和方法。通過課堂講解、,并配合一定的作業(yè)練習、上機實驗等環(huán)節(jié),學生應初步具備運用智能技術和方法分析和解決問題的能力。本課程擬定90學時,其中授課54學時,實驗36學時。

教材內容包括智能計算和計算機視覺兩部分,智能計算部分包括神經(jīng)網(wǎng)絡、模糊理論和遺傳算法/蟻群算法,計算機視覺包括計算機視覺導論、計算機視覺理論基礎、圖像預處理、圖像分割、物體識別、圖像理解、雙目立體視覺、三維視覺技術、主動視覺。

神經(jīng)網(wǎng)絡講授單個神經(jīng)元(感知器)的動作原理,與實際生物神經(jīng)元的對應關系;講授BP神經(jīng)網(wǎng)絡的組成,網(wǎng)絡的特性和對非線性函數(shù)的模擬功能;介紹BP算法的優(yōu)、缺點;講授H網(wǎng)絡的組成結構,H網(wǎng)絡在解決優(yōu)化問題的優(yōu)越性。模糊理論講授模糊集合的概念,建立隸屬度函數(shù)的概念;介紹模糊規(guī)則的建立原則,模糊規(guī)則與模糊系統(tǒng)收入輸出量之間的關系;介紹模糊化以及模糊量精確化的幾種常用方法。遺傳算法和蟻群算法只作簡要介紹,重點介紹這兩種算法的特點和成功的應用實例,使學習者有一個感性認識,明確這種類型算法的“迭代”特點以及總體最優(yōu)目標與個體行為之間的聯(lián)系。

計算機視覺理論基礎主要介紹Marr的視覺計算理論、圖像的相關知識、傅立葉變換基礎;圖像預處理主要介紹像素亮度變換、幾何變換、直方圖修正、局部預處理、圖像復原;圖像分割主要介紹閾值處理方法、基于邊界的分割方法、基于區(qū)域的分割方法;形狀表示與描述主要介紹鏈碼、使用片斷序列描述邊界、尺度空間方法、基于區(qū)域的形狀表示與描述;物體識別主要介紹知識的表示、統(tǒng)計模式識別、神經(jīng)元網(wǎng)絡、遺傳算法、模擬退火、模糊系統(tǒng);圖像理解主要介紹并行和串行處理控制、分層控制、非分層控制;雙目立體視覺主要介紹雙目立體視覺原理、精度分析、系統(tǒng)結構、立體成像、立體匹配、系統(tǒng)標定;三維視覺技術主要介紹結構光三維視覺原理、光模式投射系統(tǒng)、標定方法、光度立體視覺、由紋理恢復形狀、激光測距法;主動視覺主要介紹從陰影恢復形狀、從運動恢復結構、主動跟蹤。

3.2智能控制理論與技術

本課程是“智能科學與技術”專業(yè)的一門重要專業(yè)課程,目的是使學生了解智能科學與控制理論結合所產(chǎn)生之智能控制理論的基本概念和應用價值;使學生熟知當前主流智能控制技術的種類,并掌握模糊控制、神經(jīng)網(wǎng)絡控制以及進化計算、群體智能的基礎知識,了解智能技術與傳統(tǒng)控制方法的結合點;加強MATLAB仿真實驗的訓練,以使學生更好地理解基礎知識,培養(yǎng)學生使用高級智能控制方法解決實際控制問題的能力。本課程的學習將使學生加深對控制理論的理解,明晰智能技術在控制中的應用技巧,也為本科生繼續(xù)深造打下基礎。本課程擬定64學時,其中授課54學時,實驗10學時。

教材內容包括智能控制概論,介紹智能控制的發(fā)展歷程和應用領域,簡介幾種重要的智能控制方法;專家控制,簡介專家系統(tǒng)的基本結構,講授專家PID控制器的原理與設計方法;模糊控制,講授模糊數(shù)學基礎知識、傳統(tǒng)的模糊控制原理和控制器設計與實現(xiàn)方法、模糊PID控制的兩種形式,特別是PID控制參數(shù)的模糊整定技術;神經(jīng)網(wǎng)絡控制,講授前饋神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡中幾種典型的網(wǎng)絡模型以及學習算法、基于神經(jīng)網(wǎng)絡的線性系統(tǒng)辨識技術、神經(jīng)網(wǎng)絡逆模控制等;進化計算與控制,講授進化計算的概念、遺傳算法的原理及其與其他智能方法的結合,介紹遺傳機器人學;群體智能與控制,講授蟻群算法的基本原理及其在控制問題中的應用,介紹群體機器人學。

3.3單片機原理與應用

本課程是“智能科學與技術”專業(yè)的一門專業(yè)課程,目的是使學生了解單片機的組成原理及常用控制算法的實現(xiàn);掌握51系列單片機指令系統(tǒng)和一般匯編程序設計編寫方法;熟悉常用的單片機硬件擴展技術;在此基礎上,熟練掌握控制算法的單片機程序編寫與調試。本課程擬定54學時,其中授課38學時,實驗16學時。

教材內容包括單片機系統(tǒng)概述,介紹單片機定義、單片機發(fā)展過程及單片機硬件結構;單片機指令系統(tǒng)及程序設計,介紹指令系統(tǒng)和匯編語言程序設計;硬件資源及接口技術,介紹硬件資源和接口技術;單片機使用技術,介紹抗干擾技術、C語言應用程序設計;依次介紹PID控制器、狀態(tài)反饋控制器、模糊控制器、系統(tǒng)辨識、卡爾曼濾波、滑??刂破鳌⒆顑?yōu)控制器、魯棒控制器、自適應控制器、神經(jīng)網(wǎng)絡控制器的歷史沿革、基本原理、常用形式和單片機具體實現(xiàn)方法。

3.4嵌入式系統(tǒng)

本課程以當前主流的嵌入式系統(tǒng)技術為背景,以嵌入式系統(tǒng)原理為基礎,以嵌入式系統(tǒng)開發(fā)體系為骨架,以嵌入式控制系統(tǒng)開發(fā)為目標,較為全面地介紹嵌入式系統(tǒng)的基本概念、軟硬件的基本體系結構、軟硬件開發(fā)方法、相關開發(fā)工具、應用領域、熱門領域的開發(fā)實例以及當前的一些前沿動態(tài),為學生展示較為完整的嵌入式控制系統(tǒng)領域概況。本課程擬定64學時,其中授課48學時,實驗16學時。

教材依據(jù)嵌入式控制系統(tǒng)的特征,將控制算法、嵌入式系統(tǒng)硬件、操作系統(tǒng)、應用程序設計及組態(tài)軟件作為統(tǒng)一的技術平臺介紹,突出嵌入式技術在控制系統(tǒng)中應用的特點,重點介紹嵌入式控制系統(tǒng)軟硬件、電路、操作系統(tǒng)、實時性、可靠性等特性,從軟件體系結構及開發(fā)的角度出發(fā),強調實時調度、Bootloader、BSP、嵌入式實時多任務系統(tǒng)設計、交叉開發(fā)與仿真開發(fā)等關鍵技術,并特別引入了工業(yè)控制中需要的電磁兼容性設計和大量的典型嵌入式控制系統(tǒng)實例設計。通過本課程的學習,學生不但可以學會使用工具開發(fā)嵌入式軟硬件,而且可以從總體角度選擇適當?shù)募夹g和方法,全面規(guī)劃和設計嵌入式系統(tǒng)。

3.5智能工程

本課程是“智能科學與技術”專業(yè)的一門核心專業(yè)課程。面向智能技術的實際應用,著眼于解決工程應用中的技術問題,從典型系統(tǒng)設計案例分析出發(fā),通過大量實驗提高學生的工程實踐能力。本課程擬定36學時,全部為授課學時。

教材內容包括智能工程概論,介紹智能工程現(xiàn)狀、工程設計原則和工程實際流程;常用傳感器原理,介紹傳感器一般特性、光電式傳感器和視覺傳感器;典型智能系統(tǒng)設計案例,包括智能移動機器人、智能電梯群控電梯等系統(tǒng)。

3.6智能機器人

課程通過對一個具有代表性的仿人機器人的拆解,將知識點拆解成6個主要教學模塊:1)機器人控制模塊,介紹各類控制模塊的原理與組成;2)機器人運動系統(tǒng),介紹電機與舵機的原理與控制方法;3)機器人動作系統(tǒng),介紹機器人各部件的協(xié)調控制;4)機器人視覺系統(tǒng),介紹典型的超聲波、影像傳感器的原理與識別算法;5)機器人表現(xiàn)系統(tǒng)原理,介紹人與機器人的交互原理;6)機器人通信系統(tǒng)原理,介紹機器人之間的數(shù)據(jù)與信息傳遞方法。學生學習時,能夠與基礎知識相聯(lián)系,并能掌握機器人這門技術,為從事機器人產(chǎn)品研發(fā)工作打下堅實的基礎。本課程擬定54學時,其中授課44學時,實驗10學時。

教材面向“智能科學與技術”專業(yè),同時兼顧信息類專業(yè)學生編寫,根據(jù)這類專業(yè)學生的知識結構和特點組織內容。從具體的機器人控制需求出發(fā),將自動控制的基本理論和機器人控制特點相結合,講授機器人控制系統(tǒng)的組成、規(guī)律、特點和設計方法。理論上反映當前的最新進展,內容上考慮初學者的需求,側重普及性、實用性和新穎性,結構體系符合信息類和控制類專業(yè)學生的特點,力求簡潔、清楚,對技術的敘述遵循目標、問題、理論依據(jù)、實現(xiàn)方法、實際情況、發(fā)展方向的方式。做到重點突出,符合實際,滿足需要,指導性強。

3.7智能控制系統(tǒng)

本課程是“智能科學與技術”專業(yè)的一門專業(yè)課程,使學生了解智能控制系統(tǒng)的基礎知識;掌握智能控制系統(tǒng)中最新的智能傳感技術、智能控制器、智能執(zhí)行能執(zhí)行器及智能網(wǎng)絡與接口技術;掌握智能控制系統(tǒng)中多個關鍵硬件裝置的識別及其使用。通過學習多個智能控制系統(tǒng)的開發(fā)實例,學生應掌握智能控制系統(tǒng)的設計方法與技術,堅實地掌握最新智能控制系統(tǒng)知識,提高理論聯(lián)系實際的能力,并為學習其他課程的打下堅實基礎。本課程擬定64學時,其中授課48學時,實驗16學時。

教材內容包括概述,介紹智能控制系統(tǒng)的基本概念、基本內容和機構及其發(fā)展趨勢;智能傳感系統(tǒng),講授智能數(shù)據(jù)采集技術、傳感器智能化的數(shù)據(jù)處理方法、多傳感器信息融合的方法、智能傳感器實現(xiàn)方法與典型實例;智能控制器設計,講授基于單片機的智能控制器設計及其應用、基于高性能嵌入式ARM的智能控制器設計及其應用、基于PLC的智能控制器設計及其應用;智能電動執(zhí)行器,講授智能電動執(zhí)行器的硬件實現(xiàn)技術,軟件設計技術以及典型的智能電動執(zhí)行器實例及其應用;智能網(wǎng)絡與接口技術,講授無線傳感器智能網(wǎng)絡,工業(yè)現(xiàn)場總線網(wǎng)絡以及智能傳感器、智能控制器和智能執(zhí)行器的網(wǎng)絡接口實現(xiàn)技術;智能控制系統(tǒng)設計實例,綜合利用前面的知識設計網(wǎng)絡化智能壓力傳感器的系統(tǒng)設計、基于聲音定位的智能機器人系統(tǒng)設計、基于微機電慣性傳感器的汽車多路況智能防撞系統(tǒng)的設計、大型設備的PLC智能控制系統(tǒng)設計。

4結語

通過南開大學、北京科技大學和河北工業(yè)大學3所高校的研討,我們凝練出較完整的“智能科學與技術”專業(yè)課程體系,體現(xiàn)出本專業(yè)的特色;提出可供3所高校共同使用的教學大綱和教材內容,體現(xiàn)出學生培養(yǎng)的工程實踐導向。這些研究成果可以為開辦“智能科學與技術”專業(yè)的兄弟院校進一步研討提供藍本,也可以為籌建該專業(yè)的高校所參考。

注:本文受到北京科技大學教學研究會第六批教學研究課題、北京科技大學教育教學研究基金青年教師教育教學研究立項項目、河北工業(yè)大學教改項目(2010-12)支持。

參考文獻:

[1] 王萬森,鐘義信,韓力群,等. 我國智能科學技術教育的現(xiàn)狀與思考[J]. 計算機教育,2009(11):10-14.

[2] 教育部關于公布2009年度高等學校專業(yè)設置備案或審批結果的通知[S]. 教高〔2010〕2號,2010.

[3] 方勇純,劉景泰. 南開大學“智能科學與技術”專業(yè)教學體系與實驗環(huán)境建設[J]. 計算機教育,2009(11):21-25.

[4] 石志國,劉冀偉,王志良.“智能科學與技術”本科專業(yè)軟件實踐類課程建設探討[J]. 計算機教育,2009(11):93-97.

[5] 劉作軍,張磊,楊鵬,等. 談我校增設“智能科學與技術”專業(yè)的設想與措施[J]. 計算機教育,2009(11):53-56.

[6] 盧桂章. 無處不在的智能技術[J]. 計算機教育,2009(11):68-72.

A Study on the Course System and Textbook Construction for the Discipline of

Intelligence Science and Technology

YANG Peng1, ZHANG Jian-xun2, LIU Ji-wei3, ZHANG Lei1

(1. Hebei University of Technology, Tianjin 300130, China; 2.Nankai University, Tianjin 300071, China;

3. University of Science and Technology Beijing, Beijing 100083, China)