深度學習后的計算機視覺應(yīng)用領(lǐng)域解析
算機視覺是使用計算機及相關(guān)設(shè)備對生物視覺的一種模擬,是人工智能領(lǐng)域的一個重要部分,它主要任務(wù)是通過對采集的圖片或視頻進行處理以獲得相應(yīng)場景的信息。
傳統(tǒng)的計算機視覺系統(tǒng)的主要目標是從圖像中提取特征,包括邊緣檢測、角點檢測、基于顏色的分割等子任務(wù)。傳統(tǒng)特征提取算法的方式有尺度不變特征變換匹配算法(SIFT)、加速魯棒特征算法(SURF)和二進制魯棒獨立基本特征(BRIEF)。根據(jù)輸入圖像的類型和質(zhì)量,不同的算法執(zhí)行的成功程度不同。最終,整個系統(tǒng)的準確性取決于提取特征的方法。
這種方法的主要問題是需要告訴系統(tǒng)在圖像中尋找哪些特性。本質(zhì)上,假設(shè)算法按照設(shè)計者的定義運行,所提取的特征是人為設(shè)計的。在實現(xiàn)中,算法性能差可以通過微調(diào)來解決,但是,這樣的更改需要手工完成,并且針對特定的應(yīng)用程序進行硬編碼,這對高質(zhì)量計算機視覺的實現(xiàn)造成了很大的障礙。
不過,深度學習的出現(xiàn)解決了這一問題。當前,深度學習系統(tǒng)在處理一些相關(guān)子任務(wù)方面取得了重大進展。深度學習最大的不同之處在于,它不再通過精心編程的算法來搜索特定特征,而是訓練深度學習系統(tǒng)內(nèi)的神經(jīng)網(wǎng)絡(luò)。隨著深度學習系統(tǒng)提供的計算能力的增強,計算機將能夠識別并對它所看到的一切做出反應(yīng),這一點已經(jīng)有了顯著的進展。在本文中,您將看到深度學習在計算機視覺分析中的5個應(yīng)用。
1、圖像分類
圖像分類是為圖像指定標簽的任務(wù)。當圖像中有單個類并且在圖像中清晰可見時,這非常有用。例如,一張照片會被歸類為白天或夜間拍攝。此外,在交通領(lǐng)域,圖像分類可用于檢測汽車是否處于停車位,即停車位是否被占用。
2、帶定位的圖像分類
帶定位的圖像分類是一個更具挑戰(zhàn)性的圖像分類任務(wù)。這涉及到為圖像分配類標簽并通過邊界框,即在對象周圍繪制框,來顯示圖像中對象的位置。
在負責車輛識別的系統(tǒng)中,這一過程是必要的步驟。對于一個瀏覽汽車圖片的自動系統(tǒng)來說,當場景中只包含一輛汽車,該系統(tǒng)一旦確定了車輛的位置,就可以識別諸如品牌、型號和顏色等屬性。當圖片中有未知數(shù)量的物體時,這項任務(wù)就會變得困難。在大多數(shù)照片中,特別是在公共場所拍攝的照片中,會有很多可能性,比如不同的人、車輛、樹木等,這種情況就變成了目標檢測問題。
3、目標檢測
目標檢測適用于包含多個對象的圖片,是一個重要的研究領(lǐng)域。例如,用于機器人和自動駕駛汽車的計算機視覺系統(tǒng)會面對非常復雜的圖像。毫無疑問,定位和識別每一個物體無疑將是它們實現(xiàn)自動化的關(guān)鍵部分。
4、圖像重建
圖像重建是重建圖像缺失或損壞部分的任務(wù)。該任務(wù)可以被認為是一種沒有客觀評價的照片濾波器或變換。雖然,這確實有可能保證圖像的可見屬性能夠緊密匹配,但是要求計算機重新創(chuàng)建沒有參考的細節(jié)顯然是不合理的。因此,圖像重建系統(tǒng)有很大的局限性,很大程度上取決于有多少原始圖像可供學習。
一種用于圖像重建的模型被稱為像素遞歸神經(jīng)網(wǎng)絡(luò)。這是一個利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)來預(yù)測圖像在二維空間中缺失像素的系統(tǒng)。圖像重建應(yīng)用的例子有照片的恢復或黑白電影。在自動駕駛汽車中,圖像重建可以用來觀察小型障礙物,比如車輛與被跟蹤行人之間的路標。
5、目標跟蹤
計算機視覺的一個重要目標是能夠識別一段時間內(nèi)發(fā)生的事件。目標跟蹤就是這樣一個例子,目標是在圖像或視頻中跟蹤特定對象。目標跟蹤對幾乎所有包含多個圖像的計算機視覺系統(tǒng)都很重要。例如,在足球訓練中,通過目標跟蹤可以得到每個球員的時序位置信息,通過研究其體能和戰(zhàn)術(shù)特點,進行科學的訓練。
寫在最后:
近年來,深度學習的發(fā)展不僅突破了很多難以解決的視覺難題,提升了對于圖像認知的水平,更是加速了計算機視覺領(lǐng)域相關(guān)技術(shù)的進步。相信,隨著深度學習模型的改進和計算能力的不斷提升,自主系統(tǒng)能夠繼續(xù)穩(wěn)步發(fā)展,真正實現(xiàn)可以解釋和反應(yīng)它們所感知到的東西。
寬泛科技專注為人工智能、邊緣計算、影視后期、動漫設(shè)計、商務(wù)應(yīng)用等領(lǐng)域,
提供基于人臉識別、深度學習、視覺計算、VR/AR/MR、桌面虛擬化、
數(shù)據(jù)存儲及數(shù)據(jù)可視化、視訊會議等信息化解決方案及服務(wù)。
如果您有合作需求或?qū)氋F建議,歡迎來信。
郵箱:hezuo@kuanfans.com
合作熱線:(021) 5415 5559