精品久久久久久中文字幕,狠狠干夜夜操,高h纯肉无码视频在线观看,日韩欧美成人一区二区三区,日本三级电影精品五区

Aug 04, 2020

從傳統(tǒng)圖像算法到深度學(xué)習(xí),文字識別技術(shù)經(jīng)歷了這些變化


文字識別的發(fā)展大致可以分為兩個階段,分別是傳統(tǒng)圖像算法階段和深度學(xué)習(xí)算法階段。

傳統(tǒng)圖像算法

2012年之前,文字識別的主流算法都依賴于傳統(tǒng)圖像處理技術(shù)和統(tǒng)計機器學(xué)習(xí)方法實現(xiàn),利用光學(xué)技術(shù)和計算機技術(shù)把印在或?qū)懺诩埳系奈淖肿x取出來,并轉(zhuǎn)換成一種計算機能夠接受、人又可以理解的格式。傳統(tǒng)的文字識別方法可以分為圖像預(yù)處理、文字識別、后處理三個階段:

圖像預(yù)處理:完成文字區(qū)域定位,文字矯正,字符切割等處理,預(yù)處理一般包括灰度化、二值化,傾斜檢測與校正,行、字切分,平滑,規(guī)范化等等,核心技術(shù)包括連通域分析,MSER,仿射變換,圖像二值化,投影分析等。

文字識別:對切割出的文字進(jìn)行識別,一般采用提取人工設(shè)計特征(如HOG特征等)或者CNN提取特征,再通過機器學(xué)習(xí)分類器(如SVM等)進(jìn)行識別;

后處理:利用規(guī)則,語言模型等對識別結(jié)果進(jìn)行矯正。

傳統(tǒng)的文字識別方法,在簡單的場景下能達(dá)到不錯的效果,但是不同場景下都需要獨立設(shè)計各個模塊的參數(shù),工作繁瑣,遇到復(fù)雜的場景,難以設(shè)計出泛化性能好的模型。

深度學(xué)習(xí)算法

2012年之后,隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域應(yīng)用的不斷擴大,工業(yè)場景下的圖像文本識別更為復(fù)雜,它會出現(xiàn)在許多不同的情景下,如醫(yī)藥包裝上的文字、各類鋼制零部件上的字符、集裝箱表面噴印的字符、商鋪Logo上的個性化字符等等。

文字識別逐漸拋棄了原有方法,過渡到深度學(xué)習(xí)算法方案。在深度學(xué)習(xí)時代,文字識別框架也逐漸簡化,目前主流的方案主要有兩種,一種是文本行檢測與文字識別的兩階段方案,另一種是端到端的文字識別方案。

1)兩階段文字識別方案

主要思路是先定位文本行位置,然后再對已經(jīng)定位的文本行內(nèi)容進(jìn)行識別。文本行檢測從方法角度主要分為基于文本框回歸的方法,基于分割或?qū)嵗指畹姆椒ǎ约盎诨貧w、分割混合的方法,從檢測能力上也由開始的多向矩形框發(fā)展到多邊形文本,現(xiàn)在的熱點在于解決任意形狀的文本行檢測問題。文本識別從單字檢測識別發(fā)展到文本序列識別,目前序列識別主要又分為基于CTC的方法和基于Attention的方法。

2)端到端文字識別方案

使用文字檢測加文字識別兩步法雖然可以實現(xiàn)場景文字的識別,但融合兩個步驟的結(jié)果時仍需使用大量的手工知識,且會增加時間的消耗。

而端對端文字識別能夠同時完成檢測和識別任務(wù),極大地提高了文字識別的實時性。通過一個模型同時完成文本行檢測和文本識別的任務(wù),既可以提高文本識別的實時性,同時因為兩個任務(wù)在同一個模型中聯(lián)合訓(xùn)練,兩部分任務(wù)可以互相促進(jìn)效果。



聯(lián)系我們



寬泛科技專注為人工智能、邊緣計算、影視后期、動漫設(shè)計、商務(wù)應(yīng)用等領(lǐng)域,

提供基于人臉識別、深度學(xué)習(xí)、視覺計算、VR/AR/MR、桌面虛擬化、

數(shù)據(jù)存儲及數(shù)據(jù)可視化、視訊會議等信息化解決方案及服務(wù)。

如果您有合作需求或?qū)氋F建議,歡迎來信。

郵箱:hezuo@kuanfans.com

合作熱線:(021) 5415 5559

官方網(wǎng)站:www.e27510.cn