欧美v国产v日韩v在线,欧美在线观看综合中文,777米奇色狠狠俺去啦,香蕉视频丝袜亚洲国产

返回列表
OCR識別系列之一——基礎(chǔ)介紹

OCR識別系列之一——基礎(chǔ)介紹


1、OCR定義

  OCR,中文又叫光學字符識別,它是利用光學技術(shù)和計算機技術(shù)將目標上的文字信息提取出來。OCR識別是計算器視覺研究領(lǐng)域之一,目前生活中的應(yīng)用也比較成熟,比方說,身份證識別,車牌號識別,拍題搜答案等應(yīng)用。

2、OCR分類

  目前主要根據(jù)識別字體分成兩類:印刷體識別和手寫體識別。印刷體識別相對簡單些,字體比較規(guī)則,有幾十種字體規(guī)則。但是也有一些因為字符印刷墨跡的斷裂,粘連,遮擋等造成識別困難,總的來說,印刷體的識別目前識別情況已經(jīng)相當不錯了,但是還沒能達到100%識別準確。

  手寫字體一直是OCR界想攻克的難關(guān),主要因為手寫字體比較多樣化且具有個人特色,就比方說醫(yī)生開的藥方,人眼都很難辨認寫的是什么,機器也很難理解。

3、OCR識別方法

典型的OCR技術(shù)流程:

輸入——>圖像預處理——>文字檢測——>文本識別——>輸出

傳統(tǒng)的OCR識別技術(shù)流程:

圖像預處理(彩色圖像灰度化,二值化處理,圖像變化角度檢測,矯正處理等)——>版面劃分(直線檢測,傾斜檢測)——>字符定位切分——>字符識別——>版面恢復——>后處理——>校對等

深度學習OCR識別技術(shù)流程:

輸入圖像——>深度學習文字區(qū)域檢測——>預處理——>特征提取——>深度學習識別器——>深度學習后處理

傳統(tǒng)機器學習和深度學習的相似點:

傳統(tǒng)機器學習:數(shù)據(jù)預處理——>特征提取——>選擇分類器

深度學習:數(shù)據(jù)預處理——>模型設(shè)計——>訓練

  在深度學習沒有發(fā)展起來前,對于復雜的場景基本都是采用傳統(tǒng)方法做字符的特征提取,然后輸入分類器,得到OCR模型。第一步特征設(shè)計和提取,我們需要對字符進行設(shè)計它獨有的特征,來為后面分類做準備,字符有哪些特征呢?結(jié)構(gòu)特征:字符端點,交叉點,圈的個數(shù),線條數(shù)等,第二步將這些特征送入分類器(SVM)做分類,得出識別結(jié)果。這種方式的缺點是需要大量時間做特征設(shè)計,通過人工設(shè)計的特征(HOG)來訓練字符識別模型。這種方法,一旦字符變化,模糊或者背景干擾等情況出現(xiàn)時,模型的泛化能力迅速下降,過度依賴字符切分的結(jié)果,在字符扭曲,粘連,噪聲干擾的情況下,切分的錯誤尤其突出。這也就是為什么現(xiàn)在基本都會選擇深度學習去做OCR。

  暴力的字符模板匹配法,通常應(yīng)用在字體統(tǒng)一,清晰度高,識別場景簡單,識別字符簡單的基于深度學習的字符識別(文字檢測+文字識別),目前來說用的效果比較好的就是先利用神經(jīng)網(wǎng)絡(luò)對文字區(qū)域進行定位,然后對定位到的文字進行字符識別。

  目前現(xiàn)有的可以直接使用的OCR主要有以下兩種:
  l、谷歌開源OCR引擎Tesseract,因為是外國人開發(fā)的,所以中文識別效果并不好,但是在英文及數(shù)字識別上效果不錯。
  2、百度公司開發(fā)的OCR的API,通過寫一個python腳本就可以對其進行調(diào)用實現(xiàn)文字識別,但是并不是免費,少量調(diào)用不收費,大量調(diào)用就要收費了。用來進行漢字識別效果還不錯。

 


網(wǎng)站編輯:小優(yōu)智能科技有限公司 發(fā)布時間:Aug 02,2023
給我們留言
驗證碼