OCR Extractor

產品介紹

當企業內部儲存資料的檔案類型越來越多,僅提供文字檔案的全文檢索,對企業用戶而言,等同於非文字檔案資料的損失。

你一定這樣想過:


  • 重要的紙本文件經掃描後可轉成數位化的圖形檔案,但這樣的檔案內容,卻只能提供閱讀,內容文字無法被搜尋或輕鬆再利用。
  • 市面上OCR辨識軟體對中文的辨識能力不高,取得的文字檔案錯漏百出,還需要大量的人力進行校正後才可使用。

根據研究報告指出,企業內有93%的資料以數位方式儲存,換句話說,剩餘的7%還以紙本形式存在的資料,反而是更重要的資訊。當這些紙本資料經掃描轉成圖形檔案並儲存在電腦裡後,卻只能依靠開啟檔案來確定文件的內容,內容文字不能被搜尋,也難以再利用,文件的價值無法彰顯,也失去了將它數位化的美意。


將圖形檔案也納入全文檢索的範圍之內,才能確定涵蓋了企業用戶想要的大部份資料。OCR Extractor可透過OCR將圖形檔案中的文字擷取出來並建立索引。讓使用者輕鬆以搜尋的方式取得圖形檔案的文字內容。




產品特色

可針對各種圖形檔案類型(目前支援 BMP、JPEG、PDF、TIFF、GIF 以及 PNG)做文字擷取,並開放參數做辨識結果調整。

辨識PDF檔時有五種辨識的模式:

  1. 智慧型模式:自動辨識文字和圖形,當有文字的時候就會省略圖形的辨識
  2. 純文字模式:只會單純的抽取出PDF文字的部份
  3. 圖形模式:會將該PDF檔中的TIFF檔拆解出來,並且存放在目前用戶的暫存目錄底下(例如:%USERPROFILE%\Local Settings\Temp)。然後交由OCR元件針對拆解出來的TIFF檔個別做 OCR 辨識,再將辨識結果合併起來
  4. 文字圖形模式:為上述文字和圖形兩個模式,全部處理後並合併輸出,視作是該 PDF 檔的辨識結果
  5. 將每頁PDF的內容描繪成一張張影像檔,忽略內含的任何文字資訊,只處理圖形資料

辨識檔案之前會先檢查來源檔案的副檔名與實際檔案格式是否相符,如果不相符則會拒絕辨識






| More