新聞與活動
 

龍捲風科技與微軟合作發佈龍捲風MS中文搜尋系列產品

龍捲風MS中文搜尋系列產品包含「龍捲風OCR IFilter增益集」與「龍捲風中文搜尋增益集」,可強化微軟Microsoft Office SharePoint Server(MOSS)中文字詞的搜尋能力,針對圖檔文件進行文字或屬性的擷取,建立索引並進一步檢索內容,同時提供符合中文搜尋特性的使用者介面。

龍捲風科技總經理賴政昌表示:「我們這次很榮幸與微軟合作,推出『龍捲風OCR IFilter增益集』與『龍捲風中文搜尋增益集』。大家都知道企業的資料,以電子資料與紙本資料這兩種類型最為常見,然而企業在進行資料搜尋時,絕大多數只去找尋電子資料,而忽略紙本資料;或是為了搜尋紙本資料耗費龐大的人力與時間,而造成營運效率的低落。

即便是電子資料的找尋,中文字在許多特性上與拉丁語系的顯著差異,也嚴重影響了搜尋引擎的查詢效果,導致中文搜尋的困難。此外在OCR辨識上,也由於方塊字體的複雜性,而只有60%左右的辨識率。因此在將紙本文件透過OCR轉換為可搜尋的數位內容時,使用者往往無法搜尋到所需的資訊。此次與微軟合作推出的「龍捲風OCR IFilter增益集」與「龍捲風中文搜尋增益集」,可大幅解決上述在中文搜尋中所遭遇的困難,提升MOSS中文搜尋的應用廣度與精準度。」

台灣微軟行銷經理盧昊表示:「我們很開心看到『龍捲風OCR IFilter增益集』與『龍捲風中文搜尋增益集』的推出,其將對紙本文件的擷取與搜尋,中文的字形、字音、字義檢索,整合為一套完善的解決方案,強化Microsoft Office SharePoint Server與Microsoft SQL Server 2005 Enterprise的中文搜尋成效。讓更多的企業用戶能夠方便迅速且精準的使用微軟產品,一直是微軟的目標與使命,微軟多家大型客戶,如趨勢科技等,已紛紛開始採用此一解決方案。因此台灣微軟很榮幸在此宣布與龍捲風科技共同合作推出MS中文搜尋系列產品,期望可以帶給企業用戶更好的使用者經驗。」

龍捲風MS中文搜尋系列產品包含三項特色:

  1. 強大的紙本資料辨識與搜尋:擷取紙本資料等圖形檔案的文字或屬性,並建立索引,待索引建立完畢後即可進行全文檢索,紙本資料的搜尋再也不漏失。
  2. 精準的中文字詞搜尋:針對中文字形、音、義的特性,強化中文的檢索能力,提高中文字詞檢索與搜尋的精準度,讓搜尋效果更加倍。
  3. 符合中文特性的人性化搜尋介面:提供符合中文搜尋特性的使用者介面,讓使用者不論是使用原本的搜尋機制與介面,或是使用龍捲風中文搜尋介面都能完整地搜尋到所需要的中文資料。

欲了解更多關於「龍捲風OCR IFilter增益集」與「龍捲風中文搜尋增益集」產品資訊,請至龍捲風科技網站 www.tornado.com.tw

龍捲風 OCR IFilter增益集 功能特色

搜尋引擎在建立索引時,將會透過Tornado OCR IFilter對圖形檔案進行文字或屬性的擷取,並將此資料建立索引,待索引都建立完畢後,即可用搜尋引擎進行全文檢索。因此,只要透過Tornado OCR IFilter解析圖形檔案內的文字,並建立索引,就能讓大部份的圖形檔案資料納入全文檢索的範圍內。

Tornado OCR IFilter
Tornado OCR IFilter在MOSS中所扮演的角色

支援多種圖形檔案類型
OCR辨識支援PDF、BMP、JPEG、TIFF等四種檔案類型,Tornado OCR IFilter會擷取這些類型的檔案的文字部份,交給搜尋機制做建立索引之用。

支援數種語系辨識
OCR辨識時所採用的語系,可為「繁體中文」、「簡體中文」、「英文」三種,使用者能依所需自行設定語系,但請注意一次只能採用一種語系。

支援指定檢出文字編碼
能依紙本文件語系指定經由OCR辨識得到的文字編碼,可為 GB、BIG5、JIS、S-JIS、GBK 或 KSC,但請注意一次只能採用一種語系。

龍捲風中文搜尋增益集 功能特色

字詞搜尋彈性切換
拉丁文字由於詞與詞之間存有空白間隔,使得斷詞容易,但中文只有字而無詞的界線,因此斷詞效果的好壞往往取決於系統對詞彙的辨識能力與分析方式的精確度,相對也將影響到關鍵字所能查出的結果。龍捲風提供中文字詞彈性切換的方式,讓您在輸入字的同時也可找到詞,如:搜尋「蛙」可找到「青蛙」,此外也提供了準確的詞語搜尋能力,如:搜尋「個人電腦」不會找出「在電腦的世界中,每個人都是英雄」等意義不相關的句子。

中文同音功能
中文字有許多可相互替代的詞彙或同音字。如:【台灣vs.臺灣】、【壹貳參vs.一二三】、【受信vs.授信】等等。透過龍捲風內建的「中文同音字庫」,可順利解決使用者只知發音而不確定正確字彙,或是臨時忘記字的困擾。

中文同音
使用龍捲風中文搜尋增益集後,原本因輸入錯誤的「一般受信」,也可被正確地以「一般授信」找到符合的資料。

中文同形容錯功能
中文字有許多看似相像但意義完全不同的字,如:【遠東 vs. 遠柬】、【掃描vs.埽描】。透過龍捲風內建的「中文同形字庫」,可順利解決使用者在透過輸入法或將傳真、紙本文件以OCR辨識後產生字形錯誤所帶來的困擾。

文件內文的語系識別
一般來說,當文件內容包含二種以上的語系時,為文件標上語系是很困難的,但若無法標上合適的語系則易產生斷詞上的漏失,這使得使用者在輸入字詞時可能有找不到資料的困擾。因此若能增強內文語系識別的能力,將會在搜尋完整性上發揮最佳的成效。

符合中文特性的人性化搜尋介面
依照中文搜尋特性與使用習性,龍捲風設計出一系列可自由置換的人性化搜尋介面,使用者可依照需求全系列使用或是自由組合搜尋介面,龍捲風提供的功能介面包括:

熱門關鍵字
將使用者所查詢的關鍵字記錄下來以統計熱門關鍵字,並可自訂熱門關鍵字的統計時間區間。

簡繁對譯
自動將使用者所輸入的關鍵字做簡體字和繁體字的轉換,供使用者再次利用轉換結果查詢。
輸入「警察」,轉換為「公安」;
輸入「光盘」,轉換為「光碟」。

建議詞
根據使用者輸入的關鍵字,提供其他建議的關鍵字。

概念延伸詞
以使用者輸入的關鍵字為基礎分別延伸出相關詞、同音詞、同義詞,並有相對頁面的呈現。

智慧型排序
通常大多數的使用者都期望看到具備自己輸入的關鍵字的搜尋結果能率先呈現。智慧型排序有別於傳統的排序方式,以使用者所輸入的關鍵字計算出每項搜尋結果的重要性再依其排序。
 

2008-08-19