技術應用
Tornado Search for Paper – 紙本文件也可輕鬆搜尋
根據IBM的預估,企業以人工輸入方式進行文件電子化,每年全球花費2兆5000萬美元,即便付出了如此高額的成本,卻只有5%的紙本文件被處理了。雖然隨著資訊的發展,紙本文件的使用量趨於減少,但仍有大量的傳真訂單、合作契約、法律文件等重要的企業資料保有紙本的形式,若未經過電子化的處理,非常難以調閱與管理。
傳統上將紙本文件電子化的步驟繁瑣,必須耗費大量人工,首先要將紙本文件送至MFP或其他掃描設備進行掃描,然後對掃描所得的檔案進行OCR辨識,由於中文字在OCR辨識時,特別容易出錯,因此往往需要再以人工校正的方式來修正辨識的結果,最後再把文件分門別類地儲存好後,文件才能進行基本的調閱。
龍捲風推出的解決方案Tornado Search for Paper能有效協助您進行紙本文件的電子化工作。您只要將文件置於掃描器掃描,其餘過程皆無須人工介入。系統可自動辨識文字內容,將文件檔案建立索引,供使用者檢索。針對OCR辨識常見的錯誤,則透過系統內建的字形容錯功能,讓使用者在輸入關鍵字條件查詢文件時,將錯誤辨識的內容,正確地檢出,提高資料的有效調閱。而掃描後的檔案或文字內容還可提供給企業其他系統做進一步的應用。
Tornado Search for Paper內建權限控管的機制,不同層級的人員以相同關鍵字進行查詢時,所獲得的搜尋結果將依照人員所屬的權限規則呈現,只有擁有使用權限的人才能查找到所屬職務的機密文件,避免公司機密外洩的危險。
此外,管理者還可設定關鍵字自動監控進入系統的紙本文件內容,將掃描後所得的電子化檔案依照關鍵字的設定自動派送或email通知不同的人員,讓使用者容易掌握最新的資料,提高紙本文件管理及取用的效率。
選擇Tornado Search for Paper解決方案來進行紙本電子化作業,可獲得多項效益,包括:
- 使用者只需透過單純的關鍵字搜尋方式,即可快速調閱紙本文件內容,增加了紙本文件的取用率;
- 除了需將紙本文件置放在掃描設備進行掃描外,其餘步驟皆無須透過人工介入,大幅降低人力成本;
- 針對OCR常會誤判的形似字,如「東」和「柬」、「圓」和「園」等,以獨家的字形容錯功能進行處理,可忽略這類錯誤,讓使用者可用正確的關鍵字找出誤判的內容,提高資料調閱的完整性;
- 管理者可預設關鍵字組合,讓系統主動將符合的資料進行自動派送的處理,讓使用者即時掌握所需資訊。

Tornado Search for Video - 領先YouTube的影片搜尋方式
要想從成堆影片中找到所需資料,傳統作法是需耗費人力在了解影片內容後,為影片填寫相關的註記之後,使用者才能透過這些人工註記找到影片。然而,這樣的方式不僅耗費高額時間與人工成本,而且有資料涵蓋範圍不足與牽涉個人主觀認知等問題,以至於多數的多媒體資源被擁有者虛置一旁,無法善加利用。龍捲風嶄新的解決方案Tornado Search for Video可有效為您找回那些閒置影片的新價值。
要想從成堆影片中找到所需資料,以往的作法是負責整理的人必須先看過每段影片,了解影片的內容後,再為影片填寫詮釋資料(Metadata)。而使用者可以搜尋到某段關於「自行車」的影片,即表示整理者有在此段影片的詮釋資料中加上與「自行車」有關的訊息。世界著名的影片分享網站YouTube也是採取類似的作法,除了讓上傳者填寫影片簡介外,還提供標籤(Tag)的功能,來取代傳統填寫固定欄位的詮釋資料。

類似這樣的傳統作法,有很多種壞處。其一即是最現實的成本問題,若沒有耗費大量的人力與時間,根本無法為眾多影片一一加上詮釋資料來供之後的使用者搜尋。其二,詮釋資料的涵蓋範圍有限,大多數僅能提供影片的基本資訊,例如內容簡介、影片作者、影片長度等;即便是YouTube的標籤功能,也僅能囊括部份的影片內容資訊(而且是帶有個人主觀意見的介紹)。此外,當影片長度很長的時候,就算你知道影片中有你所需要的片段,也難以迅速而精準地找到片段的起訖時間,必須花時間進行調閱。
Tornado Search for Video即是改革上述傳統作法之後推出的全新應用。透過龍捲風的獨家專利技術,可針對影片內的文字自動定位與辨識,再搭配上智慧型容錯搜尋後,即可將符合關鍵字程度最高的影片找出來。
透過Tornado Search for Video的協助,整理影片不再費時費力,只要將影片建立索引,即可進行查詢,完全不需人工的介入。而且查詢結果除了顯示影片檔案、時間長度、出現秒數等資料外,還可直接播放影片中你所需的片段。
目前Tornado Search for Video已支援多種影片格式,並可針對多種語系的影片內文進行辨識,對一般正常影片的有效檢出率可達95%以上。您可利用Tornado Search for Video進行以下應用:
- 片庫管理、數位典藏
透過Tornado Search for Video,查詢者不需要預先了解影片內容,可透過搜尋引擎輸入關鍵字來調閱包含自己所需的影片。較傳統人工註記的方式更為簡單直覺。
- 線上教學、語言學習、專家系統
只要輸入關鍵詞,即可直接調閱所有包含此關鍵詞的影片,隨查隨看,用於多媒體教學相當便捷有效。例如學習英文時,只要輸入「逛街」,即可查詢到所有包含「逛街」的英文影集,直接點擊播放;或輸入「日蝕」,就可立即調閱出關於「日蝕」的科學教育影片。
- 側錄監控、內容稽核
可將長時間、大量自動化側錄的影片建立索引後,直接用關鍵詞進行查詢,滿足情治保全或媒體公關業對電視台的監測需求。例如輸入「00啤酒」,就可調閱出包含「00啤酒」的所有影片畫面與秒數,進行曝光或廣告露出統計;或監控畫面上所有曾出現的敏感文字,例如人名、車牌或其他不雅文字等。

產業應用
行政效率大躍進的訣竅…
使用龍捲風搜尋,讓您的公文管理、行政管理如虎添翼!
政府推行E化服務多年,各機關、學校也在行政、教學上大量應用了軟體系統來協助工作。然而當應用系統漸增,查找資料時,就必須在多個系統間來回搜尋,不僅耗費時間,也削弱了政府推動由紙本作業轉為E化作業的美意。
龍捲風科技累積了十年在華文市場中的搜尋經驗與技術應用,協助多家政府機關與學校解決各式搜尋與知識管理上的難題。採用龍捲風的解決方案,將可以使學校或政府的作業流程更加流暢,大幅提昇行政的效率。
- 大幅縮減文件查找時間,各種評鑑、考核都不怕
採用龍捲風的搜尋平台來建置單一整合的資訊/知識搜尋入口,可讓負責人員在查找公文、檔案時,無須再橫跨多個應用系統做重複單調的搜尋動作,縮減大量文件查找時間,隨時可因應各式評鑑、考核作業的要求。除應付一般工作需求外,更能有效擴展至人員的知識管理、成長學習活動之上。
- 彈性擴充、深入整合,提升常用系統的使用成效
龍捲風的搜尋技術架構具備彈性,可配合各機關組織的需求,整合組織權限,進行更多樣化的搜尋應用模式。例如學校機構可透過龍捲風的搜尋技術強化既有的選課系統,大幅降低行政人員在選課作業上的負擔。
- 「紙本公文」也可有效搜尋,公文管理更輕鬆
目前政府機關與學校機構在各式紙本文件、紙本公文的管理與調閱上,依然沒有一個有效的解決方案。龍捲風搜尋發展出獨家的OCR辨識與智慧型容錯技術,可輕鬆將紙本公文影像化後歸檔管理,避免遺失或調閱上的不便,也讓公文的追蹤與查詢更快更方便,提高組織運作效能。
- 掌握外部輿情與新知變化,施政方向更精準,學術研究更即時
利用龍捲風的搜尋工具來蒐集大量的外部情報,進行分析與訊息分派,可降低政府組織、學術機關在整理外部資訊上的人力成本。而蒐集到的大量資訊可根據預設主題方式篩選或分類保存,更利於機關組織對於資訊進行瀏覽、判讀與分析等工作,可加速研究的進展,或隨時掌握當前情勢,做出有效的決策。

創意應用
龍捲風徵文活動「下載試用奪獎金」創意文章分享
新發現-原來搜尋可以這樣用!不可思議的最佳應用
藍色小舖帳號:holdpeace 張先生
個人認為龍捲風TS5.0最方便的地方,就在於可以自訂建立索引時的資料來源。這樣的一個功能,讓我馬上就聯想到,不同的人可以對自己特別感興趣的資料進行整合,這是個人認為它最方便且最為強大的部份。例如,女性朋友們可能對化妝品、服飾資訊特別感興趣,便可以對國內各大女性購物網站、討論區等資料建立整合式的索引,如此一來要搜尋相關資訊時,可以很輕鬆地得到自己想要的相關資料,過濾掉更多不相干的資料。由於自己算是資訊工作者,所以對於3C資訊、程式設計等方面特別感興趣,以下就以我自己的生活與工作的需求為例,我整理出幾個對我而言相當方便的應用:
- 3C產品資訊整合
正如我剛剛所提的,使用者可以針對自己最有興趣的不同領域,將自己常用的幾個網站的資源整合在一起,而對我而言,當然就是3C產品資訊的整合囉。以我想到的是,可以將幾個自己常看的網站,如Mobile01、一窩蜂3C社群等論壇結合,並且整合一些3C的新聞資訊,甚至將購物、拍賣的資訊也加進來(還有下段會提到的ptt文章),建立一個完全個人化的搜尋平台,在使用上立刻就變的非常方便!這部份的建立方式,基本上就是針對這些有興趣的網站建立索引,在這邊就不示範使用。
- ptt文章搜尋
可以說是台灣目前最多人使用的BBS,ptt上面的資訊非常的多樣化且無所不包,但是由於本身功能的限制,每每要上ptt上找資料都無法相當地得心應手,一來在使用ptt時無法搜尋不同版的文章,二來搜尋時也只能針對標題進行搜尋,無法針對ptt上的資料進行全文檢索,因此要搜尋ptt上的文章就變得相當的困難。幸虧現在ptt已經有將其資料轉成網頁放在網站上(http://www.ptt.cc/bbs/index.html),因此就想到這個專門針對ptt文章進行索引的點子。
設定資料來源:

可以直接對整個ptt內的文章進行索引,只要將資料來源設定為 http://www.ptt.cc/bbs/ 即可。而我這邊則是對我特別有興趣的幾個版進行索引。(如Notebook版,http://www.ptt.cc/bbs/Notebook/ 等)設定完成並建立索引後,就可以直接對ptt文章進行搜尋啦。

記得還可以設定排程,就能夠搜尋到最新的資料囉。

當然也可以跟其他的資料來源結合,提供一個整合式的資料搜尋功能。
其他意見:目前web bbs上的資料還沒有即時同步,不過已經能夠滿足大部分需求囉!
- API文件整合搜尋
由於自己是資訊工作者,寫程式時常常需要參考各個不同語言的文件,每次都要上網找各種不同的API,所以就會想著如果有一個整合性的平台那該有多好,就可以不用在寫程式時還開起好多個不同的API文件查閱了。因此才讓這個點子萌生。
與其他應用一樣,只需要先建立欲查詢的API文件之來源:

就可以完成您個人的API文件庫囉:

如此一來,就再也不會有想使用某個函數,卻一時怎麼也想不起來要要怎麼呼叫使用的情況發生了!
其他意見:也可以整合一些範例程式碼,使得原碼搜尋變得更方便,增加程式設計師的生產力!!
最喜歡的功能
- 同音、同義、模糊搜尋功能(概念延伸詞)
現在愈來愈多人習慣使用注音輸入法,我也不例外,但是常常會造成打錯字的窘境,有時候更是因為自己國文沒學好,常常ㄓ、ㄗ不分,或是有些字、詞不知道怎麼寫,這時候同音、同義的建議,以及模糊搜尋的功能就變得相當地好用。
例如:想輸入「初衷」,卻因為注音輸入法而打成「初中」:

非常方便的建議視窗,可以找到相關、同音、同義詞,不用重新輸入,滑鼠點一下就可以重新搜尋正確的關鍵字。


大家可以發現到找出來的文章其實是我的MSN對話紀錄。沒錯,TS50就是這麼好用!不知道大家是不是跟我有相同的經驗,有時候想起來跟某人用MSN說了某些事情(如某家餐廳很好吃之類的),一時間卻想不起來到底是跟誰說的,而MSN對話紀錄卻是一個又一個的XML檔案,不同的帳號都存在不同的檔案內,想要搜尋就變得相當麻煩,這時候TS50就可以派上用場。當然,對話紀錄不想讓別人搜尋到的話,記得可以使用NTLM設定權限!
- 縮小查詢範圍

Google查詢出來的資料往往過於龐大,使用者無法立刻的找到正確的資訊,而TS50相當貼心,提供了搜尋後再縮小查詢範圍的功能,當使用者發現搜尋結果太多時,可以再透過篩選過濾減少搜尋結果,非常方便。
最不喜歡的功能
- 無法對RSS建立索引
不知道是我不會設定還是目前沒有支援,目前無法針對RSS建立索引,以下是我的設定資料:
設定索引檔案類型: (已經於XML(xml, rss)項目打勾

設定索引來源: (已經嘗試各種不同網站之RSS)

建立索引完後卻仍然顯示需重建:

紀錄檔顯示「沒有可建索引的資料」:

事實上,已經嘗試過,這些RSS都是有資料的。

- 中文檔名無法存取
在搜尋自己電腦上的資料時,如果檔案名稱或是資料夾有中文時,將會出現網頁不存在的錯誤。

點擊後如下:

這對個人使用者而言相當地不方便,因為自己電腦上的資料通常都會直接以中文來儲存,可能是因為IIS網址編碼的問題,不過也應該要讓使用者知道該如何解決這樣的問題。
- 庫存頁面之格式
一般如Google搜尋完後,庫存頁面將會保留文件原本的格式。而在TS5.0中:

顯示文件相關資訊的功能相當方便,但是內文欄位卻只擷取出純文字的部分,將會造成使用者瀏覽上的不便,而失去了庫存頁面原本存在的意義(網頁消失還是有辦法從庫存頁面中找出逝去的資料),建議可以針對一些容易支援的格式,盡量轉換成與原先格式相同的網頁。
- 索引建置時之使用者介面

目前建置時會顯示很可愛的圖示在轉,但是使用者卻沒辦法得知索引建置的進度,也沒辦法建置到一半中斷。對於個人使用者來說是相當地不方便,例如想要關機或是重連網路,卻不知道目前索引建置的情況,如果能提供暫停的功能,待使用者處理完其他事情後再繼續建置,將會給使用者更多方便。
結論
目前網際網路變得非常的方便,但相對而言的是,資訊已經爆炸到我們不能夠容忍的地步了,如何在最短的時間內找到對自己最有意義的文章,是對目前這個積極競爭的社會來說非常重要的一件事情。
儘管網路搜尋引擎(如Google、Yahoo)相當的方便,個人桌面搜尋(Google桌面、Windows桌面搜尋)也已經推出一段時間,但目前卻始終未看到一個能夠完全自訂資料來源的一個殺手級的搜尋引擎。我想龍捲風TS50便希望能夠達到這個需求,使用TS50可以完全的自訂資料來源,並且在搜尋時可以選擇要針對哪幾個資料來源進行。如此一來,使用者可以先建立好幾個常用但不同類型的搜尋,並且在適當的時候搜尋最適當的資料來源,以便於搜尋到跟使用者需求最相關的資料。
本文來源:http://holdpeace.spaces.live.com/blog/cns!7E9A174DCF805112!1101.entry
活動新訊
5/26高雄加映「2009 知識管理 跨界整合與創新應用」研討會
於4/29結束的「2009 知識管理 跨界整合與創新應用」研討會由於廣受各界好評,龍捲風科技決定在5/26(二)於高雄加開一場,以彌補對本研討會具有高度興趣,卻未能前往台北參與或來不及報名的各界人士。
錯過一次就夠了,千萬不要再錯過第二次!馬上報名
活動時間:5/26(二)13:30~16:50
活動地點:文化大學推廣部 高雄教育中心307室 (高雄市前金區中正四路215號3F)
ISVCA「節能減碳立竿見影 – 台灣『軟』實力的積極呈現」研討會
台灣軟體產業價值鏈聯盟(ISVCA)將於6月中舉辦以「Green IT」為主軸的研討會,龍捲風科技預定以「讓文件容易調閱,減少紙本複製」為題,加入研討會議程。除議程外,會場週邊亦會擺放Demo攤位,實際展示我們的解決方案。歡迎有興趣參與者報名,來電請洽02-2790-8831 #309 李小姐。
「2009 知識管理 跨界整合與創新應用」研討會花絮
雖然沒有透過主流媒體大肆宣傳,甫於 4/29(四)結束的「2009 知識管理 跨界整合與創新應用」研討會仍在眾多報名者踴躍出席的情況下熱絡地開展。
為了爭取更多介紹的時間,龍捲風的技術長楊立偉博士捨去了「致詞」這個禮貌性環節,直接以「企業搜尋引擎– 引爆知識管理的另一波進化」破題,供給與會者一個對知識管理的全新思考角度,為本次研討會做了最棒的暖身與起頭。

接下來的「利用搜尋引擎整合內部知識」,從企業導入知識管理所產生的問題出發,提出可囊括各個面向的知識管理整合性解決方案,由於內容過於豐富,讓主講的蕭經理大有欲罷不能之勢,整個研討會時程還因此往後順延了一些時間。
在中場休息前介紹的Tornado Search for Opinion,由於是獨步於目前市場的嶄新技術,特別引起與會者的注目。中場休息時,負責主講的產品經理徐小姐,在Demo區中一刻也不得閒地為眾人解說。而其他如具備自動進件的CharSearcher、無須依賴詮釋資料,也可搜尋影片的Tornado Search for Video、意藍科技的eKM 4.5等Demo機,也都引起眾人的高度興趣,將會場後方的Demo區擠得水洩不通。


後半場以「知識無所不搜」為題開場,陸續介紹了龍捲風科技針對企業遭遇紙本文件處理、影像文件搜尋以及統合搜尋所遇到的困境所提出的一系列解決方案。主講的錢經理幽默生動的方式演講,深獲在場來賓的讚許。而接下來意藍科技的eKM4.5,原本就已是功能強大的知識管理軟體,加上龍捲風的強大搜尋新技術後,更是如虎添翼,為使用者帶來更多應用新風貌。
最後為了不耽誤與會來賓的後續活動,壓縮了原先預定的案例分享與問答時間,使得研討會在有些倉促的情況下結束。期待下次我們能以更精準的時間安排,讓更多欲了解龍捲風搜尋解決方案的各界人士有更好的視聽覺享受!