Month Topic
如何建置企業內部的專利系統
隨著新興經濟體系的快速崛起,台灣企業以成本競爭優勢而獲得的市場成長空間,面臨前所未有的挑戰;企業一方面轉移生產基地,以尋求降低成本的同時,另一方面,也試圖提升企業在國際市場上的附加價值,以求企業的持續成長與永續經營。透過有效的專利部署,成功維護研發成果,以遏止競爭廠商經由模仿、挖角等方式,快速取得技術後所形成之市場衝擊,便成為影響中長期獲利能力的關鍵性策略行動。
雖然各家廠商均認知到專利的重要性,然而卻往往不知道應該如何建置一個企業內部的專利系統,以有效提高企業的核心競爭力。以下將提供幾個思考方向,讓您在規劃專利系統的時候,有基本的準則可以依循。
資料範圍
在開始思考專利系統要有哪些功能,必須要先界定您想處理的資料範圍包括哪些。
您至少要先回答以下的問題:
- 專利包括了發明,新型,以及新式樣三種。專利中的新型,指的是對物品之形狀、構造或裝置之創作或改良,而專利中的新式樣,指的是對物品之形狀、花紋、色彩或其結合之創作。由此可知,新型跟新式樣的重點在於圖形,而非文字;這兩者將不在本文的探討範圍內。
- 除了各國的專利局之外,應該沒有企業需要同時處理所有不同領域的專利。為了有效發揮專利系統的功能,應該先選擇與企業核心競爭力最有關的類別,針對這些類別先行導入。一般最常見的作法,是從國際專利分類 ( International Patent Classification, IPC ) 中,選擇您最關心的主題。
- 各國有各國的專利,而專利的保護範圍,也僅限於該國家或地區。對企業來說,應在其主要市場皆申請專利,換言之,所需處理的資料範圍,將包含多個國家,甚至是多種語言。目前國內廠商較重視的國家或地區,包括美國,歐洲,日本,韓國,中國大陸,以及台灣,而最常使用的語言,包括英文,中文 ( 包含簡繁體 ) ,以及日文。
- 專利系統不必然只處理專利。其他已公開的知識或技術 ( 例如學術論文,期刊 ) ,國外的線上資料庫 (例如 Derwent ) ,或是企業內部的資訊 ( 例如實驗報告,技術文件 ) ,在實務上都有很高的參考價值。
為求對專利做進一步的分析,一般會跟各國專利局採購專利的文字資料,同時定期更新。此外,當資料範圍較大的時候,最直接的影響就是,系統會需要較佳的硬體規格,同時軟體也必須可以處理極大的資料量。軟硬體的擴充性跟分散性,會遠比其他企業內部的資訊系統來得更重要。這些因素都會直接影響到所需的預算,因此在規劃專利系統前,務必先考慮清楚。
專利系統建置五部曲
一、專利檢索
專利檢索是專利系統中最重要的一環。如果查出來的結果不正確,那麼依照錯誤的結果所做的分類,分析,以及所有的數據,圖表,都無法反應出專利中隱含的知識。傳統的作法是採用資料庫的查詢,或是網路上常見的全文檢索的方式,並沒有作額外 的語言處理。很快的,大家就發現這並不足以解決專利檢索上的問題。原因主要包括了以下幾項:
- 全文檢索是以字面上的比對為出發點,並沒有考慮到一義多字的情況。專利的撰寫上,發明人往往使用一些非習慣用語,以避免輕易的被其他人搜尋到。例如,「中文語音辨識」,在專利撰寫時可能會寫成「國語聽寫機」,「電腦」會寫成「計算器」,「電話線」會寫成「雜訊通道」。然而,用字的不同,不代表概念上的不一致。
- 同樣的,全文檢索也沒有考慮到一字多義的問題。例如,圖案產生器 ( Pattern Generator ) ,在晶圓的檢查工程中,指的是產生測試信號的儀器,而在光罩的製作上,指的是在光罩上燒上圖案的曝光裝置。當使用者輸入這個術語時,全文檢索並沒有分辨,哪一個圖案產生器才是使用者想要的。
- 即便沒有語義上的歧異,同樣的一個字,也有可能有應用上的歧異,導致在概念上的不同。例如,「臭氧」這個詞本身並沒有語義上的歧異,對一個負責晶圓處理的工程師來說,提到臭氧,他想到的可能是乾式洗滌設備,而對一個負責環保的工程師來說,他想到的可能是含氯氟烴或是蒙特婁議定書。如果在查詢專利的時候,沒有辦法針對不同的應用加以區別,得到的結果將會不如預期。
如果是以特定的發明人或是日期來當作查詢條件,使用全文檢索已是綽綽有餘。但如果希望針對專利摘要 ( Abstract ) ,申請專利範圍 ( Claim ) ,或是專利的詳細說明 ( Description ) ,作較佳的語言分析的話,建議改以概念式檢索 ( Concept Search ) 取代全文檢索,以解決語意及用語上的問題。除了概念式檢索之外,還有兩個功能是在專利檢索上必須要一併考慮的:
以文找文:一般使用者在 Google 上找網頁資料的時候,最常見的使用行為是輸入一到兩個關鍵字。然而對專利的搜尋來說,一兩個關鍵字顯然不足以描述一個特定的概念,因此多數人希望用以文找文的方式來搜尋。換句話說,使用行為可能會變成:由使用者告訴系統,想要找到跟某一篇文章相似的專利。在跟專利相關的侵權官司中,這樣的需求尤其重要。
跨語言檢索:當使用者在搜尋專利的時候,很有可能是希望美國,日本,跟台灣的專利,可以一起找回來。現在大多數都是實作三個系統,所以使用者必須以三個不同語言,到三個不同的系統查詢,才能找到所有的資料。問題是,並不是所有的使用者都有足夠的語言能力,以不同的語言來查詢。因此,如果一開始在界定資料範圍時,已經涵蓋了兩種以上的語言的話,專利系統就勢必要是一個跨語言檢索的系統,讓使用者即使只用中文查詢,也可以找到英文或日文的專利。
二、專利分類
我們可以由兩個不同的面向,來探討專利分類這個問題。第一個面向是,我們要採用哪一種分類架構。一種可能是直接採用既有的分類標準,除了前面提過的國際專利分類外,美國專利分類 ( US Patent Classification, UPC ) 也是一個廣為使用的分類標準。另一種可能則是由企業依照企業內部的需要,自行建立分類架構。例如,企業可能針對技術,材料,設備,產品,各自建立分類架構,以多重分類的方式,將企業內的知識,有效的分門別類。
另一個探討的面向則是,當系統有了分類架構之後,目的是要讓使用者可以容易瀏覽,還是希望以此建置出一個自動分類系統,將相關的文件自動歸類到所屬的類別。若為前者,由於每一篇專利已人工標註了所屬類別,在技術上較不複雜,其重要在於流程的設計。若為後者,則前述 的語言分析,也將應用在分類上。唯有將專利的概念正確的萃取及分析,才有可能正確的分類。
當專利作好了一定的分類時,在應用層就可以實作不同的呈現方式。以樹狀結構的方式,讓使用者瀏覽所有的專利,就是最典型的應用。此外,一般在專利上所謂的技術功效矩陣圖,其實是同時使用兩種分類架構的二維分析,這也就是專利地圖的概念。
三、專利分析
當系統可以精準的搜尋以及正確的分類之後,依據搜尋跟分類的結果所做的分析,才有辦法提供決策者作為判斷的依據。一般最常見的專利分析,包括專利權人,發明人,國家別,專利分類,專利引證,技術生命週期 … 等等,且多以圖表的方式呈現。
四、知識管理
專利文件極有可能是攜帶最多有效知識的資料來源,因此,企業在規劃知識管理的系統時,專利一定是最重要的一環。這樣的系統跟其他的資訊系統最大的不同點有二:
角色:一般的資訊系統的規格,往往是由專案人員與使用者訪談之後即拍板定案,而在一個專利系統中,領域專家卻扮演著非常重要的角色。原因在於,軟體提供廠商以及企業的 MIS 人員,通常不具備企業的領域知識,因此沒有能力對該領域的專利或是流程做太多的建議。在系統的設計上,必須加入領域專家的意見,該系統才會符合企業的需求。
流程:一般的資訊系統,往往是開發佈署完成之後,系統即進入維護的狀態。然而對一個專利系統而言,開發完成之後,卻只是另一個階段的開始。因為知識會不斷的更新,持續有新的專利以及新的專業術語出現,必須要設計完整的使用者回饋機制,讓新的知識有機會可以回饋到系統中,才能達到知識累積的目的。
正因為這樣的特性,在建置一個專利系統時,必須考慮以下幾個因素:
- 個人化:由於每個人的專長,興趣,工作職掌都不盡相同,在一個知識管理的專案中,個人化會是重要的一環。例如,每個人可以儲存自己的查詢條件或是查詢結果,或者是儲存整理過後的文件集。此外,可以根據使用者的操作及使用習慣,作為使用者偏好的參考依據。如果每個人都有這樣的一個個人檔案 ( Profile ) 時,系統便可以在收到新的資料的同時,主動通知 ( alert ) 可能對該主題有興趣的使用者。
- 社群及協同合作:企業內部的員工可以視為一個社群,而社群中的成員,即可依其權限,分享或是存取其他人的研究成果。同時,也可以導入討論區的概念,讓閱讀過某篇專利的人,可以將其消化後的心得分享給其他的社群成員。值得一提的是,專利文件本身或許沒有權限控管的問題,也就是說,這並不是文件管理的概念。真正要權限控管的是社群成員累積以及整理後的資訊,這才是真正有價值的企業資產。
- 回饋及審核機制:前面曾經提過,專利系統必須要設計知識的回饋機制,不管是自動回饋還是人工回饋。然而,並不是所有回饋的內容都是正確而有價值的知識,因此在回饋的知識進入系統之前,仍需有一道審核機制,由資深的領域專家扮演裁判的角色,以避免錯誤的資訊或是不必要的雜訊被導入原本的系統。
人的因素,永遠是知識管理上最困難的一環。如何讓員工的知識以某個形式保留下來,以避免重複的研發投資,會是這個部份的核心。
五、專利管理
在專利系統中還有一部份是行政管理上的應用。當企業有研發人力申請專利的時候,有許多的記錄必須保留,以作為自行開發的佐證,同時也有相關的費用必須定期支付。專利管理的部份,包括了技術文件的保存,提案管理,專利申請進度的追蹤,專利的後續維護及追蹤評估,以及相關報表的產生…等等。專利管理通常要跟企業內部的作業流程加以整合。
其他相關應用
除了以上幾點,專利還有一些常見的應用,可以在規劃專利系統的時候一併考慮:
- 除了專利文件之外,還有一些跟專利相關的資訊是值得蒐集和關注的,例如與智財權有關的新聞跟法令,專利局定期發佈的專利公報等等。
- 專利除了文件內文中描述技術的部份之外,在法律上最重要的,應該就是專利的法律狀態 ( Legal Status ) 了。這部份記錄了專利申請案的審核進度,訴訟的結果,相關權利的歸屬等等訊息。此外,專利家族 ( Patent Family ) 記載了同一技術在不同國家中的衍生發明,對於評估特定公司在特定市場的專利佈局,有極高的研究價值。這部份的資訊,建議也是以採購的方式,同時定期更新,以確保取得最新的市場情報。
- 在專利文件中的專利權人那個部份,由於書寫格式的不統一,加上,加上同一企業集團中各子公司間複雜的關係,往往當需要針對特定企業做相關的研究時,沒有辦法有效的找出所有有關的資料。如果專利系統中,希望可以對某個產業或是領域的市場有比較好的分析,則必須維護所謂的企業樹 ( Corporate Tree ) ,以確保可以找到所有的資料。
- 不同的人在撰寫專利時,資深跟資淺的專利工程師寫出來的品質有可能差距很大。當企業的專利產量很大的時候,可以考慮建置專利的輔助寫作系統,可由資深的專利工程師設計一些樣板,或是參考前人所發表的專利,同時搭配專業辭庫的設計,選擇最適當的辭彙。
專利系統是目前非常熱門的題目,同時也是非常困難的挑戰。專利的撰寫,使用了不同國家的文字,從用字,文法,到語言現象,都跟一般的文件不同。在專利分析上,與其他的數據資料的分析,又有著天壤之別。加上專利系統又是很難複製的,在甲企業行得通的方法,由於企業文化的不同,不必然在乙企業也可以運作順利。但即便如此,投資人力跟時間在專利系統的建置與維護,卻仍舊是所有世界領導廠商的共識。為了維護企業的競爭力,為了保護自己的智慧資產,更為了避免在專利訴訟中受制於人,儘早建置完善的專利系統,才有辦法讓企業在國際的競爭中,立於不敗之地。
在探索新一代的 Text Mining 搜尋分類技術
在全球資訊發展蓬勃迅速,智慧資本與知識管理當道的今日,搜尋與檢索技術已然成為目前企業機構中資訊管理上的關鍵元件,扮演著各資訊管理架構元件間的溝通橋樑。一般而言,運用搜尋與檢索技術進行知識發掘的過程,可廣泛定義為在龐大的非結構性資料儲存中,快速、正確並安全的擷取相關、適切、即時、有用的企業智慧資產,來強化和達成任何關鍵性任務的過程。
事實上就資料的應用面而言,使用者並不在乎資料來源或如何取得,只在乎取得所花費的時間與資料的準確性。然而,從技術面而言,資料本身因存在著多樣性,必須使用不同的技術處理不同類型的資訊,也因此加深了許多技術整合上的困難度與複雜性,以下將藉由簡單介紹非結構化資料為開端,帶各位了解 Text Mining 的搜尋分類技術 。
所謂的非結構化資料泛指一般的文件,無既定的規律,但在分析處理上,必須依造文件既定的結構,由上而下文件共分為:文件、段落、句子、子句、詞組、詞、字等結構,若要以語意角度切入,文件與段落中還可插入論域,論域是指具有特定主題的口語或書面語,它可能由一個以上的段落構成。前述文件結構的每一層次在搜尋及檢索過程中都需要有相對應的處理程序,以下就這些辨識處理程序技術逐一說明。
文件論域的辨識
一篇文件可能有數個論域,一個論域可能有數個段落,辨識文件的段落後,必須辨識哪些段落是屬於同一個論域,這就是所謂的文件論域的辨識。論域具有核心的主題,非結構化資料的搜尋檢索或多或少都牽涉到語意層面的處理,因此,確認其核心主題是重要的工作。
詞組的辨識
詞組在英文中經常出現,通常一個相同動詞與不同的介副詞組合,就有不同的意義,這造成詞組的辨識是不可或缺的步驟。相對而言,中文詞組現象較少,倒是字組較多,如「一元復始」與「三陽開泰」。無論是詞組或是字組,其意義通常是個別的詞義或字義組合而兼有變化。
句子的辨識
句子的辨識是之後詞彙處理的基礎工作。句子辨識不如想像中的簡單,尤其是中文使用短句很頻繁,通常以逗號「,」結尾。句子辨識完成後,需以句子為單位建立剖析,隨著語法理論的不同,剖析出眾多形式,但是剖析之前,還必須先處理詞組與詞彙。一旦剖析完,才能著手建構邏輯正規形式,而這是一切 Text Mining 中推論的基礎。
文本分群
將文件依據各自的特性分群,通常採階層式分群法,最後所形成的分群是由相似性的門檻值決定的,而決定門檻值並不容易,除了經驗與實作外,目前還沒有系統化的方式。分群的另一問題是如何給定分群的標籤或是建議分群的標籤,以揭示各分群的特性,這是文本分群最難的工作。
詞彙的處理
東方語系語言與西方語系語言不同,東方語言有分詞的問題,亦即東方語言詞彙間無西方語言詞彙間的空白標記。詞彙辨識完成,就是給定詞彙的詞類標記與詞義標記,此外,英文有詞幹處理的工作,中文則無。
文件結構的辨識
文件結構的辨識是處理非結構化資料的第一步,換言之,必須給定文件每一成分所屬的結構標籤,如題名,作者,單位,機構,電子郵件,摘要,第一段落,其他段落,最後段落,圖片,表格等等結構標籤,至於到底有多少標籤,則由需求決定。
文本歸類
文本歸類與資料歸類相似,皆是希望將文本給定一個既定的分類標籤。這在新聞機構的應用特別明顯,一般的新聞機構都有其分類體系,如政治、財經、體育、娛樂、文學、旅遊等分類標籤。
自動推論
自動推論是人工智慧研究的一環,其本身就是很重要的課題,自動推論需要一套推論機制,接受各文本擷取的資料,並作為推論的前提,運用推論引擎,以得到推論的結果。
主題偵測與追蹤
嘗試由一群依時間排序的文件,偵測新事件(新主題)的出現,並追蹤該事件,換言之,需將這群文件依照不同的主題,將相同主題的文件依時序串連,建構時間序列,如此可探知事件的發源、演變、以迄終止。
Text Mining 的最佳方案 Convera – RetrievalWare
透過非結構化資料來描述 Text Mining 技術的內涵後,我們可以發現,事實上,在這個資訊越來越複雜、密集的世界裡,要想快速而精確的透過搜尋、檢索與分類技術, 讓各大企業機構在智慧資產中獲得最大的投資報酬,已然成為現代企業資訊競爭力的象徵,以下將透過 Convera - RetrievalWare 的知識探勘技術,讓使用者或是企業不再受限於過去綁手綁腳的搜尋方式,而是依造自己的需求動態建立資訊類別,此外,這些類別還可以和其他類別形成鏈結,讓使用者找到隱匿而不易察覺的資訊,而這樣的歸類與動態分類代表了操作上與技術上的突破;這樣的知識探勘能力可以讓企業機構有效的分享資訊與專業知識,讓決策速度更快,並取得企業人力與智慧資產的完整價值。
何謂 Convera RetrievalWare
RetrievalWare 是一個提供企業在關鍵性任務中,所需之搜尋與分類的安全、高延展性的平台。
| 根據強大並經專業驗證的技術, RetrievalWare 的分散式架構提供了一個高效能的基礎,在大量且分散的資料來源間進行索引、搜尋、分類與資訊連結。此一平台的模組匣 ( Cartridge ) 架構,能根據業界特定的問題、不同的語言環境、欲發掘的知識、或是其它資訊管理的需求,量身訂作平台的功能。 |
 |
最佳的搜尋精確率與召回率
結合先進的搜尋方式以及獨特的分類技術,RetrievalWare 能跨越大量、多變的資料源,精確地鎖定並找回所要的資訊。本產品目前提供概念式查詢、樣式比對,以及布林查詢等三種搜尋模式,使用者可以個別或交互使用,彈性地取得有用的結果。
概念式查詢
概念式查詢依循著人們彼此交談時的自然法則-根據聽眾的不同,表達概念的方法也不同。透過 Convera 獨特且強大的語意網路 ( Semantic Network ),RetrievalWare 能依概念或語意搜尋資料。藉由連結的概念、專有名詞與文字關聯性,語意網路能協助使用者找出所有意義相關的資訊,而無須逐一定義相關的規則。
樣式比對
概念式查詢是一種強大的工具,能面對搜尋時深度及廣度的挑戰。然而,若是原始文件在 OCR 處理時不當而有錯字,或在搜尋時不小心拼錯目標字彙,又或是該字有英美兩種拼法上的不同,此時就得仰賴 Convera 申請專利中的適應模式辨識處理 ( Adaptive Pattern Recognition Processing )。適應模式辨識處理以進階的方式做多重比對,所以即使原始資料或是查詢條件有錯字,仍舊可以成功的搜尋。
布林搜尋
RetrivealWare 也提供強大的布林邏輯或關鍵字搜尋,這是一種有效、彈性與準確的資訊搜尋工具。結合 RetrievalWare 的概念式查詢和樣式比對,可以有效的縮小搜尋範圍,並將搜尋結果依相關程度排序。RetrievalWare 採用強大的索引方式及先進的語言分析法,確保布林搜尋和概念式查詢都可得到精確的搜尋結果。
 |
例如要查詢「油價上揚」,搜尋的範圍會擴大至相關的辭彙及概念,如:漲價、收費站、生產成本、上漲、原油及石油…等,能確保搜尋的深度及廣度。 |
 |
在詳細檢視的頁面中點按反白的搜尋結果,除了顯示完全符合字串的文件,還會顯示概念及語意符合的文件。 |
歸類與動態分類
RetrievalWare 以先進的歸類和動態分類 ( Categorization and Dynamic Classification ) 解決方案,協助企業在繁雜、眾多的資訊來源中找出有用的資訊和專業知識。更重要的是,RetrievalWare 可以動態地呈現使用者搜尋的結果與工作的內容。
使用者在搜尋的同時,RetrievalWare 可以自動根據預先定義或動態產生的分類方式,將查詢結果自動分類。分類架構包括業界標準、使用者自訂的分類架構,或是由 Convera 認證的合作伙伴所提供的專業分類架構。藉由豐富的分類架構來找到對企業有意義的知識,這是其他的搜尋軟體所沒有的功能。
運作原理
| 用 Convera 創新的歸類與動態分類技術,結合 RetrievalWare 的語意網路-主要的概念、關系與連結都能依據分類架構加以萃取,是對特定組織極具意義的資訊。
當使用者進行一項搜尋時,語意網路會識別並傳回高精確與完整的搜尋結果,並根據與「油價上揚」的相關性來分級。
|
 |
Convera RetrievalWare 的產品特性:
高效能與高可用性
RetrievalWare 可依搜尋需求擴充與整合。當使用者的資料量增加,RetrievalWare 模組化、彈性的分散式處理架構能讓企業保有延伸性、可用性與效能。功能包含:
叢集式架構
負載平衡和容錯保護。
文件索引以及文件搜尋
對於關聯性資料庫、文件管理系統或是資料倉儲系統, RetrievalWare 可以針對超過兩百種以上的檔案格式,進行索引、搜尋,及分類。
多平台機制
RetrievalWare 支援的平台及整合環境包括:
- Windows | Solaris | Linux
- HP-UX | AIX | Tru64 Unix
- JBoss | BEA
- WebSphere 應用程式伺服器
- Sun Java support
- J2EE | Web Services | .NET 支援
跨越多國語系支援
RetrievalWare 具有超過45種語系的支援模組,其語言嵌入式架構還可支援更多的語言。使用者即使以單一語言搜尋,其他語言中的相關資訊也會出現。Convera 的語言模組匣支援的語言包括:
英文 | 西班牙文 | 法文 | 德文
義大利文 | 俄文 | 日文 | 中文
阿拉伯文 | 以及其他語系支援
軟體開發工具
RetrievalWare 軟體開發工具是整合企業應用及資訊入口網站的解決方案。這些工具包括:
- Java 軟體開發工具
- 模組匣及 C&C Workbench
- 管理模組開發工具
- 安全性模組開發工具
- 存取過濾模組開發工具
- 語言外掛程式開發工具
- Screening Room 軟體開發工具
- Screening Room Capture 軟體開發工具
- Visual RetrievalWare 軟體開發工具
RetrievalWare 的優點:
- 其知識搜尋能力可以將智慧資產加以組織,並動態分類到可瀏覽的資料夾中,使用者可透過這些相關、有意義的資訊,即時制定決策,解決真實世界的問題。
- 發掘概念上相關的資訊,並將其轉換成跨語言與符合各種使用需求的知識。
- 統一讀取整體智慧資產,提升使用者的生產力-無論是其格式、位置、語言或媒體類型為何。
- 即使使用不同但相關的搜尋字彙來搜尋同一個來源,亦能取得完整與相關的搜尋結果。
- 支援企業最需要的搜尋與分類解決方案,整合成一個最具效益、具延伸性與效能的可靠解決方案。
- 具備強大、有彈性的安全機制,在不破壞安全性的前提下,取得企業的智慧資產。
Convera RetrievalWare 應用效益:
企業
企業所面對的問題,無非是如何降低成本、增進生產效率、提供客戶更好的服務以及擊敗競爭對手。無論是商業資訊搜尋、知識管理、入口網站的部署或是電子商務應用,其執行速度與資訊擷取的準確度與時效性,都極為重要。RetrievalWare 將是您劍及履及的成功關鍵。
金融機構
在金融產業中,投資分析師與客戶都必須研究公司報告、外部訊息以及政府制度,才可以做出正確投資決策,判斷新的商機。此外、投資銀行與證券業者也必須遵守政府規章與客戶溝通,監控及報告重大的訊息,研究可能的投資風險。RetrievalWare 先進的搜尋、分類與控勘技術可讓金融業者與客戶適時地找到所要的資訊。
生命科學
生命品質因不斷發現新的藥物與治療方法而更受到保護,這些新發現正是透過全球生命科學的研究與知識累積。換言之,在研製的過程中,若錯失任何資訊,就可能延遲新藥問世,也造成投資者的嚴重損失。現在,不論這些資訊儲存在哪個學術單位、政府機構或是藥廠的龐大資料庫裡 ( 網站、檔案系統,內容管理系統甚至群組軟體 ),RetrievalWare 都可以迅速地找到、擷取並組織成研究者最易於使用的形式。
OEM
軟體協力廠商通常都必須面對一個問題:產品裡不斷出現「內容超載」的情形。而且,除非使用者能正確、快速找到所需的資訊,否則應用程式中的內容可說是毫無價值。如今、只要在解決方案中嵌入 RetrievalWare,協力廠商提供的應用程式就提升對結構化與非結構化內容的搜尋與分類能力,如此一來,產品的利潤與競爭力將大幅增加,獲得更高的客戶滿意度。
政府單位
藉由 Convera 先進的搜尋技術,不管是知識工作者、法律執行部門、軍事或民眾事務代理機構的主事者,都可以存取、分析並整合來自多重資料來源的資訊。從預防並阻止恐佈活動,到單純地增進政府便民的效率,RetrievalWare 都可提供協助。不論是電子郵件、網站、圖像、視訊、甚或金融、旅遊及意見紀錄,都能進行分析與研究。
Sucessful Story
台積電以 Convera - RetrievalWare 成功建構理想中的專利搜尋、擷取及評價系統
| 導入客戶: |
台灣積體電路製造股份有限公司 |
| 導入產品: |
Convera RetrievalWare |
| 企業應用: |
專利搜尋、擷取及評價 |
台灣積體電路股份有限公司是國內最大的半導體廠商,員工人數 14,000 餘人,廠房遍佈台灣、美國華盛頓州、新加坡等地,並於美國加州聖荷西市、荷蘭阿姆斯特丹及日本橫濱皆設有行銷及工程支援辦公室。
但也許有人不知道,台積電在董事長張忠謀的領導下,將所有無形的專業經驗與智慧,塑成有形的知識及資本,也就是說,台積電這幾年以來最耀眼、最引以為傲並不是營收數字的成長;而是隱藏在台積電人所濃縮的智慧精華,這些智慧資本已經被有效記錄、編碼分類、儲存、分享與擴散,甚至於不斷地再更新延伸。
針對有形的智慧資本-專利資料探勘亦是在台積電中備受重視的一環,過去, 即使是將檔案建立完整,想在資料庫中搜尋到高度相關的資料亦是非常困難的任務,往往需耗費許多人力與時間去逐一比對檢視搜尋結果,長時間下來,台積電嘗試許多種不同的解決方案, 但始終無法滿足台積電在工作上對效率的追求, 因此,如何快速且精準的進行 專利搜尋、擷取及評價成為台積電所面臨的新挑戰。
多年來經驗讓台積電開始思考以 Text Mining 的方式,建構一個專利搜尋及評價的系統,但在評估的過程中,發現大部分廠商是採用 Boolean 或機器學習的方式,因此無法達到他們理想的境界和目標,直到透過龍捲風科技發現 Convera-RetrievalWare 的核心原理原來是如此貼近他們的需求。
導入前的評估
台積電針對此案總共接觸過 8 家國內外知名大廠,初時選定數篇台積電有興趣的半導體專利(約八萬多篇)當成查詢的題目,並請專家先行認定,與題目高度相關的某篇特定專利,看該特定專利是否會落在查詢結果的前幾名,接下來是用 200 名來評估(一頁 50 筆按四次),換句話說,答案落在查詢結果的比例為 200/80,000 = 0.25%,要準確的達成這樣的搜尋結果,廠商在資料探勘的處理技術以及巨量資料的快速處理能力,將是評估的重要項目。
選擇 Convera-RetrievalWare 的原因
此外,台積電認為純粹 Boolean 查詢是不夠的,而以機器學習的方式做的 Text Mining 又完全無法進行調整,所以傾向於使用由半導體專家自行建立語意網路的方式來實作。最後有進入 PoC 的僅剩龍捲風科技與另一家廠商,但因另一家廠商無法處理大資料量,因此無法做出考題的答案,而 Convera – RetrievalWare 不但完美的通過層層考驗,它具備強大彈性的安全機制,可以在不破壞安全性的前提下,擷取企業的智慧資產,以及可自動發掘概念上相關的資訊,將其轉換成跨語言並符合各種使用需求的知識等優勢因素,及下述經過驗證並多次獲獎的最新索引技術,也讓它成為台積電建置專利搜尋及評價的系統的核心首選。
Convera-RetrievalWare 知識探勘技術
 |
 |
RetrievalWare 的動態分類引擎會立刻組織搜尋的結果,並顯示在一個可調整的分類檢視中。當選擇「石油」分類時,使用者的搜尋結果會立刻根據內文重新組織,讓使用者能進一步找到最相關的搜尋結果。 |
使用者也能新增額外的分類方式,如本例中的「地理位置」,以進一步的在其他感興趣的相關事務上進行探索。使用者還能將搜尋結果以表格的形式加以呈現,以精確地鎖定與兩種不同概念有關的資訊,如本例中的「地理位置」與「石油」。 |
Convera-RetrievalWare 產業別解決方案
語言模組匣
除了內建超過 45 種以上的語言外,還可選購 RetrievalWare 語言模組匣,藉以在眾多的語言中使用語意網路。這些語言模組匣不僅考量到各國語言特有的文字組合,如特殊字串、斷字斷詞、文法型式、俚語與常用字等,同時也支援語意網路,以進行特定語言的概念搜尋。 |
 |
領域模組匣
透過領域模組匣提供的相關性語意網路,我們可縮小搜尋範圍,讓搜尋更為精確。當使用者搜尋資料時,領域模組匣可將搜尋集中在某個領域,依概念作深度搜尋。每個領域模組匣可延伸並結合其他的領域模組匣,同時也可以自行增加或修改領域模組匣的預設字彙及概念,以符合使用者的需求。
Convera-RetrievalWare 經認證的分類模組匣
 |
RetrievalWare 創新的 C&C Workbench 能提供快速建立、自訂模組匣與內容分類的能力。除此之外,整合式的分析與 QA 工具能確保精確率,召回率,與無與倫比的知識發掘能力。 |
Convera-RetrievalWare 資料倉儲與存取
多媒體
 |
除上述所提及的資料倉儲外, Convera 還提供 Screening Room 和 Screening Room Capture 兩項獲獎的影像資產管理系統。這個功能完整的多媒體選購元件能擷取並針對高價值的影像資產建立索引,然後由 RetrievalWare 的介面進行搜尋、分類與瀏覽。 |
書面資料
一般企業除了影像資料外,更有堆積如山的書面文件,在數位的世界裡,書面的資訊常被忽略。
Convera 的 FileRoom 打破數位與平面媒體的藩籬,讓使用者透過資訊檢索的方式,分類及讀取平面媒體資料,整合您的數位與書面資訊。
| 台積電介紹 |
台灣積體電路製造股份有限公司(簡稱台積公司)成立於民國七十六年,是全球第一家以最先進的製程技術提供晶圓專業製造服務(即一般所謂晶圓代工)的公司,同時亦成功地開創了晶圓專業製造服務產業。台積公司以穩定成長的資本支出和優於同業的表現,持續成為市場的領導者。民國九十五年本公司的營業額達到新台幣二千六百四十五億元,目前全球共有超過二萬名員工。為了充分滿足客戶需求,台積 在台灣、北美、歐洲及日本都設有客戶服務辦事處,為客戶提供即時的最佳服務。 |
Convera – RetrievalWare 簡介
Convera 的 RetrievalWare 解決方案能協助客戶在龐大的非結構性資料儲存中,得到最大的投資報酬。它提供的強大功能,讓搜尋者在面對 45 國語言、 200 種以上檔案格式 ( 包括文字、視訊、圖像與聲音 ) 的資訊時,仍然能快速、正確並安全地達成任何需求。已經有超過 33 個國家、超過 900 個企業客戶,透過 Convera 的搜尋解決方案來強化他們的應用關鍵性任務的力量。廣泛的應用層面包括:企業入口網站、知識管理、情報搜尋、投資研究、公司決策、管理決策以及客戶服務等。
Press Releases
龍捲風獨家代理 Convera 國際知名檢索分類產品,提供更先進的 Text Mining 技術服務亞太地區客戶
國 際知名檢索分類技術領導廠商- Convera 與龍捲風科技將在亞太地區進行技術與行銷全方位的合作。一直以來,龍捲風科技致力於 IR ( Information Retrieval ) 領域相關產品及技術的研發,多年來深耕於各產業與政府電子化專案中,擁有極佳的產業知識與導入經驗,而 Convera 位於美國維吉尼亞州,是一個提供搜尋和分類技術解決方案領域中的佼佼者,藉此合作機會,龍捲風科技與 Convera 希望能透過雙方領先世界的新觀念與新技術、 卓越而專業的創新產品與服務精神,提供國內企業主能更快速完成企業價值鏈、知識管理、工作流程、異質系統整合等各項目標,為國內企業知識創新及經驗累積加值,進而協助國內產業創造商機並提昇長期競爭力。
龍捲風科技表示,未來的搜尋不只是要快速的找到資料,而是要能協助組織能根據準確的情報做出決策、改善營運效率、並讓企業在資訊或人力資源的付出上獲得最大的回饋。就應用面來看, Convera 的解決方案支援 200 多種資料格式和 45 種語言,客戶分佈於世界 33 個國家,包含了政府、媒體、電信、醫藥、金融、製造、資訊等產業;尤其在美國政府單位的推廣更是領先群倫,客戶群包含 FBI 、 NASA 、情報局、海關、國防部、海軍、空軍、教育部、能源部、食物藥品檢驗局、司法部、證管局、國會、農業部 … 等,這些都是因為 Convera 提供了三種方法來滿足未來的搜尋需求-概念搜尋 (Concept Search) 、分類法建置 (Taxonomy) 、動態分類 (Dynamic Classification) ,而這些應用也能為國內資訊分類及知識探索領域再次建立一個全新標準。
針對國內資訊檢索市場需求日殷, Convera 與龍捲風科技的合作也將逐步展開,首先,龍捲風科技運用多年來深耕 IR 領域的專業及技術優勢,扮演 Convera 產品在國內市場在地化 (Localization) 的角色;並運用豐富的導入實作經驗, 將 Convera 領先世界的新觀念與新技術,包含概念搜尋、分類法建置、動態分類、以文找文、以圖找圖、多媒體搜尋等多項技術,順利成功導入政府軍方單位及國內高科技製造業者如:台積電等大型企業機構 ,透過 Convera 新一代的數位內容探勘及資訊檢索技術,在多國語言的平台下,藉由 RetrievalWare 豐富的搜尋及分類方式,把概念和語意相關的資料轉換成知識;並藉由有效的動態分類, 讓使用者能運用最先進的 Text Mining 技術來協助高科技製造業或大型政府機構來管理重要的智慧資產,除了 提供客戶能藉由詞語庫做精確的搜尋,將智慧資本充分利用外 ,更能進而做出正確決策,以解決問題及增加生產力,提升企業整體競爭優勢。
龍捲風科技表示, Convera 除了在 Text Mining 文字探勘的技術上遙遙領先之外,在多媒體搜尋上也有極佳的導入經驗。從 Convera 協助 ABC News 、 ESPN 、 Discovery 到 National Geographic 等媒體的影片資料館 (Film Library) 建置經驗,龍捲風科技有信心利用 Convera 多媒體分類和搜尋功能,為國內電信和媒體業者的多媒體資產,提供最貼適的分類及最快速的搜尋方案。 今年下半年起,龍捲風科技將以豐富的經驗,結合 Convera 的新技術,進而創造出市場的新商機。