龍捲風科技 Tornado Tech 官方網站已全新改版

系統將自動導引至新版官網,非常感謝您的配合!

本頁將於秒後自動跳轉至文章頁面


新版 龍捲風科技 Tornado Tech 官網


中文企業搜尋與語意分析技術的領導者

Leader of Enterprise Search and Text Mining in Chinese.





核心技術介紹

本公司之核心技術能力在語意分析及搜尋技術 (Text mining and Search technology),著重在非結構化資料 (Unstructured Data) 處理,能夠快速整合大量異質性資料,找出重要的關鍵內容。


核心技術如下圖,包括:




a.搜尋引擎技術 (Search Engine)

龍捲風科技之搜尋引擎產品是國內最成熟、採用客戶最多的搜尋引擎。搜尋引擎核心之內部索引結構採用新一代Enhanced Inverted Index原理設計,支援Unicode多語系,具高效能,核心單一查詢均在釐秒等級 (0.01~ second) 內完成,遠勝資料庫處理數十倍。


為了平行處理巨量資料,龍捲風利用獨特的同儕網路 (peer-to-peer networking) 技術進行設計,將多個搜尋引擎進行聯機作業,成為一個巨大的搜尋網路 (search network),在面對數億筆資料時依然保有優異的查詢效能。


龍捲風在搜尋引擎的核心技術包括:


  • 字元切割與斷詞 (tokenization and segmentation)
  • 語言處理 (linguistic processing)
  • 索引建構 (index construction)
  • 快速索引存取 (fast index access)
  • 模糊化檢索演算法 (fuzzy search)
  • 分散式搜尋網路 (distributed search network)


b.自動語意分析技術 (Text Mining)

龍捲風科技在搜尋技術的基礎上,再發展出高端的自動語意分析技術,採用以特徵詞為基礎的設計,可自動學習分析文件資料中的關鍵詞 (包括不存在系統詞典中的未知新詞,如人名、地名、翻譯名詞等),進而計算出文件的特徵值、摘要等,做為關聯分析、自動分類、自動群集的基礎,並可判斷文意內容的情緒 (sentiment),進一步以創新的圖像做視覺呈現 (visualization)。


此部分技術極具前瞻性,特別是在巨量資料數位化的趨勢下,即時且準確自動解析文字意涵,將是未來10至20年新科技應用的基石。


龍捲風在這一部分的核心技術包括:


  • 中英文關鍵詞擷取 (keyword extraction)
  • 相關詞自動學習 (related term learning)
  • 文件相關度計算 (document relevance)
  • 內容意見分析 (opinion analysis)
  • 文件自動摘要 (summarization)
  • 文件自動分類 (classification)
  • 語意圖像呈現 (semantic visualization)


c.內容擷取處理技術 (Automatic Capture)

自動擷取技術也是龍捲風科技的核心技術。龍捲風擅長處理非結構性資料,例如文件、檔案、資料庫、郵件、網頁、電子書、甚至包括掃描文檔、視訊影片等,面對企業內的產品文件、客戶紀錄、營運資料,以及網路上的新聞、網誌、討論區、微博、社交網路等,都能夠自動化、大量平行地擷取其中的內容,做為全文檢索或Text mining之用。


其核心技術包括:


  • 平行化自動擷取 (parallel capturing)
  • 多重格式處理 (format processing)
  • 文字定位與解析 (text localization and parsing)
  • 文字內容抽取 (text extraction)
  • 辨識後處理 (post-processing)