核心技術介紹



中文企業搜尋與語意分析技術的領導者

Leader of Enterprise Search and Text Mining in Chinese.


核心技術介紹
本公司之核心技術能力在語意分析及搜尋技術 (Text mining and Search technology),著重在非結構化資料 (Unstructured Data) 處理,能夠快速整合大量異質性資料,找出重要的關鍵內容。

核心技術如下圖,包括:




a.搜尋引擎技術 (Search Engine)

龍捲風科技之搜尋引擎產品是國內最成熟、採用客戶最多的搜尋引擎。搜尋引擎核心之內部索引結構採用新一代Enhanced Inverted Index原理設計,支援Unicode多語系,具高效能,核心單一查詢均在釐秒等級 (0.01~ second) 內完成,遠勝資料庫處理數十倍。

為了平行處理巨量資料,龍捲風利用獨特的同儕網路 (peer-to-peer networking) 技術進行設計,將多個搜尋引擎進行聯機作業,成為一個巨大的搜尋網路 (search network),在面對數億筆資料時依然保有優異的查詢效能。

龍捲風在搜尋引擎的核心技術包括:

  • 字元切割與斷詞 (tokenization and segmentation)
  • 語言處理 (linguistic processing)
  • 索引建構 (index construction)
  • 快速索引存取 (fast index access)
  • 模糊化檢索演算法 (fuzzy search)
  • 分散式搜尋網路 (distributed search network)


b.自動語意分析技術 (Text Mining)

龍捲風科技在搜尋技術的基礎上,再發展出高端的自動語意分析技術,採用以特徵詞為基礎的設計,可自動學習分析文件資料中的關鍵詞 (包括不存在系統詞典中的未知新詞,如人名、地名、翻譯名詞等),進而計算出文件的特徵值、摘要等,做為關聯分析、自動分類、自動群集的基礎,並可判斷文意內容的情緒 (sentiment),進一步以創新的圖像做視覺呈現 (visualization)。

此部分技術極具前瞻性,特別是在巨量資料數位化的趨勢下,即時且準確自動解析文字意涵,將是未來10至20年新科技應用的基石。

龍捲風在這一部分的核心技術包括:

  • 中英文關鍵詞擷取 (keyword extraction)
  • 相關詞自動學習 (related term learning)
  • 文件相關度計算 (document relevance)
  • 內容意見分析 (opinion analysis)
  • 文件自動摘要 (summarization)
  • 文件自動分類 (classification)
  • 語意圖像呈現 (semantic visualization)


c.內容擷取處理技術 (Automatic Capture)

自動擷取技術也是龍捲風科技的核心技術。龍捲風擅長處理非結構性資料,例如文件、檔案、資料庫、郵件、網頁、電子書、甚至包括掃描文檔、視訊影片等,面對企業內的產品文件、客戶紀錄、營運資料,以及網路上的新聞、網誌、討論區、微博、社交網路等,都能夠自動化、大量平行地擷取其中的內容,做為全文檢索或Text mining之用。

其核心技術包括:

  • 平行化自動擷取 (parallel capturing)
  • 多重格式處理 (format processing)
  • 文字定位與解析 (text localization and parsing)
  • 文字內容抽取 (text extraction)
  • 辨識後處理 (post-processing)