澤元全文檢索系統(ZSearch)

ZSearch基于J2EE構建,采用分布式架構,具有很好的擴展性、準確性和實時性,在同義詞擴展、高亮查詢結果、專業分詞、實時索引、高效壓縮、機器學習等方面,都有很強的技術優勢。系統引入了多種人工智能模型以改進查準率和查全率。隨著數據量的不斷增加,ZSearch的分布式架構能夠很好的解決性能瓶頸,僅需簡單地配置新增節點,即可快速應對數據的爆發式增長。


產品簡介

智能檢索

ZSearch基于J2EE構建,能夠實現高性能的站內文章、圖片、音視頻、商品等信息的智能檢索,按欄目、按作者、按發布時間、按關鍵詞等條件進行高級檢索,并根據用戶的搜索習慣提供搜索聯想、搜索糾錯、搜索推薦等。

垂直搜索

ZSearch提供多線程、容錯性強的Web爬蟲,可以從其他網站大量采集網頁。同時還提供獨創的、兼容性強、使用簡易的HTML數據模板機制,使得從網頁中提供結構化數據變得極為容易,從而快速實現行業垂直搜索引擎。


自定義詞典

ZSearch能夠根據搜索引擎所涉及的領域不同,可以快速增加自定義詞典,能夠達到1秒分詞100萬漢字的性能要求。


功能特點

機器學習與數據挖掘

針對專業領域內容的檢索,我們基于ES進行了深入的定制化開發,增加了參數調整、優化了針對專業領域詞匯的分詞算法和新詞挖掘算法,還基于用戶的點擊反饋對檢索結構進行了優化。

高效分布式索引

檢索系統的高效分布式索引子系統具有低膨脹率、高度并發、高度可擴展等特征,由文本預處理、索引創建、索引更新、索引刪除四個功能???,以及一個可調用的索引壓縮??楹鴕桓鏊饕募低匙槌?。

多種檢索方式

包括按圖書檢索、單篇資源檢索、圖片檢索、全文關鍵詞檢索、跨庫檢索等資源多維度檢索方式,可滿足用戶對數字內容資源的全方位提取和利用。

檢索詞推薦

ZSearch支持檢索詞推薦。系統從用戶log中查詢熱度較高的查詢詞,過濾掉其中不適合推薦的詞后找最為相關和有用的詞進行推薦。

先進的排序算法

ZSearch采用一種改良的多域檢索排序算法,支持按照相關度排序或者按照時間排序,為了保證系統的可擴展性,當按照時間排序時,同一時間的文章按照相關度排序。如果相關度一樣的時候,我們按照時間新舊來排序這些相關度一樣的文章。

人工干預排序

支持對檢索結果進行人工干預,針對不同字段設置不同權重,從而影響檢索結果的排序方式;還可以根據用戶實際需求,定制開發具有特色的檢索系統,如分析用戶的屬性、瀏覽歷史、感興趣的類別、檢索詞等,動態給更貼近用戶期望的檢索結果加權。

中英、簡繁自動翻譯檢索

檢索中對輸入的中文內容通過有道翻譯api接口進行實時翻譯,通過內置的簡繁字體庫實時翻譯為繁體(繁體也可以實時翻譯為簡體)。使用簡體內容、繁體內容、英文內容組裝檢索條件。檢索結果將是可能包含三種語言文字的內容混合。

知識圖譜

利用深度數據挖掘技術及知識分析技術,系統可以通過大量數據分析將搜索結果生成知識圖譜,以結構化、可視化的圖形方式將知識人物等數據間關系展現出來,為科學研究提供有價值的分析參考。