全媒體內容采集

澤元“中央廚房”解決方案為編輯記者提供多種內容回傳手段,收集發布針對性創意選題和傳統媒體約稿,方便將數據傳入采編平臺,同時系統提供對報道需要的采編用戶實時信息的自動化采集功能,為后期媒體傳播提供全面完整素材。

一鍵轉載

一鍵轉載工具箱是系統提供的一種書簽工具欄按鈕,能幫助編輯人員快捷的轉載外站文章及完成后臺內容在前臺管理的操作。

工具箱中的一鍵轉載功能可以實現對互聯網大部分網站的文章進行正文的無規則提取。

具體如下:

① 支持文章標題自動獲取。

② 支持文章正文的自動提取,正文提取算法提取成功率達95%。

③ 支持TAG詞、來源自動提取填充,減少編輯工作量,提升工作效率。

④ 支持源站文章的分頁采集、無需人工翻頁。

WEB采集

系統提供了高性能的多任務網頁采集器,用于從其他指定網站上采集與本網站相關的文章和數據,以便于實現自動轉載和行業數據整合。

系統的WEB采集功能具有以下特性:

可以同時執行多個采集任務,每個任務又可以使用多個線程;

采集器支持多層導航,以便于深入站點內部;

采集器使用自定義的文件存儲結構,可以采集上億個網頁,支持TB級數據量;

采集器支持歷史記錄功能,能有效避免重復采集;

采集器支持配置匹配塊與過濾塊,實現采集目標頁面內指定的屬性信息,過濾有效信息內嵌入的其他內容。

支持網站登錄采集,可以采集需要登錄才能看到的頁面;

支持模擬表單提交,可以輕松采集以POST方式提交的頁面。

采集時可以使用代理服務器。

網頁采集器支持腳本,可以在運行時動態計算URL,或通過腳本模擬動態頁面表單提交。

采集結果可以自動提取網頁正文,支持采集結果轉成欄目文章,也可以采集成自定義數據表,以提供給模板使用。