數(shù)據(jù)智能采集平臺全網(wǎng)捕獲所需互聯(lián)網(wǎng)公開信息,所見即所得式采集,為用戶提供持續(xù)獲取外部海量數(shù)據(jù)的服務(wù)。通過數(shù)據(jù)治理算法組件,對數(shù)據(jù)進行清洗、治理,保證數(shù)據(jù)質(zhì)量,為數(shù)據(jù)應(yīng)用提供有效支撐。
支持對定向網(wǎng)站、社交平臺等數(shù)據(jù)源進行配置管理。
將采集的定向網(wǎng)站、社交平臺轉(zhuǎn)換為采集任務(wù),協(xié)調(diào)監(jiān)控每個任務(wù)隊列的情況。
支持對采集任務(wù)異常情況進行監(jiān)控預(yù)警。
支持對信息進行初步處理后,將其結(jié)構(gòu)化入庫,數(shù)據(jù)治理算法組件包括:標(biāo)題抽取、新聞?wù)某槿 ⑷嗣孛槿?、熱詞發(fā)現(xiàn)、自動聚類等。
數(shù)據(jù)采集采用先進的分布式架構(gòu)集群部署,可以抓取海量的網(wǎng)頁,消除單點抓取瓶頸。數(shù)據(jù)支持緩存處理和分庫存儲,保證采集系統(tǒng)穩(wěn)定高效運行。
采用流式計算技術(shù),對用戶的數(shù)據(jù)請求能夠秒級快速響應(yīng)。智能的調(diào)度機制,對于實時性要求較高的源網(wǎng)站優(yōu)先調(diào)度處理。
采用先進的數(shù)據(jù)采集容錯機制,確保數(shù)據(jù)傳輸?shù)男阅芎驼_性。對于傳輸錯誤的數(shù)據(jù)能夠進行重傳。
不展示!