English
聯系我們
網站地圖
郵箱
舊版回顧



計算機網絡信息中心開發的“PiFlow大數據流水線”
獲“GVP-碼云最有價值開源項目”獎

文章來源:計算機網絡信息中心   發布時間:2019-04-12  【字號:     】  

  近日,由中國科學院計算機網絡信息中心大數據部團隊研發并開源的“PiFlow大數據流水線系統”獲2019年開源中國“GVP-碼云最有價值開源項目”獎。

  PiFlow系統面向空間科學、高能物理、微生物等學科領域大規模多源異構數據的快速采集、靈活處理和高效存儲等核心關鍵技術挑戰,采用Hadoop/Spark分布式存儲與并行計算技術,實現組件式的大通量、高并發的大數據流水線自動化處理。目前該系統已實現100+的數據處理組件,包括Hadoop、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,為用戶提供所見即所得的流水線配置界面,從而實現大數據組件式、自動化采集、清洗、計算、存儲及監控的全流程服務,同時支持用戶快速自定義數據處理組件的擴展開發,滿足數據的個性化處理需求。該系統已支撐了科技資源情報服務、微生物數據中心、領域知識圖譜管理與服務等多項重大項目應用。

  開源中國運營有中國最大的代碼托管平臺,目前已服務超過300萬的軟件開發者。計算機網絡信息中心大數據團隊將陸續發布大數據采集、大數據融合存儲及復雜網絡挖掘等一系列核心軟件和工具。

  

 



(責任編輯:程博)

附件:

專題推薦

相關新聞


© 1996 - 中國科學院 版權所有 京ICP備05002857號  京公網安備110402500047號  聯系我們

地址:北京市三里河路52號 郵編:100864

好运11选5