科學數據中心建設與服務體系



        數據資源作為重要的戰略資源是驅動各領域創新發展的重要因素。隨著信息化進程的發展,分布式多源異構數據的管理和應用問題凸顯,如何有效地實現分布式數據的管理、整合、服務成為推動科研與應用的共性需求和必要手段。

        中國科學院計算機網絡信息中心大數據技術與應用發展部(以下簡稱大數據部)自“十?五”開始承擔中科院“科學數據庫及其應用系統”建設工作以來,立足實際需求,面向應用實效,扎實推進標準與系統研制和推廣應用工作。從“十?五”面向分布式異構數據資源的規范化統一服務,到“十一?五”數據資源及其應用環境(含國家科學數據共享工程項目“基礎科學數據共享網”)建設和服務體系形成,再到“十二?五”響應“海-云”環境和“十三?五”適應大數據環境下科研模式變革的體系完善,大數據部與時俱進推動科學數據中心體系相關標準(55項)、技術、工具(13個)的研制和應用,是我國數據資源管理研究與實踐的先鋒,為數據資源的開放與共享提供了強勁的源動力。

        當前隨著國家《科學數據管理辦法》和首批國家科學數據中心的發布,結合國家建設科學數據中心的戰略需求,大數據部提出面向科學數據數據中心體系的全生命周期體系化數據資源管理與服務解決方案。

標準規范體系


        科學數據標準體系基本實現了從數據資源建設到應用及效果評估全生命周期關鍵內容的規范化,在科學數據資源建設和應用服務中發揮了積極的助推作用。科學數據標準體系可分為指導規范、數據采集與整理、元數據與元模型、系統與接口、數據管理、數據服務等類型,主要內容詳見表1。自“十一?五”項目結束以來,在線發布的標準建設成果已被訪問下載超過17萬次之多,配套工具軟件已經在項目內全面推廣使用,部分成果(如VDB、MSIS等)還廣泛應用到項目之外。

        經過十余年的努力,大數據部的標準工作已經逐步形成了“有需求,多合作,要實用,慎提升”的特點,工作中與院內外合作機構建立了良好的關系,并謹慎的將有應用前景的標準提升為國家標準、國際標準,先后作為第一責任單位完成了《生態科學數據元數據(GB/T 20533-2006)》、《信息技術 數據溯源描述模型(GB/T 34945-2017)》、《信息技術 科學數據引用(GB/T 35294-2017) 》和CODATA國際標準《天然氣水合物描述語言(Gas Hydrate Markup Language)》、以第二責任單位完成了《檢測資源信息共享體系建設指南(GB/Z 27414-2012 )》和《土壤科學數據元數據(GB/T 32739-2016)》。詳見表2。


表1 科學數據標準體系及主要內容

標準類型 標準名稱 主要內容
指導規范 主題數據庫建設規范 本規范定義了主題數據庫的總體架構,規定了主題數據庫在內容組織、技術實現方面需要完成的工作,并提出了主題數據庫在運行維護和服務方面的要求。
專題數據庫建設規范 本規范定義了專題數據庫的總體架構,規定了專題數據庫在內容組織、技術實現方面需要完成的工作,并提出了專題數據庫在運行維護和服務方面的要求。
參考型數據庫建設規范 本規范定義了參考型數據庫的總體架構,規定了參考型數據庫在內容組織、質量控制和技術實現方面需要完成的工作,并提出了參考型數據庫在運行維護和服務方面的要求。
專業數據庫建設規范 本規范規定了專業數據庫在資源建設、內容組織、質量控制和技術實現方面需要完成的工作,并提出了專業數據庫在運行維護和服務方面的要求。
數據采集與整理 學科領域數據處理和加工規范 本規范提出科學數據資源采集加工過程的規范化要求,包括對組織管理、文檔要求、數據約定和數據采集加工流程要求等。
地學領域數據處理和加工規范 本規范明確了地學領域數據資源加工對象、數據資源加工的內涵、數據資源加工模型、加工流程、加工技術方法和數據資源加工質量評價,并列舉若干數據資源加工的算法模型和部分應用實例。
中國濕地數據庫數據資源采集與整理指南 本規范明確了中國濕地數據庫數據采集和更新的主要過程。
海岸帶環境遙感數據庫數據資源采集整理工作指南 本規范明確了海岸帶環境遙感數據庫各子庫的數據采集整理過程。
化學主題數據庫數據資源采集整理工作指南 本規范明確了化學主題數據庫的數據來源以及數據采集和更新過程。
人地系統主題庫數據資源采集與整理工作指南 本規范明確了人地系統主題數據庫的數據采集加工以及采集加工過程中的質量控制。
冰雪凍土環境本底與可持續發展專題數據庫數據資源采集整理工作指南 本規范明確了冰雪凍土環境本底與可持續發展專題數據庫的數據資源集成與管理要求。
地球化學研究數據庫數據采集規范 本規范明確了地球化學數據庫建設(屬性數據庫和空間數據庫兩個主要部分)以及相關的數據處理工作。
中國陸地生態系統數據資源采集與整理工作指南 本規范明確了中國陸地生態系統數據資源采集的方法和整理方法。
資源環境遙感主題數據庫數據資源采集整理工作指南 本規范明確了資源環境遙感主題數據庫的數據來源和數據采集整理的一般方法。
東北植物與生境數據庫數據資源采集整理工作指南 本規范明確了對經典書籍和傳統文獻資料的數字化方法、物種與生境專項調查所采用的方法和工作流程,以及采集數據的標準格式及其說明,并規定了數據的交流和共享標準。
空間科學主題數據庫數據整合管理規范 本規范明確了空間科學主題數據庫各子課題的數據整合管理。
動物主題庫數據采集整理工作指南 本規范明確了中國動物主題數據庫收集、整理及入庫的方法及規范。
元數據與元模型 元數據參考模型 本規范規定了元數據研制和應用的流程模型,特別是元數據的格式、語義、語法、注冊、一致性測試和評估完善等,以及基于不同元數據方案的數據之間的互相訪問、內容交換和整合集成。
數據集核心元數據 本規范規定了元數據應用所需要的最小元數據元素,以及為滿足各學科領域的特殊需求,對元數據進行擴展和制定元數據應用方案的規則和方法。
人地系統主題數據庫元數據 本規范定義了完整描述一個具體對象時所需要的數據項集合、各數據項語義定義和著錄規則等。它提供了有關地球系統科學數據的標識、內容、分發、數據質量、數據表現、參照、數據模式、圖示表達、擴展、限制和維護等信息。
農田土壤肥力數據標準 本規范定義了一個描述農田土壤肥力數據管理的概念模型,規定了構成該模型的一組必選的、條件必選的和可選的數據元子集、數據實體和數據元素,提供了對該模型的形式化描述。
系統與接口 元數據訪問服務接口規范 本規范規定了元數據訪問服務接口采用的協議、連接方式、調用參數以及數據的返回格式。
VDBi接口規范 本規范定義了進行數據資源服務的專用術語、訪問流程、安全策略、交互方式、請求參數及接口規范。
數據跨域互操作技術規范 本規范規定了數據跨域互操作接口采用的協議、連接方式、調用參數以及數據的返回格式。
跨域用戶認證接口規范 本規范規定了跨域用戶認證接口采用的協議、連接方式、調用參數以及數據的返回格式。
用戶統一認證接口規范 本規范規定了各應用用戶統一認證接口采用的協議、連接方式、調用參數以及數據的返回格式。
數據管理 資源唯一標識規范 本規范規定了資源唯一標識符的編碼格式、編碼規則、編碼分配、管理、維護與使用。
科學數據分類規范與分類詞表 本規范定義了科學數據的分類方法,說明如何將科學數據分類組織為科學數據的目錄,并規定了如何將科學數據映射至科學數據目錄中。
數據加工增值管理方法 本增值管理辦法規定了數據加工的人員對象、加工機制、權利與義務、加工合作、增值服務、獎懲等。
建庫技術指導規范 本規范主要從關系數據庫的命名、關系和結構以及建設過程等幾個方面明確了數據庫設計應遵循的規范。
技術文檔參考規范 本規范明確了《數據庫需求說明書》、《數據庫元數據需求規格書》、《數據庫設計說明書》、《數據庫軟件概要設計說明書》、《數據庫軟件詳細設計說明書》、《數據庫軟件開發卷宗》、《數據庫運行維護記錄》共7份主要數據庫開發文檔模板。
數據質量管理規范 本規范闡述了數據質量管理的框架,包括數據產生階段的數據質量管理與控制、數據整編階段的數據質量描述、數據共享階段的數據質量評價。
數據質量評測方法與指標體系 本規范明確了數據(資源)質量評測的一般方法與數據質量指標體系的建立方法。
共享服務評價指標體系 本規范明確了共享服務評價模型、評價指標體系、評估結果的反饋、評估實施的原則和操作辦法等。
數據托管存儲管理辦法 本管理辦法主要規范了數據托管與存儲、數據資源中心、數據托管存儲用戶、費用、責任免除等。
數據共享辦法 本共享辦法主要規范了管理與共享機制、科學數據分級、科學數據發布與共享、科學數據集中、科學數據集成管理與分發、用戶分級、數據使用與產權保護等。
基礎設施協同運行技術規范 本規范規定了協同運行服務內容,規定了各項服務,包括CIFS服務、FTP服務、NFS服務、存儲故障處、網絡故障處理等的服務范圍、服務內容和管理流程的規范化政策約定。
基礎設施協同運行服務規范 本規范規定了協同運行運維中心機房的服務內容,規定了服務目錄及其各項服務,包括機房參觀申請、門禁授權服務、外部人員出入管理等的服務范圍、服務內容和管理流程的規范化政策約定。
數據服務 數據庫服務網站建設指導規范 本規范明確了主題數據庫、參考型數據庫、專題數據庫、專業數據庫的服務網站建設過程中的各項工作內容,包括網站欄目設計、功能規劃、技術實現、管理和安全等。
數據服務指導性規范 本規范明確了數據服務的模式、內容和方式,主要包括基于數據服務網站的數據發現、導航和定閱推送,通過專業人員實現虛擬咨詢和專家數據服務,以及授權的在線分發和離線分發。
海量存儲設施運維與服務規范 本規范從數據中心機房、網絡接入系統運行、局域網系統運行、服務器及存儲系統運行、網絡系統安全、數據庫、應用系統、公共支持等方面規范化了管理與維護,確保整個海量存儲設施所有應用和設備的運行正常穩定、安全可靠。
語義查詢擴展 本標準描述了基于本體概念對數據集元數據查詢進行擴展的方法,包括詞語—概念相關度詞典的構建、概念間相關度計算、查詢—概念相關度計算和基于語義概念的元數據查詢相關度計算方法。
本體適用性評估 本規范定義了一套基于指標的本體評價體系,內容包括本體結構層次、本體組織功能層次、本體共享管理層次和本體應用服務層次,它們共同涵蓋了影響本體構建和應用的各方面內容,并根據側重點的不同,每項指標被賦予了不同的權重系數。


表2 參與完成的國家標準列表

序號 國家標準名稱 國家標準號
1 生態科學數據元數據(第一完成單位) GB/T 20533-2006
2 檢測資源信息共享體系建設指南 (第二完成單位) GB/Z 27414-2012
3 科技平臺 元數據注冊與管理 GB/T 30524-2014
4 科技平臺 資源核心元數據 GB/T 30523-2014
5 科技平臺 一致性測試的原則與方法 GB/T 31071-2014
6 科技平臺 服務核心元數據 GB/T 31073-2014
7 土壤科學數據元數據(第二完成單位) GB/T 32739-2016
8 信息技術 科學數據引用(第一完成單位) GB/T 35294-2017
9 信息技術 數據溯源描述模型(第一完成單位) GB/T 34945-2017
10 信息技術 大數據 術語 GB/T 35295-2017
11 信息技術 數據交易服務平臺 交易數據描述 GB/T 36343-2018
12 信息技術 數據質量評價指標 GB/T 36344-2018

工具與技術體系


         面向科學數據中心體系化、系統化建設及管理的需求,大數據部研發重點包括分布式數據資源自主管理與服務,數據資源集成整合管理與服務,數據資源與服務監控、統計分析及評估管理,數據資源統一發布、共享、服務及應用等。同時面向不同類型數據提供數據資源管理,并提供統一的管理和外延服務。



目前大數據部已經服務和正在研發的工具集如下表:

表3 科學數據管理與服務工具體系建設列表

序號 工具名稱 功能描述 訪問地址/上線時間
1 科學數據服務監控統計系統-MSIS 對分布式數據服務網站的運行、訪問、下載情況進行監控和統計分析。 http://msis.csdb.cn
2 科學資源與服務注冊系統-RSR 實現分布式數據庫服務資源分類在線匯交注冊與審核發布。 http://rsr.csdb.cn
3 科學數據咨詢服務系統-DRS 用戶在線咨詢調度支撐平臺。 http://drs.csdb.cn
4 科學數據服務效果評測系統-SEES 通過對科學數據庫相關的服務進行定量與定性指標的采集,有效地實現各數據庫系統服務效果的監控與評估。 http://sees.csdb.cn
5 用戶統一認證系統-AUTH 科學數據平臺統一登錄認證系統。 http://auth.csdb.cn
6 數據在線可視化工具-DVIZ 十余種模型定制化在線可視化服務。 http://www.dviz.cn/dviz
7 分布式數據匯聚、管理發布與服務體系工具集-VDB4.0(匯云版) 多源分布式數據在線傳輸同步管理;數據資源集中管理與定制化融合發布:共享數據資源多模式在線發現、獲取、訪問與共享服務。 已上線,正在部署推廣
8 分布式數據匯聚、管理發布與服務體系工具集-VDB4.0(自治版) 多源數據在線管理及定制化融合發布;共享發布數據資源多模式發現、獲取、訪問與共享服務。 計劃2019年7月上線
9 分布式數據匯聚、管理發布與服務體系工具集-VDB4.0(通云版) 多源分布式數據封裝同步管理;數據資源統一發布與監控:共享數據資源多模式在線發現、獲取、訪問與共享服務。 計劃2019年10月上線
10 大數據軟件棧快速彈性部署和管理工具-PackOne 一鍵安裝部署大數據軟件棧,支持常用大數據軟件棧(Hadoop、Spark、NiFi、Piflow、Kylin、Flink、MongoDB、Redis、Neo4J等)的快速彈性部署、集中監控和配置。 已上線,正在部署推廣
11 大數據流水線系統-PiFlow 系統采用Hadoop/Spark分布式存儲與并行計算技術,實現組件式的大通量、高并發的大數據流水線自動化處理,實現100+的數據處理組件,為用戶提供所見即所得的流水線配置界面,從而實現大數據組件式、自動化采集、清洗、計算、存儲及監控的全流程服務,已支撐微生物數據中心、領域知識圖譜管理與服務等多項重大項目應用,榮獲“GVP-碼云最有價值開源項目”獎。 https://gitee.com/opensci/piflow
12 科學大數據云分析服務系統-IAnalysis 基于容器技術,應用底層的數據和算法資源,通過在線編程分析(iJupyter)組件或工作流應用(iWorkflow)組件進行數據分析服務;可以獨立定制安裝或者試用公共服務。 http://www.gscloud.cn/analysis/index

優勢總結如下:

        1、體系化的解決方案。采用體系化的設計理念,提供自頂向下的總體設計,協同策略、系統、規則、設施等各方面,保障數據資源高效、安全、可靠、敏捷的管理與服務。

        2、完備的服務平臺和軟件體系。提供包括集成化數據服務、數據資源的監控與管理、數據資源的整合、分布式數據資源的自主管理在內的數據資源管理、整合與服務平臺及完備的軟件體系,并可為個性化需求提供定制和支持。

        3、統一的管理和外延服務。基于標準化的數據資源管理機制,提供一整套有效的管理辦法,并提供包括數據庫建設、系統運維、服務咨詢在內的多項外延服務。

        4、豐富的建設經驗。30年來,為中科院各科研單位的數據資源建設與服務有效助力,在地理、生態、環境等領域深入探索,為60多家科研單位提供服務。重點負責了國家生態系統研究網絡體系建設、國防資源服務體系建設,為相關領域科研信息化建設,提供了體系架構、系統設計、開發、服務一體化的建設方案。

        聯系方式:  劉老師  [email protected]

湖北30选5开奖查询结果