大數(shù)據(jù)是指非常龐大、復(fù)雜的數(shù)據(jù)集,傳統(tǒng)數(shù)據(jù)處理軟件的能力已無法滿足巨大規(guī)模的數(shù)據(jù)處理需求,需要新處理模式才能發(fā)揮出更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。業(yè)內(nèi)常用5V來定義大數(shù)據(jù)的特性:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)、Veracity(真實(shí)性)。大數(shù)據(jù)技術(shù)是指通過架構(gòu)新的處理模型,從各種類型的海量數(shù)據(jù)中快速獲取有價(jià)值的信息的技術(shù),涉及到分布式數(shù)據(jù)庫技術(shù)、分布式存儲(chǔ)技術(shù)、流計(jì)算技術(shù)、圖數(shù)據(jù)庫技術(shù)等關(guān)鍵技術(shù)。
雖然大數(shù)據(jù)的概念在近些年被大眾熟知,但大型數(shù)據(jù)中心和關(guān)系型數(shù)據(jù)庫的起源可追溯到上世紀(jì)六七十年代。數(shù)據(jù)庫(database)一詞最早流行于1962年加利福尼亞州的系統(tǒng)研發(fā)公司的技術(shù)備忘錄中。1968年,伴隨著阿波羅登月計(jì)劃,商業(yè)數(shù)據(jù)庫雛形誕生。1988年,IBM研究院率先提出并解釋了數(shù)據(jù)倉庫一詞的行業(yè)標(biāo)準(zhǔn),之后,IT廠商開始構(gòu)建實(shí)驗(yàn)性的數(shù)據(jù)倉庫。大約在20世紀(jì)90年代中期,互聯(lián)網(wǎng)的出現(xiàn)允許遠(yuǎn)程訪問存有數(shù)據(jù)的計(jì)算機(jī)系統(tǒng),數(shù)據(jù)庫連接器的需求增加,數(shù)據(jù)量快速增長。數(shù)據(jù)挖掘是數(shù)據(jù)量快速增長的直接產(chǎn)物,它曾一度被專業(yè)人士稱之為“基于數(shù)據(jù)庫的知識(shí)發(fā)現(xiàn)”(Knowledge Discovery in Database,KDD)。數(shù)據(jù)挖掘在實(shí)業(yè)界應(yīng)用最為膾炙人口的就是沃爾瑪啤酒和尿布的例子。
如今,數(shù)據(jù)已經(jīng)無處不在,并被用來改善人們的日常生活。大數(shù)據(jù)已經(jīng)成為企業(yè)的一種無形資產(chǎn),企業(yè)通過對海量數(shù)據(jù)資源的存儲(chǔ)、計(jì)算、分析、挖掘處理和利用,開發(fā)新產(chǎn)品,提高運(yùn)營效率。大數(shù)據(jù)技術(shù)蘊(yùn)含無窮潛力,研究機(jī)構(gòu)Gartner預(yù)測,到2025年,情境(場景)驅(qū)動(dòng)的數(shù)據(jù)分析和人工智能模型將取代60%的建立在傳統(tǒng)數(shù)據(jù)上的現(xiàn)有模型。
文化數(shù)據(jù)是我國重要的文化資源,是建設(shè)國家文化大數(shù)據(jù)的重要來源。在2020年5月,中央文化體制改革和發(fā)展工作領(lǐng)導(dǎo)小組辦公室下發(fā)的《關(guān)于做好國家文化大數(shù)據(jù)體系建設(shè)工作的通知》中指出:建設(shè)國家文化大數(shù)據(jù)體系是新時(shí)代文化建設(shè)的重大基礎(chǔ)性工程。
2022年5月22日,中共中央辦公廳、國務(wù)院辦公廳印發(fā)了《關(guān)于推進(jìn)實(shí)施國家文化數(shù)字化戰(zhàn)略的意見》,提出到“十四五”時(shí)期末,基本建成文化數(shù)字化基礎(chǔ)設(shè)施和服務(wù)平臺(tái),形成線上線下融合互動(dòng)、立體覆蓋的文化服務(wù)供給體系。到2035年,建成物理分布、邏輯關(guān)聯(lián)、快速鏈接、高效搜索、全面共享、重點(diǎn)集成的國家文化大數(shù)據(jù)體系,中華文化全景呈現(xiàn),中華文化數(shù)字化成果全民共享。
出版業(yè)權(quán)威、專業(yè)、準(zhǔn)確的知識(shí)資源作為文化大數(shù)據(jù)的重要組成部分,是關(guān)聯(lián)形成中華文化數(shù)據(jù)庫的重要成果。出版業(yè)利用大數(shù)據(jù)技術(shù)開發(fā)知識(shí)產(chǎn)品、改進(jìn)知識(shí)服務(wù)、推進(jìn)出版融合,有助于提升知識(shí)資源的供給能力和知識(shí)服務(wù)的數(shù)字化水平,從而提升社會(huì)效益;另一方面,加快出版業(yè)產(chǎn)業(yè)數(shù)字化布局,完善出版大數(shù)據(jù)采集、加工、分發(fā)、服務(wù)等產(chǎn)業(yè)鏈環(huán)節(jié),有助于創(chuàng)新企業(yè)經(jīng)營模式,從而實(shí)現(xiàn)經(jīng)濟(jì)效益的提升。當(dāng)前,大數(shù)據(jù)技術(shù)已廣泛應(yīng)用于出版業(yè)知識(shí)服務(wù)業(yè)務(wù)流程中,在知識(shí)資源獲取、知識(shí)資源組織、尤其是知識(shí)服務(wù)運(yùn)營階段呈現(xiàn)出融合發(fā)展的重要特征。
中國生物志庫
中國生物志庫是中國科技出版?zhèn)髅焦煞萦邢薰就瞥龅闹袊讉€(gè)權(quán)威發(fā)布且具有完整知識(shí)產(chǎn)權(quán)的中國生物物種全信息數(shù)據(jù)庫。該庫收錄了中國10萬余種現(xiàn)生生物物種,類群涉及植物、動(dòng)物、菌物、藻類及海洋生物,提供科學(xué)權(quán)威的生物學(xué)信息,包括物種名稱、分類地位、形態(tài)特征、地理分布、功用價(jià)值、理論知識(shí)及鑒定準(zhǔn)確的圖片,可提供一站式檢索、鑒別、核對等服務(wù)。
中國生物志庫針對入庫之后的海量物種數(shù)據(jù),基于不同類群分別提取物種信息不同段落數(shù)據(jù),通過自建已有的詞庫、訓(xùn)練集,挖掘物種的分布地區(qū)、生活型、莖、葉、花、果等不同性狀特征。依托于結(jié)構(gòu)化加工、知識(shí)化標(biāo)引、大數(shù)據(jù)挖掘等多種技術(shù)手段,中國生物志庫將所需的數(shù)據(jù)進(jìn)行規(guī)范化、標(biāo)準(zhǔn)化深度加工,使其發(fā)布之后,物種數(shù)據(jù)的特征可通過前臺(tái)可視化組件地圖一一呈現(xiàn)。用戶可通過性狀分類、地區(qū)、根莖葉的特征等多種分類篩選查詢,滿足前臺(tái)用戶精準(zhǔn)檢索、特征檢索等不同場景搜索查詢服務(wù),極大方便用戶使用。
醫(yī)信—醫(yī)學(xué)知識(shí)服務(wù)及自主學(xué)習(xí)平臺(tái)
醫(yī)信是由北京合縱醫(yī)信網(wǎng)絡(luò)科技有限公司推出的,為促進(jìn)國際與國內(nèi)醫(yī)學(xué)專業(yè)知識(shí)的傳播交流,利用新型互聯(lián)網(wǎng)技術(shù),為衛(wèi)生專業(yè)技術(shù)人員搭建的國際化、專業(yè)化、互動(dòng)型線上知識(shí)服務(wù)及自主學(xué)習(xí)的實(shí)名制專業(yè)交流平臺(tái)。醫(yī)信目前已整合了10萬余條專業(yè)詞條,結(jié)構(gòu)化加工文獻(xiàn)報(bào)道20余萬篇。
醫(yī)信平臺(tái)對手機(jī)移動(dòng)端用戶行為數(shù)據(jù)、交互數(shù)據(jù)及PC端各類結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化海量數(shù)據(jù),采用MySQL等數(shù)據(jù)軟件進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作,為實(shí)現(xiàn)全平臺(tái)檢索、智能化推薦等功能提供支持。
醫(yī)信平臺(tái)通過對用戶畫像和用戶行為大數(shù)據(jù)進(jìn)行精細(xì)化分析,總結(jié)用戶興趣和使用習(xí)慣,從而為用戶準(zhǔn)確推薦感興趣的內(nèi)容,滿足個(gè)性化知識(shí)服務(wù)需求。同時(shí),基于用戶大數(shù)據(jù)分析結(jié)果,構(gòu)建分層次、分級(jí)別的知識(shí)內(nèi)容架構(gòu),使所有學(xué)習(xí)者都能夠獲得適合自身需求的個(gè)性化內(nèi)容,將“人找知識(shí)”轉(zhuǎn)變?yōu)椤爸R(shí)找人”,為用戶節(jié)省了大量檢索新知識(shí)內(nèi)容的時(shí)間和精力,激發(fā)學(xué)習(xí)者的學(xué)習(xí)興趣和積極性,促進(jìn)學(xué)習(xí)自覺性和主動(dòng)性的提高。
U校園智慧教學(xué)云平臺(tái)
U校園智慧教學(xué)云平臺(tái)是外語教學(xué)與研究出版社數(shù)字化轉(zhuǎn)型的成果之一,配備超過150門外研社系列外語教材配套數(shù)字課程和測試內(nèi)容,支持院校開展SPOC課教學(xué),進(jìn)行線上線下混合式教學(xué)模式創(chuàng)新。
U校園智慧教學(xué)云平臺(tái)通過埋點(diǎn)機(jī)制在App端和服務(wù)器端收集用戶行為數(shù)據(jù),結(jié)合binlog等技術(shù),匯聚業(yè)務(wù)數(shù)據(jù)到大數(shù)據(jù)平臺(tái),建立數(shù)據(jù)倉庫,自動(dòng)對用戶打標(biāo)簽,建立用戶畫像,為用戶運(yùn)營和產(chǎn)品改進(jìn)提供決策支持。在用戶評(píng)價(jià)與反饋收集上,該平臺(tái)采用了智能客服和人工客服相結(jié)合的方式,幫助用戶解決使用中遇到的問題,建立了產(chǎn)研反饋機(jī)制,幫助產(chǎn)品迭代改進(jìn)。通過該機(jī)制,平臺(tái)平均每周可采集分析幾千個(gè)用戶反饋的問題,總結(jié)提煉成需求進(jìn)入需求池中,在后續(xù)產(chǎn)品迭代中解決。此外,平臺(tái)采用了大數(shù)據(jù)反作弊系統(tǒng),基于Flink流式計(jì)算技術(shù),通過提取特征,識(shí)別作弊用戶,已成功攔截了超過1.5億次作弊企圖,有效地維護(hù)了教學(xué)秩序。
農(nóng)業(yè)專業(yè)知識(shí)服務(wù)系統(tǒng)
農(nóng)業(yè)專業(yè)知識(shí)服務(wù)系統(tǒng)是中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所建立的面向農(nóng)業(yè)戰(zhàn)略咨詢、科技創(chuàng)新和產(chǎn)業(yè)發(fā)展的公益性、開放性多場景知識(shí)服務(wù)系統(tǒng)。該系統(tǒng)形成了“1個(gè)農(nóng)知搜索+N個(gè)知識(shí)專題+N個(gè)知識(shí)應(yīng)用+三類情報(bào)服務(wù)+三類數(shù)據(jù)服務(wù)+品牌宣傳服務(wù)+API接口開放服務(wù)”多模式泛在知識(shí)服務(wù)體系,面向全球提供公益服務(wù),年均服務(wù)量達(dá)197萬余人次,用戶覆蓋全球161個(gè)國家和地區(qū)。
農(nóng)業(yè)專業(yè)知識(shí)服務(wù)系統(tǒng)通過大數(shù)據(jù)采集技術(shù)獲取海量專業(yè)內(nèi)容資源,基于資源建設(shè)需求與相應(yīng)遴選規(guī)則,采用專業(yè)網(wǎng)絡(luò)采集軟件和自主開發(fā)網(wǎng)絡(luò)采集工具采集政策法規(guī)、資訊、開放性學(xué)術(shù)資源、農(nóng)業(yè)統(tǒng)計(jì)數(shù)據(jù)、農(nóng)業(yè)報(bào)告、國際科學(xué)數(shù)據(jù)等信息。截至目前,資訊類采集站點(diǎn)超1000個(gè),年采集量超過5萬;開放論文采集服務(wù)量已達(dá)到約378萬。通過自主開發(fā)的網(wǎng)絡(luò)采集工具采集FAO、美國農(nóng)業(yè)普查數(shù)據(jù)、世界銀行農(nóng)業(yè)統(tǒng)計(jì)數(shù)據(jù)等國際農(nóng)業(yè)統(tǒng)計(jì)數(shù)據(jù)年采集量超過1444萬。
農(nóng)業(yè)專業(yè)知識(shí)服務(wù)系統(tǒng)還通過對用戶大數(shù)據(jù)的挖掘、分析提升運(yùn)營效率。該系統(tǒng)設(shè)計(jì)了涵蓋用戶顯性與隱性意圖的用戶行為大數(shù)據(jù)挖掘模型,建立起包括時(shí)間、地理位置、用戶基本信息、用戶興趣領(lǐng)域、用戶終端配置、用戶行為記錄等用戶行為大數(shù)據(jù)要素體系,研發(fā)了基于Spark、Hadoop、ETL等大數(shù)據(jù)框架的用戶行為信息采集、存儲(chǔ)與挖掘平臺(tái),實(shí)時(shí)采集本地系統(tǒng)、互聯(lián)網(wǎng)和其他可信賴第三方系統(tǒng)的用戶數(shù)據(jù),綜合應(yīng)用數(shù)據(jù)統(tǒng)計(jì)、深度學(xué)習(xí)方法分析挖掘用戶行為數(shù)據(jù),構(gòu)建高像素用戶畫像標(biāo)簽體系,解決多類型用戶的身份識(shí)別及需求準(zhǔn)確定位,支持在后續(xù)用戶使用服務(wù)時(shí)的意圖預(yù)判與服務(wù)內(nèi)容推薦,實(shí)現(xiàn)知識(shí)推薦的精準(zhǔn)化。
人衛(wèi)知識(shí)數(shù)字服務(wù)體系
人衛(wèi)知識(shí)數(shù)字服務(wù)體系是基于人民衛(wèi)生出版社知識(shí)服務(wù)體系的智能應(yīng)用系統(tǒng),目前已形成了由內(nèi)容生產(chǎn)體系、數(shù)字化管理體系、對外服務(wù)體系三大模塊構(gòu)成的全流程數(shù)字化服務(wù)體系。人衛(wèi)知識(shí)數(shù)字服務(wù)體系推出后即受到醫(yī)療信息化行業(yè)領(lǐng)域的高度關(guān)注,與華為、騰訊、阿里、平安科技、百度、科大訊飛等頭部互聯(lián)網(wǎng)企業(yè)及衛(wèi)寧健康、北大醫(yī)信、眾陽健康等醫(yī)院信息系統(tǒng)廠商達(dá)成項(xiàng)目合作。目前,人衛(wèi)知識(shí)數(shù)字服務(wù)體系通過企業(yè)服務(wù)端——人衛(wèi)inside知識(shí)庫為企業(yè)、醫(yī)療機(jī)構(gòu)提供服務(wù),累計(jì)覆蓋350余家單體醫(yī)院和13個(gè)區(qū)域醫(yī)療。
人衛(wèi)知識(shí)數(shù)字服務(wù)體系采用了用戶大數(shù)據(jù)分析技術(shù),依托inside管理后臺(tái)和人衛(wèi)助手運(yùn)營管理平臺(tái),實(shí)現(xiàn)對用戶的精準(zhǔn)高效管理。inside管理后臺(tái)有效的對合作客戶公司和部署知識(shí)庫的醫(yī)院機(jī)構(gòu)進(jìn)行分類、匯總、篩選、統(tǒng)計(jì),可針對服務(wù)期臨期到期用戶進(jìn)行提示,達(dá)到及時(shí)維系用戶的效果,同時(shí)可針對用戶的授權(quán)時(shí)長進(jìn)行規(guī)范化管理。人衛(wèi)助手運(yùn)營管理后臺(tái)通過會(huì)員開通情況的統(tǒng)計(jì)分析,可以得出臨床、用藥和中醫(yī)三個(gè)助手APP在每年不同月份和營銷節(jié)點(diǎn)的銷量情況,為新的活動(dòng)高效開展提供了精準(zhǔn)數(shù)據(jù)信息的支撐,幫助運(yùn)營做出準(zhǔn)確決策。
運(yùn)營機(jī)構(gòu):鄂爾多斯國家級(jí)文化和科技融合示范基地管委會(huì)
Email:ordoswh123@163.com 服務(wù)電話:0477-8394929