一尾中特性|一尾中特的网站

 首頁 >> 圖書情報學
數據科學及其對情報學變革的影響
2019年01月30日 11:02 來源:情報學報 作者:巴志超 李綱 周利琴 毛進 字號

內容摘要:數據時代,科學界倡導建立屬于不同科學領域的數據科學,以形成具有學科差異化、特色化的數據科學研究范式與思維模式,情報學也應積極吸納數據科學的理論、技術與方法,以催動情報學的變革與發展。在把握數據科學的學科內涵、理論體系與方法論的基礎上,探究數據、數據科學以及情報學三者之間的內在關系,從理論邏輯、技術方法與實踐應用等方面分析數據科學對情報學研究范式轉型的重大影響,并指出在當前大數據與數據科學發展視角下情報學應該重點關注的新課題。

關鍵詞:

作者簡介:

  1 引言   

  在當前大數據時代,數據不再是科學領域研究的成果,而成為科學研究的重要基礎,在商業領域,對數據的重視程度也從簡單的處理對象演變為重要的戰略性資源,如何對數據進行有效的管理、開發與利用,引起了學術界對以數據為中心的科學——數據科學的積極探討。越來越多的學者意識到:探索數據是人類認識和理解真實世界的最有效方法,其不同于以自然界為研究對象的自然科學,也不同于以人類社會為研究對象的社會科學,卻成為推動自然、社會和人文科學發展的動力。但數據科學作為一項新的科學,目前還有很多根本性問題沒有解決,甚至存在很多問題還未提出,對數據科學的定義以及是否為一門獨立學科的問題也尚無統一界定。1974年,丹麥計算機科學家、圖靈獎獲得者Peter Naur在其著作的Concise Survey of Computer Methods中首次定義數據科學(Data Science)是“一門處理數據的科學”[1]。之后《數據科學》雜志界定“數據科學幾乎是與數據所有有關的研究內容,包括數據的采集、組織、分析與應用等”[2]。Moraes等[3]認為數據科學一個重要目標是從跨學科領域的不同元素、技術和理論中概括和提煉知識,并創造新的數據產品。Mondal[4]認為數據科學即是大數據建模,主要是通過應用計算、統計分析及可視化來洞察數據。王曰芬等[5]也從“目的與過程結合”“方法與領域結合”以及“人才與需求結合”三個角度對已有相關成果定義的數據科學內涵進行詳細的概括與總結,得出由于面對的科學問題不同,導致不同領域學者對數據科學的內涵界定、研究方法及實踐過程描述都不盡相同。但數據科學具有較強的跨學科特性卻成為學術界的共識。   

  數據科學是在計算機科學、統計學等相關基礎理論以及社會科學、自然科學等領域專業理論進行繼承、擴展與創新興起的一個交叉性科學領域,主要研究由于大數據的規模效應所引起的數據處理復雜性問題。在國內專書出版的《數據學》[6]中也明確指出數據科學的兩個主要內涵:一是針對數據本身,研究數據的各種類型、狀態、屬性及變化形式和規律;另一個是為自然科學和社會科學研究提供一種新的方法,稱為科學研究的數據方法,其目的在于揭示自然界和人類行為現象和規律[7]。但由于不同學科的數據差異性和工作任務要求不同學科需要建立具有自身特色的數據科學,培養各自領域的數據科學人才。情報學科也需要結合自己的歷史使命、時代特征與發展,尋求踐行大數據的最佳范式,通過引入數據科學的相關基礎理論、技術與方法,催動情報學的變革與發展。因此,有必要在了解數據科學的歷史形成以及學術界對數據科學體系探索和詮釋的基礎上,分析數據、數據科學與情報學之間的內在邏輯關系,把握情報學與數據科學融合交匯的研究前沿,從技術方法、體系建設及應用實踐等角度探究數據科學對情報學范式轉型的重大影響,進一步提出數據科學研究視角下情報學發展應該重點關注的研究方向。   

  2 數據科學相關概述   

  2.1 數據科學的科學定位   

  任何領域的研究,若要成為一門科學,需要研究共性的問題[8],而數據科學能否作為一門獨立的學科存在也非常值得探討。從一個毫無爭議的觀點——數據科學是一門數據驅動的交叉性科學研究角度分析,其作為一個容納計算機科學、統計學、信息科學、數學等學科的組合體,在以數據研究和應用為首要任務和目標的導向下,驅動和關聯著各個學科并形成有機統一。而數據科學研究需要依附于特定、具體的領域才變得更有意義,無法對交叉學科的領域知識深入理解,單純地去設計脫離實際應用的數據分析方法研究很難有廣闊的發展前景。因此,從目前來看將數據科學不再作為一個獨立學科存在,而看作是各個交叉科學的載體會更為合理。但相關學者試圖從學科建構的角度將數據作為一個“自然體”(Data nature)進行研究,并提出了“數據界”(Data universe)的概念,其主要是從數據的基本規律、關聯與分類以及數據安全與主權問題等方面展開研究。然而,提煉“數據界”共性關鍵科學問題仍需進一步的實踐積累與探索,需要通過更多的“白盒研究”抽象出通用性較強的“黑盒模型”與普適規律。盡管無法一致明確數據科學是否能夠成為一個獨立的學科,但數據科學仍具有自己的基本內涵和外延,絲毫不影響對數據科學的研究對象、科學性質、學科體系以及研究方法等內容進行探索。   

  對數據科學的科學定位需要在界定數據科學基本內涵的基礎上,明確數據科學的主要研究內容、研究范圍、知識結構、學科體系以及與其他傳統學科之間的關系等問題。不同學者從不同的認知角度定義了數據科學的基本概念,但都一致認可數據科學是一門研究數據的科學或關于數據的科學,是探索網絡空間數據奧秘的理論、方法和技術[9],包括用數據的方法研究科學以及用科學的方法研究數據。盡管數據可作為信息和知識的符號表示或載體,但數據科學基本的研究對象是數據,而非信息與知識,主要是通過研究數據的特征與規律來獲取對自然、生命和行為的認識,進而通過對數據的解析化、集成化、模型化與智能化形成信息和知識。因此,數據科學的研究對象、研究目的與研究方法等與計算機科學、信息科學及社會科學等都有著本質的不同。   

  2014年,國家自然科學基金委員會組織的未來五年的“十三五”規劃中,特別嘗試設立“數據與計算科學”這一專門面向大數據研究的學科方向,主要研究數據的感知、收集、傳輸、管理、分析與應用的交叉性學科,旨在揭示數據的內在規律,探索數據計算理論、實現從數據到知識的轉化,為大數據的科學計算以及在重要應用領域的預測、決策與應用提供基礎。而在當前大數據生存時代下,數據科學的基礎問題體系本身也就是大數據領域的研究熱點,主要解決大數據發展和共性技術問題,并利用大數據技術進行收集、整理、解讀和應用大數據。針對數據科學的知識體系問題,朝樂門等[10]指出數據科學是以統計學、數據可視化、機器學習以及某一領域知識為基礎,包括數據科學基礎理論、數據預處理、數據計算和數據管理。Aalst等[11]認為數據科學具有關聯著過程挖掘、大規模分布式計算、可視化分析、行為科學、工業工程、推測學、數據庫等不同分支學科融合的理論體系。Moraes等[3]提出數據科學包括信號處理、機器學習、數學、不確定建模、數據工程以及統計學等基礎理論。而從數據科學所涉及的學科領域來看,其知識結構不僅僅包括數學、統計學、計算機科學、信息科學等在內的基礎性理論,還應該包括社會學、物理學、情報學、生物醫學等在內的專業性領域理論。劉瀟等[9]參照Warfield提出的科學論域體系,從“基礎—理論—方法和技術—應用”四個方面嘗試建構數據科學的學科體系結構,如圖1所示。至少可以看出,數據科學的基礎研究是離不開對相關學科的領域知識與研究方法論的借鑒,其“方法”也主要是針對信息空間—物理世界—人類社會(Cyber-Physical-Society,CPS)三元世界中數據完整鏈條的探索,包括數據感知與獲取、數據組織與融合、數據學習與認知、數據交換與經濟等主題的一系列方法或技術,通過研究數據智能的全生命周期,實現“數據—信息—知識—智慧”的轉化、互哺與共享。其中,問題或數據驅動而非模型驅動的方法正成為數據科學研究方法的主要特征。另外,數據科學的“應用”層面也不僅僅包括對商業智能的支持、新型數據產業的推動及單一科學研究領域的具體應用,還應上升到國家安全觀層面,以關乎國計民生的科學決策、應急管理、環境管理、社會計算以及知識經濟為主要應用領域。綜上所述,盡管數據科學的術語由來已久,但作為一門新科學正處于萌芽階段,對數據科學的學科體系、研究邊界、研究內容等問題,仍然需要各個科學領域的學者進行集體探索與思考。

作者簡介

姓名:巴志超 李綱 周利琴 毛進 工作單位:

轉載請注明來源:中國社會科學網 (責編:閆琪)
W020180116412817190956.jpg
用戶昵稱:  (您填寫的昵稱將出現在評論列表中)  匿名
 驗證碼 
所有評論僅代表網友意見
最新發表的評論0條,總共0 查看全部評論

回到頻道首頁
QQ圖片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
內文頁廣告3(手機版).jpg
中國社會科學院概況|中國社會科學雜志社簡介|關于我們|法律顧問|廣告服務|網站聲明|聯系我們
一尾中特性 彩票11选5稳赚技巧 广东双色球电子投注单 中彩票妙招 快乐十分大小单双 pk10走势软件手机版 现金二八杠游戏下载 北京pk拾稳赚技巧公式 彩票中龙虎和是啥意思 葵花宝典3肖6码大公开 pk10精准计划工具