预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

思想战线2013年人文社会科学专辑第39卷№.2013Vol.39 我国大数据研究现状与热点分析 代芯瑜,张文曦① 摘要:本文对我国2003年~2012年期间发表的有关大数据研究论文进行统计,利用文 献计量法对文献及期刊分布、论文作者及作者合著度、高频关键词等基本情况进行了初步,得 到近十年大数据研究的基本情况;再运用可视化分析方法,对高频关键词共词矩阵进行因子分 析及多维尺度分析,从宏观上把握了近年来我国的大数据研究现状及研究重点,并得到相关研 究结论。 关键词:大数据;共词分析;因子分析 随着信息技术以及互联网的不断发展,信息研究内容的发展脉络。本文以近十年来我国大数 爆炸时代来临,作为基础的“数据”受到越来据研究的相关文献为主要研究对象,提取其中的 越多的重视,数据在对社会经济发展中所展现的关键词构建共词关系,综合采用文献计量法、共 预测能力、决策支持能力以及对各领域研究实践词网络分析、因子分析等方法,利用EXCEL和 的深刻影响日益显现,麦肯锡公司最早提出SPSS软件进行分析,研究目前我国大数据研究领 “大数据”时代即将来临,其在报告中还指出,域的主要研究内容并对当前研究热点进行总结。 数据已经渗透到当今每一个行业及其业务职能领(二)数据来源 域,成为重要的生产因素,人们对于数据的挖掘本文所选取的数据全部来源于CNKI中的中 和运用,预示着新一波生产率的增长和消费者盈国期刊全文数据库、中国博士学位论文全文数据 余浪潮的到来。库和中国优秀硕士学位论文全文数据库等共3个 “大数据”是一个较新兴起的概念,国内外数据库中,选择时间区间为2003年~2012年共 学者目前都尚未给出一个统一的定义,维基百科10年,分别以篇名“大数据”、“大数据技术”、 将其定义为:“没有办法在允许的时间里用常规“BigData”以及关键词“大数据”、“BigData” 的软件工具对内容进行抓取、管理和处理的数据等进行搜索,精确检索后共得到论文数为582 集合。”笔者认为大数据并不仅仅是大规模数据篇,人工删除不相关论文、重复论文以及缺少作 的集合,正如IBM公司所言,大数据应具有者论文等后最终共保留237篇有效论文为此次研 Volume(大量)、Velocity(高速)、Variety(多究的主要对象。由于有的论文缺少关键词或是由 样)及Veracity(真实)4个特点,研究大数据数据库提供方根据内容分析法提取的,因此本文 要善于从已有数据中洞悉可能发生的事物以及事对这些论文关键词进行了添加或保留,最终在所 物间存在的隐蔽联系,发现有利信息并为我所进行研究的论文中得到355个有效关键词。 用,其核心是预测。(三)数据处理 论文中的关键词主要由论文作者根据自己所 一研究方法与数据统计 、形成的论文进行添加,由于论文作者在添加关键 (一)研究方法与思路词时有较强的主观性,使得部分关键词虽然采取 就大数据研究这一领域而言,鲜有较为深入不同的词汇但却表达相同的意思,在统计时容易 而完整的研究综述,仅有为数不多的几篇对于该造成关键词的混乱,增加统计误差,因此本文在 领域研究文献的定量分析,且多采用文献计量和统计时对部分关键词进行了处理,以满足研究需 统计学相关方法对这一研究领域进行述评,这种要。具体处理如下: 研究方法虽然便于读者能够快速了解该领域研究第一,去除泛指关键词,如“发展展望”、 的基本情况,但却不能较好的揭示大数据研究这“时代”、“解决方案”、“应对策略”、“研究方 一领域的研究热点,也不能清晰展现出这一领域向”、“发展策略”、“战略”等,这些关键词对 ①作者简介:代芯瑜,云南大学公共管理学院硕士研究生;张文曦,云南大学公共管理学院硕士研究生(云南昆明,650091)。 ·149· 思想战线2013年人文社会科学专辑第39卷№.2013Vol.39 于研究文章的内容和领域的指向性较低,没有太和揭示研究人员的研究能力,通过关注其研究方 大的研究价值,因此将其删除。向和重点,了解整个学科的发展以及核心作者所 第二,去除如“大数据”这一为总领域研起到的引领作用。根据普赖斯定律,核心作者应 究的词,因为它代表是整个研究领域,将其加入完成所有专业论文总和的一半,核心作者的论文 关键词不但不能准确反映研究状况甚至会对整个下限为N=0.749√ηmax,其中ηmax为最高产 统计研究造成干扰。作者的发文数量①。据统计结果,王珊共发文6 第三,合并表达同一意思的关键词,如将篇,是发文最多的作者,因此ηmax等于6,根 “bigdata”与“大数据”合并,将“使用数据”据公式得出N值为2,即该领域要作为核心作者 与“数据应用”合并,将“数据安全”和“安存在则发文下限应为2篇。而所有作者中发文量 全策略”合并为“信息安全”等。在2篇及以上的作者共22