预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据科学与大数据技术专业导论学习总结 选择数据科学与大数据技术专业本身是自己对于该专业的喜欢,同时自己也 对于此专业有一定的了解。 数据科学与大数据技术专业是在数据信息爆炸式发展背景下设立的 面向大数据时代巨大人才需求的一个新兴专业,旨在培养具有良好的科 学素养和社会责任感与使命感,具有较为宽广的国际视野,具有从事数据 科学与大数据相关的软硬件及网络的研究、设计、开发以及综合应用的高 级工程技术人才。而我们需要更加努力去成为数据技术方面的人才,成为 社会不断发展不断进步的推动者之一。 据了解,本科专业中和大数据相对应的是“数据科学与大数据技术” 专业,它是2015年教育部公布的新增专业。2016年3月公布的《高校本 科专业备案和审批结果》中,北京大学、对外经济贸易大学和中南大学3 所高校首批获批开设“数据科学与大数据技术”专业。随后第二年又有32 所高校获批“数据科学与大数据技术”专业。两次获批的名单中显示,该 专业学制为四年,大部分为工学。就业前景广阔,毕业生能够在计算机和 互联网领域以及大数据相关产业从事数据科学研究、大数据相关工程应 用开发、技术管理与咨询等工作。该专业适合升学考研。在2018年,淮 北师范大学也开设数据科学与大数据专业,紧跟教育部的教育发展方向, 为国家和社会培养更多的互联网方面的人才。数据科学与大数据技术主要研 究计算机科学和大数据处理技术等相关的知识和技从大数据应用的能,三个主要 层面(即数据管理、系统开发、海量数据分析与挖掘)出发,对实际问题进行分 析和解决。 谈及数据科学与大数据技术的专业特点我觉得可以从以下方面概括。首先最 重要的一点就是处理的信息量非常庞大,从一开始的TB级别,增到PB级别。其 起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。随着 信息技术的不断飞速发展,数据呈爆发性的增张。信息量的剧增化趋势日益明显, 以刚刚度过的双十一狂欢节为例,阿里巴巴内部需要处理的信息量及其庞大。随 着第12个天猫双11落下帷幕,根据阿里巴巴公布的数据显示,今年天猫双11 成交额达4982亿元,再次创下新高。相比较下,2019年双11成交额为2684亿 元,2018年双11成交额为2135亿元,2017年双11成交额为1682亿元。庞大 的数字背后的信息量是惊人的,几千亿的订单信息,物流信息等构成了庞大的数 据库。其次,还有其他的不同类型数据。这些数据的来源有社交网络(微博、推 特、脸书)、移动网络、各种智能工具,服务工具等。而在淘宝网,有近4亿的 会员每日产生的商品交易数据约20TB;在脸书约有10亿的用户,每日产生的日 志数据超过300TB。所以急需要智能的算法、强大的数据处理平台和新的数据处 理技术,来统计、分析、预测和实时处理这么大规模的数据。 第二点,数据的类型有很多。众多的数据来源,也就决定了大数据形式的 多样性。无论怎样形式的数据都能产生作用,而如今应用最广泛的就是推荐系 统,像新浪微博,网易云音乐和今日头条等这些平台,都可以对用户的日志数 据进行分析,进而推荐用户喜欢的东西。 日志数据是一种结构化明显的数据,但还有一些数据结构化并不明显,像图 片、音频、视频。在现实世界所产生的数据里,一般有价值的数据所占比例很 小 第三点就是分析数据的可利用性,与传统的小数据相比,大数据最大的价值是 可以通过从众多不相关的各种类型的数据中,从而可以挖掘出对未来趋势与模 式预测分析有价值的数据。还可以通过机器的学习方法、人工智能方法或数据 挖掘方法去深度分析,然后发现新规律和新知识,且运用于农业、金融、医疗 等不同领域,最终可以达到改善社会治理、提高生产效率、推进科学研究的效 果。 还有一点就是大数据的处理速度快、时效高这是大数据区分于传统数据 挖掘最显著的特征。大数据的产生十分迅速,主要通过互联网的传输。在生活 中我们都离不开互联网,可以说每人每天都在向大数据提供众多的资料,而这 些数据是应该及时处理的。但花费大量资本去存储作用较小的历史数据,这样 是很不划算的。而对于一个平台来说,可能保存的数据只是在过去几天或者一 个月之内,所以再远的数据都要及时清理,不然代价很大。对于这种情况,大 数据对处理的速度有很严格的要求,服务器中很多的资源都用于处理和计算数 据,而很多平台都需要做到实时分析。数据时刻都在产生,所以谁的速度更 快,谁就会有优势。 数据科学与大数据技术可以大致分成大数据以及数据科学两个方面,在我 的理解中 大数据的课程偏向系统工程师以及算法研究员,偏计算机的知识更多,如果再与 结合非结构化数据的处理技术,这块内容会更有点偏向人工智能的课程。其次 呢,数据科学的课程更偏向统计、优化,更强调的是一种优化、实验、迭代、分 析等建模的思维,同时结合行业应用的