预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据建模概述基本过程是通过多个学科技术的融合,实现数据的抽取、管理和分析,达到发现新知识和规律的目的。 信息挖掘是机器学习与数据库技术的交叉; 利用机器学习的技术分析海量的数据; 利用数据库技术来管理海量的数据。 模型构建通常包括模型建立、模型训练、模型验证和模型预测四个步骤,但根据不同的数据挖掘类型,在应用上会有一些细微的不同。 模型的建立是一个反复的过程,需要仔细考察不同的模型以判断哪个模型对问题是最有用的。 大数据建模的技术目前大数据有一个前提就是数据。医疗领域的数据有几种类型,比较完整的是医学影像的数据,像X光、CT,甚至还包括B超、脑电。这个领域有一些研究,比如说如何通过医学影像的自动分析来确定病变的位置,现在有很多放射治疗要对癌细胞的位置进行辐射,范围越小,接受的辐射量就越小,对病人本身的损害就越小,利用大数据的分析方法可以确定这个范围。这个技术现在刚刚产生,按照刚才的推断,医学技术的产生到使用的时间段越来越短,我们预测到2025年,一个技术的产生到使用基本上可以在一年之内完成。这是医学影像的数据。还有一类数据是电子病例、电子健康档案。这类数据的获取还是非常多的,有些技术是基于病人的相似度,比较两个患者的病例,如果相似的话,可以找到一群相似的病人,然后分析有效的治疗手段是什么。像这样的技术,IBM已经把它变成了产品。这依赖于大量的数据积累,要依靠电子病例、电子医疗档案的完善,需要搜集准确的信息。中国的医改已经有很好的目标,需要顺利实现电子病例的完善过程。第三个领域是跟基因组学、蛋白组学新的治疗技术相关。这些技术已经发展到了应用的边缘。像人类的基因组测序,以前人类基因组花了十年的时间研究,现在只要花一千美元,不到一周的时间就可以测出一个人的基因组。这些数据就可以应用到个性化诊断治疗。这个对大数据的推动也是非常大的。[1]SetonHealthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息,通过大数据处理,更好地分析病人的信息。[2]在加拿大多伦多的一家医院,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折。[3]它让更多的创业者更方便地开发产品,比如通过社交网络来收集数据的健康类App。也许未来数年后,它们搜集的数据能让医生给你的诊断变得更为精确,比方说不是通用的成人每日三次一次一片,而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。