预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于YARN的数据挖掘系统的设计与实现的任务书 任务书 题目:基于YARN的数据挖掘系统的设计与实现 任务背景:近年来,随着数据量的不断增加,数据挖掘技术越来越受到关注。YARN作为Hadoop生态系统的重要组成部分,已经成为许多大数据处理平台的首选。因此,基于YARN的数据挖掘系统的设计与实现具有重要意义。 任务目标:本次任务主要目标是设计一种基于YARN的数据挖掘系统,并实现系统的关键部分。系统能够对海量数据进行分布式处理,实现多种数据挖掘算法,并支持用户灵活配置算法参数。 任务要求: 1.系统设计与实现 (1)系统架构设计:任务分配、数据通信、结果合并等。 (2)数据挖掘算法的实现:通过MapReduce或Spark等分布式计算工具实现K-means算法、Apriori算法等多种数据挖掘算法。 (3)算法参数配置:提供用户界面以方便用户设置K-means算法中K的值、Apriori算法中支持度和置信度等参数设置。 (4)结果展示:将数据挖掘结果以可视化的方式展示给用户。 2.系统性能评估 (1)数据集选择:选择不同规模的数据集,如10GB、100GB、1TB等。 (2)性能测试:测试系统在不同数据规模下的运行时间和资源消耗情况,如CPU、内存、磁盘等。 (3)优化措施:根据测试结果分析系统的瓶颈,提出针对性的优化措施,如算法改进、资源分配优化、并行调度等。 3.文档撰写与演示 (1)系统设计文档:包括系统架构设计、关键技术实现、算法参数配置等内容。 (2)系统测试文档:包括数据集选择、性能测试结果、优化措施等内容。 (3)系统演示:以演示的方式展示系统的实现和性能优势。 4.其他要求 (1)认真阅读相关文献,掌握分布式系统、数据挖掘算法等方面的基础知识。 (2)独立完成任务,遵守学术诚信的规范和道德规范。 (3)按时完成任务,认真参加讨论和汇报。 参考文献: [1]ZhangY,WangJ,LiuX,etal.BuildingaBigDataplatformfordatamining,analysisandvisualization[J].AppliedIntelligence,2018,48(1):127-138. [2]ChenY,MaoS,XuL,etal.Thinkbig:aframeworkforminingbigdata[J].ACMSIGKDDExplorationsNewsletter,2014,16(1):1-10. [3]黄勇,范川珂.基于Hadoop的数据挖掘建模技术与方法[M].人民邮电出版社,2016. [4]黄晓阳,杨振松,欧阳明亮.基于Spark的分布式数据挖掘算法研究[J].计算机应用研究,2018,35(5):1359-1363. [5]DeBoniL,FumarolaF,MatteucciM,etal.AnalyzingApacheSparkworkloadperformanceonaprivatecloud[J].JournalofCloudComputing,2017,6(1):14. [6]ShiJ,WeiW,YuanyuanK,etal.AMapReduce-basedparallelalgorithmforassociationruleminingusingnondistributedFP-tree[J].JournalofAppliedMathematics,2014,2014:1-12. [7]王传军,房媛兵,张毅,等.MapReduce在K-means聚类算法中应用研究[J].计算机科学,2016,43(5):172-174.