预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据挖掘技术与应用 余友波 数据仓库之路原创资料 http://www.dwway.com 数据挖掘技术与应用 1.1第一章数据挖掘介绍 1.1.1什么是数据挖掘 数据挖掘(DataMining)是一个利用各种分析工具在海量数据中发现模型和数据之间 关系的过程,这些模型和关系可以被企业用来分析风险、进行预测。 “数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、模式和趋势的过程。它 使用模式认知技术、统计技术和数学技术。”(GartnerGroup)。 “数据挖掘是一个从大型数据库中提取以前不知道的可操作性信息的知识挖掘过程。” (AaronZornes,TheMETAGroup)。 数据挖掘能够帮助企业降低成本、减少风险、提高资金回报率。现在很多公司开始采用 数据挖掘技术来判断哪些是最有价值客户、重整产品推广策略,以用最小的花费得到最好的 销售。电信行业和银行业较先使用数据挖掘,电信公司使用数据挖掘检测话费欺诈行为,银 行使用数据挖掘检测信用卡欺诈行为。 数据挖掘模型建立完成后,进行验证和评价非常必要。比如用市场调查得到的客户数据 做了一个模型,来预测哪些客户群会对新产品感兴趣。通常情况下还不能用这个模型直接指 导行动,更稳妥的做法是,先对一小部分客户做一个实际的测试,得到市场的实际反应情况, 然后再大规模的采取市场推广行动。 数据挖掘帮助分析师和决策人员更深入、更容易的分析数据。为了保证数据挖掘结果的 价值,用户必须非常了解自己的数据;并且了解数据挖掘工具是如何工作的,了解不同的技 术和算法对模型的准确度和模型生成速度的影响。 大部分情况下,数据挖掘的分析数据源可以是数据仓库或数据挖掘数据集市。数据挖掘 工具访问数据仓库进行数据挖掘有许多好处。因为导入到数据仓库的数据已经经过了大量的 数据清理和转换工作,减少数据挖掘的数据清理过程。 数据仓库 数据挖掘 http://www.dwway.comOLAP-1- 数据挖掘引擎 数据挖掘技术与应用 图1数据挖掘支持多数据源 在实施数据挖掘之前,需要制定实施步骤,有了好的计划才能保证数据挖掘顺利实施并 取得成功。数据挖掘软件供应商提供了一些数据挖掘的过程模型,用来指导用户实施数据挖 掘。比如SPSS的5A――评估(Assess)、访问(Access)、分析(Analyze)、行动(Act)和 自动化(Automate),以及SAS的SEMMA――采样(Sample)、探索(Explore)、修正(Modify)、 建模(Model)和评估(Assess)。 1.1.2数据挖掘与OLAP 数据挖掘和OLAP是两种完全不同的工具,他们的用途不同,基于的技术也大相径庭。 OLAP是验证式的工具,告诉用户下一步会怎么样(Whatnext),如果采取这样的措施 又会怎么样(Whatif)。OLAP分析过程是一个演绎推理的过程,用户首先建立一个假设, 然后用OLAP工具浏览数据来验证假设。如果一个分析涉及到的变量达到几十或上百个, 那么用OLAP手动分析验证这些假设将是一件非常困难的事情。 数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模型的正确性, 而是在数据库中自己寻找模型。数据挖掘过程是一个归纳的过程。如果一个分析师打算用数 据挖掘工具分析移动电话用户的欠费风险,数据挖掘工具可能会帮助分析师发现一些从来没 有想过的影响因素。 http://www.dwway.com-2- 数据挖掘技术与应用 数据挖掘比OLAP更自动化、更深入,分析结果更难被理解。数据挖掘和OLAP具有 一定的互补性,在利用数据挖掘工具挖掘出来的结论采取行动之前,你也许要用OLAP验 证一下如果采取这样的行动会给企业带来什么样的影响。 将OLAP和DataMining技术结合起来形成了一个新的体系OLAM(On-LineAnalytical Mining)。在OLAP中挖掘多层、多维的关联规则是一个很有效果的过程,可以挖掘到一些 新的规则。 1.1.3数据挖掘与CRM 数据挖掘能自动从庞大的数据中找到预测客户购买行为的模式。进行数据挖掘后,把结 果输入到促销活动管理软件中,可以大大提高促销的效果。 数据挖掘辅助基于数据库的销售。数据挖掘能帮助销售人员更准确地定位推销活动,并 使活动紧密结合现有客户和潜在客户的需求、愿望和状态。数据挖掘和CRM结合,通过数 据挖掘优化CRM流程,可以用来留住客户,提高活动的响应率。 数据挖掘利用数据库的信息创建模型和预测客户行为。在使用数据挖掘给客户评分后, 这些分数就可以用来为推销活动选择最适合的客户