预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共30页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据挖掘技术探讨论文前言:想要写出一篇令人眼前一亮的文章吗?我们特意为您整理了5篇数据挖掘技术探讨论文范文,相信会为您的写作带来帮助,发现更多的写作思路和灵感。数据挖掘技术探讨论文范文第1篇【关键词】方剂配伍规律;知识发现;综合集成;复杂系统1应用现状目前,利用数据挖掘技术探讨方剂配伍规律的分析概括起来主要有以下3种模式:其一是以分类为主的数据挖掘分析,应用模式是运用不同的方法如判定树、贝叶斯网络、人工神经网络等,参考现行已知的方剂分类标准,将分析对象中的方剂按照组方药物的功效、性味或归经等分成若干类[2-6];其二是以聚类为主的数据挖掘分析,即按照相似性和差异性的分布,将数据对象按照不同的属性特征聚集为不同的类,然后结合领域知识对方剂的制方要素进行分析[7-12];其三是以关联规则为主的挖掘分析,即利用Apriori算法、Fp-tree及其变体,经过大量的预处理工作和谨慎的设计,把理-法-方-药之间的多维关系降维处理后,从药物与药物、药物与症状、症状与证型等不同属性之间的关联关系探讨方剂配伍模式[13-18]。上述不同方法对方剂配伍规律的分析取得了一定成绩,但挖掘层次多集中在药对、药组或药症、症证关联等局部信息的揭示上,从理-法-方-药整体层次对方剂的综合配伍规律进行探讨不多。同时,鉴于中医理论体系的“复杂性”与方剂配伍规律的“内隐性”,上述分析方法在信息提取的“准确性”、挖掘技术的“针对性”和挖掘方法的“适用性”等方面还存在一些共性问题。2问题探讨2.1方剂数据预处理信息处理中有一个著名的“GarbageIn,GarbageOut”理论[19],即数据挖掘最后成功与否,数据准备起到了至关重要的作用。针对药名、功效、方名、症状、证候等数据有多种不同的表述方式的普遍现象,为了对方剂文本中存在的词义模糊、词义涵盖或多词义交叉的描述信息进行规范和统一,目前大部分分析者采取的方式是依据现有中医药教材或相对权威的工具书对原始数据进行相应的规范,如涉及药名的依据中华本草、涉及方名的依据中医方剂大辞典、涉及症状的依据中医症状鉴别诊断学、证型依据中医证候鉴别诊断学、剂量参考中华人民共和国药典中采用的国际单位制等,也有些分析者则根据个人分析方法的需要利用本体技术建立了相应的基础词表。事实上,除了中医药学主题词表外,上述工具书本身对症状或证型等名称的表达以及其中涉及的过程类、状态类或层次关联类语义信息的描述也是基于自然语言,因此,不同的人对药物名称、症状名称、剂量表示等制方要素进行表达方式的统一及对方剂内的药味配伍与其针对的相应症状之间的因果关系的“解析”和“映射”,或许可以满足一种方法应用时对数据“一致性”、“正确性”和“可靠性”的要求;但放大到其他方法,则存在数据源的融合度低、可扩展性差、共享程度不高等问题,不能为提高文献处理的准确性和一致性提供良好的支撑环境。2.2数据挖掘方法平台的构建科学分析过程首先需要对未知领域进行分析和推测,明确分析目标和现实技术方法的内在联系,然后寻找最佳的方法进行检验。数据挖掘的不同算法都是针对应用中的具体问题提出的,一种建模方法只是对被分析问题某一方面的简化了的分析。中医方剂是一个复杂的信息系统,一味药物的多种药效在不同剂量和配伍下,药效的主次地位会发生变化,且不同药物的组合相互作用后会影响整个方剂功效的趋向,对类似的涉及药物之间联系和层次关系的认识和分析,都需要借助相应的技术和方法,才有可能实现对方剂处方规律进行较深层次的挖掘。而从应用情况来看,目前大部分学者还只是从各自专业的角度,通过特定的抽样技术或方法对被分析问题所有数据的一个区间进行了局部的探讨,针对同样数据对象、不同数据挖掘方法之间缺乏比较,针对整体数据,也缺乏不同方法的有机融合。如同样是对方剂信息进行挖掘,基于频集模式发现的关联规则可以从药物与药物、药物与症状、症状与证型之间的关联结果去揭示方剂配伍关系;而分类和模糊聚类分析的方法,则可以从聚类的最优个数以及变量的组成方面去解析方剂配伍关系。从表面上,这些方法所得的结果看似都有一定道理,但由于无法发现不同方法针对同一问题所得结果中的共性和差别,因而面对不同方法所得离散的、多点分布的挖掘结果,似乎依然无法把握同病异治的不同方剂或异病同治的某一类方剂配伍规律的脉络。2.3数据挖掘结果评价数据挖掘应用特定方法对数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性。一般来说,数据挖掘所得到的信息应具有未知、有效和可用3个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,有时挖掘出的信息越是出乎意料,就可能越有价值。但在中医药领域,一方面目前的挖掘结果仍以验证性的居多,即大部分结果还是在用配伍的已知原则与理论和通过相对简单和固