预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据环境下基于文本挖掘的审计数据分析框架张志恒++成雪娇【摘要】大数据的浪潮推动着审计技术的变革,给审计模式和审计方法都带来了巨大的改变。传统的审计数据分析方法不能对半结构化以及非结构化数据进行分析,也无法满足大数据环境下审计信息化发展的要求,亟须提出新的审计数据分析思路和方法。在此背景下,文章提出了基于文本挖掘的审计数据分析框架,并阐述了采集与存储、挖掘与分析、总结与发布详细的审计数据分析流程。通过利用文本挖掘技术对采集的非结构化原始审计数据进行挖掘,根据明确的审计需求建立不同的文本挖掘模型,对审计数据进行分析,进而发现审计疑点,最终形成可理解的审计证据和审计线索。该框架的构建旨在为大数据审计提供新的思路,以降低大数据审计风险,提高审计质量。【关键词】大数据;文本挖掘;审计数据分析【中图分类号】F239.1【文献标识码】A【文章编号】1004-5937(2017)16-0117-04引言大數据引发了审计领域的创新和变革,海量的数据中结构化数据难以代表整体,非结构化数据已经成为大数据的关键组成部分。如何对这些非结构化数据进行分析是推动大数据审计开展的重要内容。我国当前在审计领域对非结构化数据还未形成全面系统研究。以文本挖掘为代表的数据挖掘技术在大数据审计中占有举足轻重的地位,它不再仅仅以结构化的审计数据为分析对象,可以深入地对大量非结构化数据进行挖掘分析和利用。所以本文提出了基于文本挖掘的审计数据分析框架,这将为大数据审计研究提供全新的分析思路。一、文献综述国外学者在研究大数据给审计带来的影响中讨论到,大数据能够改变和影响审计师所做出的决定和收集审计证据的方式[1]。Grayetal.[2]认为采用数据挖掘方法能提高审计程序的效率和有效性。国内学者对大数据审计的研究始于2013年。阮哈建等[3]分析了大数据对财政审计、金融审计带来的挑战与机遇。吕劲松等[4]提出并构建了金融审计数据分析平台,为金融审计提供了新的思路。秦荣生[5]指出大数据环境下审计模式、审计观念、事物之间的关系将发生转变。之后,学者开始对大数据环境下审计技术方法进行研究,顾洪菲[6]对大数据环境下的审计数据分析方法进行初步探索,提出了对NoSQL、机器学习的需求。鲍朔望[7]探讨了聚类分析、异常分析及演化分析等数据挖掘方法在政府采购中的运用。羌雨[8]探索了R语言在大数据审计分析中的优势及可行性。国外学者提出的审计数据分析方法有聚类[9]、随机森林[10]、语言分析[11]和粗糙集。纵观国内外学者的研究,大部分研究主要还是局限于对结构化审计数据进行分析,在这种相对封闭的环境下研究了大数据对审计的影响以及具体的审计方法,并且大多研究着重于从大数据对审计的影响和审计技术方法这两个方面进行探讨,鲜有学者针对非结构化审计数据进行深入研究,而且也很少研究提出关于如何构建大数据环境下的审计数据分析框架,对于大数据审计还未形成完整的研究成果。所以,本文提出并构建大数据环境下基于文本挖掘的审计数据分析框架,研究该框架下文本挖掘的详细流程。二、传统的审计数据分析审计人员如何将采集的原始数据转化为审计证据,这将直接影响到审计目标的实现。从采集到获取证据的过程中,审计人员最应该关注的问题是能否挖掘出有价值的数据进行审计数据分析,这对审计项目的质量和审计成果的体现都起着重要的作用。所以,在审计工作中最关键的步骤是进行审计数据分析。目前,审计人员在审计工作中经常采用的审计数据分析方法以及计算机辅助审计工具(CAATS)有账户分析、经济指标比率分析、趋势分析、统计分析、Excel数据分析、Access、SQL、AO审计软件等。Excel数据分析和针对会计账表的审计软件被事务所熟用;SQL语句查询、AO审计以及审计数据采集与分析等审计软件常常被用于政府部门和事业单位的内部审计工作中;对于企业的内部审计,大型企业采用专门的审计平台或在ERP中嵌入内部审计模块,中小企业比较依赖Excel和Access进行审计数据分析。但大数据时代的来临,使得海量和多元异构的数据极大地拓展了大数据审计的范围,传统的审计方法和辅助审计工具已显得力不从心,无法对非结构化数据进行采集和分析。三、大数据环境下的审计数据分析在国际数据公司(IDC)发布的一项报告中显示,企业中最多只有5%的数据为结构化数据,其余大都是非结构化数据,并且88%的企业管理者认为这些存储在数据库以外的非结构化数据,才是他们接触和了解企业的最佳选择目标。数据是审计分析的核心,采用文本挖掘技术对非结构化审计数据进行挖掘分析,将会给审计领域带来一个新的技术应用潮流。这将有助于审计人员在大数据模式下对被审计单位进行内部控制、舞弊识别、违法违规等方面的评估。(一)非结构化数据顾名思义,非结构化数据没有固定的结构,不能通过一般的数据库二维逻辑表结构来表达