基于滑动窗口的数据相似检测方法-豆柴文库

基于滑动窗口的数据相似检测方法.pdf

2023-10-18

10金币

3.5MB

10页

慧红****ad

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN103336771A*(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103336771103336771A(43)申请公布日2013.10.02(21)申请号201310114244.8(22)申请日2013.04.02(71)申请人江苏大学地址212013江苏省镇江市京口区学府路301号(72)发明人周莲英周典瑞(74)专利代理机构江苏致邦律师事务所32230代理人樊文红(51)Int.Cl.G06F17/30(2006.01)权权利要求书2页利要求书2页说明书5页说明书5页附图2页附图2页(54)发明名称基于滑动窗口的数据相似检测方法(57)摘要本发明公开了一种基于滑动窗口的数据相似检测方法，包括：S1、采用等级法计算属性的经验向量G；S2、采用数理统计法计算属性的统计向量C；S3、综合经验向量G和统计向量C，计算出最终的权重向量W；S4、计算可变窗口大小的队列的窗口上界；S5、根据属性的个数创建多个线程；S6、在每个线程中，顺序扫描记录集，计算当前记录与可变队列中记录的相似度；S7、合并各线程检测出的重复记录集。本发明采用基于多线程并发的检测算法代替多轮检测，提高了检测效率，节省了检测时间。CN103336771ACN10367ACN103336771A权利要求书1/2页1.一种基于滑动窗口的数据相似检测方法，其特征在于，所述方法包括：S1、采用等级法计算属性的经验向量G；S2、采用数理统计法计算属性的统计向量C；S3、综合经验向量G和统计向量C，计算出最终的权重向量W；S4、计算可变窗口大小的队列的窗口上界；S5、根据属性的个数创建多个线程；S6、在每个线程中，顺序扫描记录集，计算当前记录与可变队列中记录的相似度；S7、合并各线程检测出的重复记录集。2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体为：根据用户经验，采用等级法为每一个属性赋予相应的等级，然后通过均值法计算出代表记录属性特征的等级向量G。3.根据权利要求1所述的方法，其特征在于，所述步骤S2具体为：多次随即抽取指定数目的记录，计算每一属性取值的变化种数，作为客观描述属性对记录的重要性，使用均值法计算出每个属性的取值种类数，生成属性统计向量C。4.根据权利要求1所述的方法，其特征在于，所述经验向量G的计算公式为：其中，Gi表示第i个属性的最终统一等级，m表示用户的个数，s表示第s个操作用户。5.根据权利要求4所述的方法，其特征在于，所述统计向量C的计算公式为：其中，Cij表示第i次第j个属性的取值种类数目，Cj表示第j个属性的最终种类数，m表示选取的次数。6.根据权利要求4所述的方法，其特征在于，所述权重向量W的计算公式为：其中，Wi表示第i个属性的权重向量，Gi表示第i个属性的最终统一等级，Ci表示第i个属性的最终种类数。7.根据权利要求1所述的方法，其特征在于，所述步骤S6中“在每个线程中，顺序扫描记录集”之前还包括：在每个线程中根据属性值对数据集进行排序。8.根据权利要求1所述的方法，其特征在于，所述步骤S6中“计算当前记录与可变队列中记录的相似度”具体为：当前记录与可变队列中的第一个记录进行相似检测；若当前记录与可变队列中的第一个记录相似，把当前记录添加到相思重复记录集中，然后，把当前记录添加到可变队列的第一个记录中，查看可变队列是否已满，如果可变队列已满，先剔除可变队列中最后一条记录，然后再把当前记录添加到可变队列；如果优先队列2CN103336771A权利要求书2/2页不满，则直接添加记录到可变队列中；若当前记录与可变队列中的第一个记录不相似，继续与可变队列的其他记录进行比对。3CN103336771A说明书1/5页基于滑动窗口的数据相似检测方法技术领域[0001]本发明涉及数据清洗技术领域，尤其涉及一种海量数据下基于滑动窗口的数据相似检测方法。背景技术[0002]数据相似检测就是检测数据库中的相似重复记录，以剔除冗余数据。相似重复记录为同一个现实实体在数据集合中不同的表现形式，由于它们在格式、拼写等方面的差异，导致数据库管理系统不能正确识别，进而影响对数据的正确处理。相似重复记录检测的衡量指标包括查全率、查准率及时间效率等，三者之间往往是相互制约的。海量数据下的数据检测在查全率和时间效率上尤为突出。需从多方面对检测算法进行优化算法，以提高检测效果和检测效率。[0003]目前已有的检测算法主要包括字段匹配算法、编辑距离算法、聚类算法以及基于滑动窗口的检测算法。其中尤以基于滑动窗口的算法较为有效。该算法在对记录集进行排序，依据相似记录邻近原理，将检测记录的比较记录数限制在有限的窗口数目内，从而可大大提高检测效率。经典的基于滑动窗口的相似检测的优点是算法简单，有限的比较量。但也存在

相关资料

基于滑动窗口的数据相似检测方法.pdf

本发明公开了一种基于滑动窗口的数据相似检测方法，包括：S1、采用等级法计算属性的经验向量G；S2、采用数理统计法计算属性的统计向量C；S3、综合经验向量G和统计向量C，计算出最终的权重向量W；S4、计算可变窗口大小的队列的窗口上界；S5、根据属性的个数创建多个线程；S6、在每个线程中，顺序扫描记录集，计算当前记录与可变队列中记录的相似度；S7、合并各线程检测出的重复记录集。本发明采用基于多线程并发的检测算法代替多轮检测，提高了检测效率，节省了检测时间。

2023-10-18

3.5MB

有效的基于滑动窗口数据流直方图方法.pptx

汇报人：CONTENTSPARTONEPARTTWO数据流概念滑动窗口在数据流中的应用数据流直方图的重要性PARTTHREE方法概述滑动窗口的选择与调整数据流的预处理直方图的构建与更新PARTFOUR准确性评估效率评估适用场景分析与其他方法的比较PARTFIVE优化滑动窗口大小优化直方图存储结构改进数据流处理算法结合其他算法提高效率PARTSIX案例一：实时流量监测案例二：异常检测与预警案例三：推荐系统中的用户行为分析案例四：金融领域交易数据分析PARTSEVEN方法总结未来研究方向汇报人：

2024-10-05

442KB

基于可变滑动窗口的相似重复记录检测算法研究与设计.docx

基于可变滑动窗口的相似重复记录检测算法研究与设计当前互联网上存在着大量的相似重复记录，这些记录不仅占用了宝贵的存储空间，也会导致信息质量下降、搜索结果不准确等问题。因此，相似重复记录检测成为了信息处理领域一个非常重要的任务。本文将介绍一种基于可变滑动窗口的相似重复记录检测算法，该算法不仅可以有效地检测相似重复记录，还具有较高的准确度和实用性。一、算法思想基本思路是通过可变长度的滑动窗口对文本进行分割，将文本分成若干个小文本段，在小文本段中抽取特征值并进行比较，从而确定文本之间的相似度。算法的关键步骤包括以

2024-10-15

10KB

基于动态滑动窗口的微小目标检测方法及装置.pdf

本发明是关于一种基于动态滑动窗口的微小目标检测方法和装置，其中，方法包括：获取待识别图像；基于动态滑动窗口将所述待识别图像分割成N*N大小的网格；使用训练好的卷积神经网络分类模型对每个网格进行分类概率计算，以得到输出概率值；根据每个网格生成对应的类激活图，并确定类驱动的显著性区域，以及显著性区域的击中率、显著性区域的覆盖率和显著性区域的数量；将输出概率值、显著性区域的击中率、显著性区域的覆盖率和显著性区域的数量输入训练好的支持向量机分类器，以使支持向量机分类器确定网格所属类别，其中，网格的类别包括正常网格

2023-07-24

618KB

基于复式滑动窗口的车辆排队长度检测方法.docx

基于复式滑动窗口的车辆排队长度检测方法一、引言车辆排队长度是交通管理中常见的问题之一。了解车辆排队长度可以为调度交通、规划道路、优化交通管理等方面提供参考依据，实现更有效率的交通运行。同时，随着现代交通技术的发展，通过智能交通系统和视频监控等设备采集数据，精准地实现车辆排队长度检测已成为可能。本文旨在介绍一种基于复式滑动窗口的车辆排队长度检测方法。二、背景传统的车辆排队长度检测方法一般采用人工计数，缺乏实时性和准确性。随着技术的进步，现代交通系统往往配备了设备来捕获交通信息，这为在交通中实时检测车辆排队长

2024-11-02

11KB