预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106777005A(43)申请公布日2017.05.31(21)申请号201611114891.9G06Q50/06(2012.01)(22)申请日2016.12.07(71)申请人国网天津市电力公司地址300010天津市河北区五经路39号申请人国家电网公司北京国电通网络技术有限公司(72)发明人赵新刘建宇谢秦曹筱欧赵宏振姚国风唐新忠李天杰郑凤柱左小山(74)专利代理机构天津才智专利商标代理有限公司12108代理人庞学欣(51)Int.Cl.G06F17/30(2006.01)G06Q10/06(2012.01)权利要求书1页说明书3页附图1页(54)发明名称基于大数据技术改进聚类算法的用户用电行为分析方法(57)摘要一种基于大数据技术改进聚类算法的用户用电行为分析方法。其包括建立用户用电行为分析平台;提取用电用户一段时间内各类电器使用频率、用电时长、各时段用电量在内数据;将上述数据以行形式存储;任选1个数据片作为初始聚类中心,然后计算每个数据片到初始聚类中心的距离;判断计算的新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈值;建立用户用电评价指标体系,确定用户用电评价等级等步骤。本发明优点:利用大数据处理技术并发分析海量数据,可以通过电力企业提取3年以上的用电用电行为信息、各电器用电量数据,实现更大的数据吞吐量,获取更为全面的用户用电特征数据。CN106777005ACN106777005A权利要求书1/1页1.一种基于大数据技术改进聚类算法的用户用电行为分析方法,其特征在于,所述的基于大数据技术改进聚类算法的用户用电行为分析方法包括按顺序进行的下列步骤:1)建立基于大数据技术改进聚类算法的用户用电行为分析平台;该用户用电行为分析平台包括依次连接的用户用电特征数据导入模块1、基于大数据技术改进的聚类数据挖掘模块2、用户用电评价指标体系输出模块3,所述的基于大数据技术改进的聚类数据挖掘模块2包括依次连接的分布数据处理单元21、聚类中心处理单元22和迭代流程控制单元23;2)利用用户用电特征数据导入模块1从配电网实际运行数据中提取用电用户一段时间内各类电器使用频率、用电时长、各时段用电量在内的数据;3)利用分布数据处理单元21将上述数据以行形式存储,然后按行分成数据片1、数据片2……数据片n;4)利用聚类中心处理单元22任选1个数据片作为初始聚类中心,然后计算每个数据片到初始聚类中心的距离,重新标记其所属的聚类类别;若输入的记录数据为上一轮迭代的聚类中心,则计算出距离其最近的聚类中心,并做新类别的标记,即重新划分用户用电评价等级,形成映射数据标记,即Map1、Map2……Mapn数据标记;规约计算新的聚类中心:对形成的映射数据标记进行数据格式的映射回归转换,并将其存入非关系型数据库中;根据数据映射得到的中间结果计算出新的聚类中心,输入数据<key,value>对的形式为<聚类类别ID,{响亮属性集}>;所有key相同的记录(即有相同类别ID的记录)送给一个规约任务———累加key相同的点个数和各记录分量的和,求各分量的均值,得到新的聚类中心描述文件;输出结果<key,value>对的形式为<聚类类别ID,均值向量>数据标记,即Reduce1、Reduce2……Reducen数据标记;5)利用迭代流程控制单元23判断计算的新的聚类中心与上一轮聚类中心间的距离,如果两者的差值大于给定阈值,则进入下一轮迭代,即执行映射——规约过程;如果差值小于给定的阈值,则找到了该数据片各类电器使用频率、用电时长、各时段用电量等因素所处等级范围,进入用户用电信用评价体系输出模块3;6)利用用户用电信用评价体系输出模块3建立用户用电评价指标体系,根据各因素范围界定进一步确定用户用电的评价等级。2.根据权利要求1所述的基于大数据技术改进聚类算法的用户用电行为分析方法,其特征在于,在步骤6)中,用户用电评价指标体系由高到低依次划分为AAA级、AA级、A级、B级、C级、D级共六大等级。2CN106777005A说明书1/3页基于大数据技术改进聚类算法的用户用电行为分析方法技术领域[0001]本发明属于电力系统数据分析技术领域,尤其是涉及一种基于大数据技术改进聚类算法的用户用电行为分析方法。背景技术[0002]传统的k-means聚类算法,可以对一定量级(TB级、GB级)的数据进行挖掘分析。国家电网公司目前大力推广智慧家庭建设,提高居民用电智能化水平,采集了海量的用户用电行为、用电量数据采集,并对用户用电行为、用电量等数据信息,形成PB级存储数据,采用基于云计算平台和并行k-means聚类算法,可提高聚类分析效率,建立峰时耗电率、负荷率、谷电系数等时间序列特征,并采用