预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109933643A(43)申请公布日2019.06.25(21)申请号201910134395.7(22)申请日2019.02.22(71)申请人太原蓝知科技有限公司地址030000山西省太原市山西综改示范区太原学府园区产业路38号高新置业608室(72)发明人张乔木杜亮(51)Int.Cl.G06F16/31(2019.01)G06Q50/18(2012.01)权利要求书2页说明书6页附图1页(54)发明名称专利交易大数据采集和处理方法(57)摘要本发明的目的是提供一种采用大数据的手段采集专利交易信息的专利交易大数据采集和处理方法,通过该方法可以省时省力的完成专利交易信息包括发布时间、发布人、联系方式以及购买和需求信息的采集,从而形成专利交易信息库,为专利交易平台的建设提供数据支持。专利交易大数据采集和处理方法,包括以下步骤:将即时聊天工具中的群聊信息采集生成原始数据;即时聊天工具可以是微信、QQ、或者其他类似工具;对原始数据进行识别提取生成有效数据;对有效数据进行标准化提取形成标准数据;所述标准化提取包括卖方数据标准化提取和买方数据标准化提取;对标准数据进行合并归类处理形成最终数据。CN109933643ACN109933643A权利要求书1/2页1.专利交易大数据采集和处理方法,其特征在于包括以下步骤:S1、将即时聊天工具中的群聊信息采集生成原始数据;S2、对原始数据进行识别提取生成有效数据;所述识别提取为提取含有预先设定关键词的群聊信息,并将群聊信息归类为买方数据和卖方数据;S3、对有效数据进行标准化提取形成标准数据;所述标准化提取包括卖方数据标准化提取和买方数据标准化提取;所述卖方数据标准化提取,包括以下步骤:S311、对于卖方数据中的一条群聊信息,首先提取该一条群聊信息中含有的专利号,并分别对应相应的发布人账号和发布时间;S312、根据匹配算法匹配一条群聊信息中的专利号对应的专利名称,形成卖方标准数据;所述买方数据标准化提取,包括以下步骤:S321、设置一级关键词和二级关键词;S322、买方数据中的一条群聊信息中含有M个一级关键词并含有N个二级关键词;如果M=1,N>1,则根据二级关键词形成N个买方信息;否则根据一级关键词形成M个买方信息;将买方信息分别相应的发布人账号和发布时间;形成买方标准数据;S4、对标准数据进行合并归类处理形成最终数据。2.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述匹配算法为:识别一条群聊信息中第一个专利号前的连续汉字数量SQ,以及最后一个专利号后的连续汉字数量SH;如果SH小于5,且SQ大于6,则提取专利号前的连续汉字为专利名称;否则提取专利号后的连续汉字为专利名称。3.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述合并归类处理包括以下步骤:S401、卖方标准数据中存在发布人账号和专利号相同的数据,则只保留其中一条;S402、卖方标准数据中存在发布人账号和买方信息相同的数据,则只保留其中一条;S403、如果在一定时间段内,不同发布人账号对应多个相同的专利号或者买方信息,则将不同发布人账号标记为一类。4.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:在一条群聊信息中一级关键词向前或者向后的五个字符内存在其他一级关键词,则相邻一级关键词合为一个一级关键词;在一条群聊信息中二级关键词向前或者向后的五个字符内存在其他二级关键词,则相邻二级关键词合为一个二级关键词。5.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述二级关键词包括前置关键词和后置关键词;首先前置关键词确定为二级关键词,如果不含有前置关键则后置关键词确定为二级关键词。6.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述根据一级关键词形成相应的M个买方信息为:提取相邻一级关键词之间的信息为买方信息,提取最后一个一级关键词后面的信息为买方信息,从而形成M个买方信息。2CN109933643A权利要求书2/2页7.根据权利要求5所述的专利交易大数据采集和处理方法,其特征在于:所述根据二级关键词形成N个买方信息为:含有前置关键词则提取相邻前置关键词之间的信息为买方信息,提取最后一个前置关键词后面的信息为买方信息,从而形成N个买方信息;不含前置关键词则提取相邻后置关键词之间的信息为买方信息,提取第一个后置关键词和一级关键词之间的数据为买方信息,从而形成N个买方信息。8.根据权利要求1所述的专利交易大数据采集和处理方法,其特征在于:所述提取含有预先设定关键词的群聊信息为:S201、有效数据中的一条群聊信息,只含有卖方数据关键词则提取为卖方数据;S202、有效数据中的一条群聊