预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106649464A(43)申请公布日2017.05.10(21)申请号201610850980.3(22)申请日2016.09.26(71)申请人深圳市数字城市工程研究中心地址518000广东省深圳市福田区红荔西路8007号土地房产交易大厦401室(72)发明人贺彪王维郭仁忠陈学业李晓明赵志刚李威阳张钰李霖(74)专利代理机构深圳中一专利商标事务所44237代理人张全文(51)Int.Cl.G06F17/30(2006.01)权利要求书3页说明书10页附图7页(54)发明名称一种中文地址树的构建方法及装置(57)摘要本发明适用于数据处理领域,提供了一种中文地址树的构建方法及装置,包括:根据地址数据构建初始地址树;对具有相同父节点的每组兄弟节点分别进行排序;以相同的节点名称前缀作为一个新节点名称,并根据新节点更新地址树结构;生成地址要素关系表及节点名称索引;根据地址要素关系表与节点名称索引,调整地址树中重名节点的位置或保留各节点位置,得到最终地址树。本发明实施例通过提取新节点以及对节点的位置进行多次调整,增强了地址数据管理的层次性,通过建立地址要素关系表及节点索引,对重名节点的错误层次关系进行纠正,提高了中文地址结构化的准确性,因整个地址树无须人工构建,由各个处理单元自动完成,提高了中文地址数据的管理效率。CN106649464ACN106649464A权利要求书1/3页1.一种中文地址树的构建方法,其特征在于,包括:获取地址数据;根据所述地址数据构建原始地址树;对所述原始地址树中具有相同父节点的每组兄弟节点分别进行排序,并根据所述排序结果对所述兄弟节点的位置进行调整,得到第二地址树;获取所述兄弟节点之间相同的节点名称前缀;将所述相同的节点名称前缀作为一个新节点的名称,将所述新节点插入到所述第二地址树中,并调整具有所述相同的节点名称前缀的所述兄弟节点的名称,得到第三地址树;遍历所述第三地址树中的所有节点,根据所述第三地址树中的各个节点名称与所述各个节点的父节点名称之间的关联关系,生成地址要素关系表;在所述第三地址树中,以键名对应键值的模式建立节点名称索引,键名为所述节点名称,键值为所述第三地址树中所述节点名称等于键名的所有节点的集合;根据所述地址要素关系表及所述节点索引,判断是否存在需要调整位置的节点,若存在需要调整位置的节点,执行调整算法后得到最终地址树,若不存在需要调整位置的节点,直接将第三地址树输出为最终地址树。2.如权利要求1所述的方法,其特征在于,所述根据所述地址数据构建原始地址树包括:建立根节点;若所述地址数据为原始地址数据,则将所述原始地址数据作为一个新节点,并将所述新节点作为所述根节点的一级子节点;若所述地址数据已经经过分词化处理,且包含多个地址实体名词,则所述每个地址实体名词对应一个新节点,且排序最前的所述地址实体名词对应的新节点作为所述根节点的一级子节点,排序在后的所述地址实体名词依次形成排序在前的所述地址实体分词对应的新节点的一级子节点。3.如权利要求1所述的方法,其特征在于,所述对所述原始地址树中具有相同父节点的每组兄弟节点分别进行排序包括:以所述每组兄弟节点中的每个节点的拼音名称首字母作为排序比较对象,依照字母表顺序,对所述每个节点进行升序排列;若所述排序比较对象相同,则依次将所述排序比较对象的下一个字母替换为所述排序比较对象,并依照字母表顺序,对所述每个节点进行升序排列。4.如权利要求1所的方法,其特征在于,所述将所述新节点插入到所述第二地址树中,并调整具有所述相同的节点名称前缀的所述兄弟节点的名称包括:将所述新节点插入到所述具有相同节点名称前缀的所述兄弟节点与所述兄弟节点的父节点之间;在所述兄弟节点的名称中,删除所述相同的节点名称前缀。5.如权利要求1所述的方法,其特征在于,所述根据所述地址要素关系表及所述节点索引,判断是否存在需要调整位置的节点,若存在需要调整位置的节点,执行调整算法后得到最终地址树包括:当所述节点索引的一个键值包含多个节点元素时,获取所述键值对应的键名,所述多2CN106649464A权利要求书2/3页个节点元素互为节点名称相同的节点;在所述地址要素关系表中,若所述键名表示的节点名称存在唯一的父节点名称,且所述节点名称相同的各节点对应的各个父节点不是相同节点时,获取子节点数目最少的所述节点名称相同的节点对应的第一父节点,所述第一父节点的第一子节点属于所述节点名称相同的节点;将所述节点名称相同的所有节点与所述第一子节点合并,得到最终地址树;在所述地址要素关系表中,若所述键名表示的节点名称存在多个父节点名称时,获取子节点数目最少的所述节点名称相同的节点对应的第二父节点,所述第二父节点的第二子节点属于所述节