预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106557733A(43)申请公布日2017.04.05(21)申请号201610124207.9(22)申请日2016.03.04(30)优先权数据2015-1929602015.09.30JP(71)申请人富士施乐株式会社地址日本东京都(72)发明人重枝信之鹿岛洋三(74)专利代理机构北京三友知识产权代理有限公司11127代理人吕俊刚(51)Int.Cl.G06K9/00(2006.01)权利要求书1页说明书7页附图5页(54)发明名称信息处理装置和信息处理方法(57)摘要本申请涉及信息处理装置和信息处理方法。该信息处理装置包括:第一获取单元、添加单元、第二获取单元、以及提取单元。第一获取单元获取在通过读取文档而生成的第一图像中所包括的第一元素组。添加单元通过将彼此不同的噪声添加到第一图像,来生成多个第二图像。第二获取单元获取在各多个第二图像中所包括的第二元素组。提取单元根据在第一元素组中所包括的元素和在多个第二元素组中所包括的元素之间的相似性程度,来从第一元素组中提取表示文档的特征的元素。CN106557733ACN106557733A权利要求书1/1页1.一种信息处理装置,所述信息处理装置包括:第一获取单元,所述第一获取单元获取在通过读取文档而生成的第一图像中所包括的第一元素组;添加单元,所述添加单元通过将彼此不同的噪声添加到所述第一图像,来生成多个第二图像;第二获取单元,所述第二获取单元获取在各所述多个第二图像中所包括的多个第二元素组;以及提取单元,所述提取单元根据在所述第一元素组中所包括的元素和在所述多个第二元素组中所包括的元素之间的相似性程度,来从所述第一组元素中提取表示所述文档的特征的元素。2.根据权利要求1所述的信息处理装置,其中,所述添加单元通过把作为多个所述噪声中的预定类型的噪声的一个特定噪声添加到所述第一图像来生成所述多个第二图像中的每个第二图像,使得在各所述多个第二图像中所包括的多个特定噪声彼此不同。3.根据权利要求1所述的信息处理装置,其中,所述添加单元通过把作为多个所述噪声中的预定类型的噪声的多个特定噪声添加到所述第一图像来生成所述多个第二图像中的每个第二图像,使得在各所述多个第二图像中所包括的多个特定噪声彼此不同。4.根据权利要求1到3中任一项所述的信息处理装置,其中,所述提取单元提取相似性程度达到阈值的元素,作为表示所述文档的特征的元素。5.根据权利要求1到4中任一项所述的信息处理装置,其中,所述提取单元提取相似性程度最高的元素,作为表示所述文档的特征的元素。6.一种信息处理方法,所述信息处理方法包括如下步骤:获取在通过读取文档而生成的第一图像中所包括的第一元素组;通过将彼此不同的噪声添加到所述第一图像,来生成多个第二图像;获取在各所述多个第二图像中所包括的多个第二元素组;以及根据在所述第一元素组中所包括的元素和在所述多个第二元素组中所包括的元素之间的相似性程度,来从所述第一元素组中提取表示所述文档的特征的元素。2CN106557733A说明书1/7页信息处理装置和信息处理方法技术领域[0001]本发明涉及一种信息处理装置和信息处理方法。背景技术[0002]日本未审查专利申请公开号2003-115028中描述的文档处理系统就文档识别字典(documentidentificationdictionary)的记录而言,从文档图像中提取字符串,针对每个所提取的字符串从位置信息计算字符的稳定性程度和字符串的发生频率,针对每个所提取的字符串从同一区域中字符串出现的文档类型的次数计算字符串的唯一性程度,并从稳定性程度和唯一性程度,计算字符串的优先等级。[0003]为了提高文档的处理效率,转换成数字形式可以是有效方法。例如,表示多种类型文档的特征的元素被预先记录在计算机中。使用扫描仪来读取文档,并生成其图像。提取包括在所生成的图像中的元素。所读文档的类型通过将所提取的元素与预先记录的元素进行比较来判断。然而,可能存在通过读取文档而生成的图像包括噪声的情况。噪声的示例是文档上的污垢和文档的折痕、透显(Show-Through)、和书写字符等。这些噪声可能是导致错误判断文档类型的原因(文档类型被判断为非真的特定类型)。当发生错误判断时,需要执行复杂的操作,来纠正判断结果,并且这是低效的。发明内容[0004]因此,本发明的目的是减少由在通过读取文档而生成的图像中所包括的噪声所导致的错误判断文档类型的次数。[0005]根据本发明的第一方面,提供了一种信息处理装置,其包括第一获取单元、添加单元、第二获取单元、及提取单元。第一获取单元获取在通过读取文档而生成的第一图像中所包括的第一元素组。添加单元通过将彼此不同的噪声添加到第一图像,来生成多