预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

本发明提供了一种基于分类与筛选的信息增益文本特征选择方法及分类装置,属于自然语言处理领域,该方法针对信息增益方法不适用于不均衡数据集、选择后特征冗余的问题,提出一种可应用于不均衡数据集的分类筛选信息增益方法。该方法通过计算各类文本数占总文本数的比例分配各个类别可选择的特征数目,保证了对小数据集特征的选择,以实现对不均衡数据集的特征选择;通过计算各特征在不同类别中单位文本数目词频的离散程度来实现特征筛选,减少对文本分类具有较小影响的冗余特征,降低特征子集的维度并提高分类的性能。实验结果显示无论是平均查准率、平均召回率还是平均F1值,分类筛选信息增益方法均有更好的性能。