预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113933334A(43)申请公布日2022.01.14(21)申请号202111195188.6(22)申请日2021.10.13(71)申请人北京工商大学地址100048北京市海淀区阜成路33号申请人中国检验检疫科学研究院(72)发明人陈谊斗海峰张紫娟范春林李海生张佳琳刘鸣畅(74)专利代理机构北京万象新悦知识产权代理有限公司11360代理人黄凤茹(51)Int.Cl.G01N24/08(2006.01)G06N20/00(2019.01)权利要求书4页说明书9页附图4页(54)发明名称一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法(57)摘要本发明公布了一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,包括:采集真假蜂蜜样品并生成洋槐蜜数据;对洋槐蜜数据进行真假标注得到洋槐蜜数据集;通过特征选择得到低维洋槐蜜数据集;构建蜂蜜真假鉴别模型RF‑XGBoost;对模型进行参数优化和模型验证;利用训练好的模型对待测蜂蜜进行真伪鉴别。本发明方法可有效精准地鉴别洋槐蜜的真伪,避免人工查看谱图进行真伪鉴别的误差,有效提高了洋槐蜜真伪鉴别的准确率、均方根误差和AUC值,降低了数据特征维数、模型训练时间、模型复杂度和过拟合的风险,是一种鉴别洋槐蜜真伪的有效方法。CN113933334ACN113933334A权利要求书1/4页1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法,其特征是,包括:采集真假蜂蜜样品并生成洋槐蜜数据;对洋槐蜜数据进行真假标注得到洋槐蜜数据集;通过谱图特征选择得到低维洋槐蜜数据集;构建蜂蜜真假鉴别模型RF‑XGBoost;对模型进行参数优化和模型验证;利用模型对待测蜂蜜进行真伪鉴别;具体包括以下步骤:A:采集和制备蜂蜜样品,包括真蜂蜜样品和假蜂蜜样品,并生成洋槐蜜数据;通过核磁共振技术,对蜂蜜样品进行NOESY1D检测,得到检测蜂蜜样品的一维氢信号谱图,进而对谱图进行数字化转换,得到多个反映洋槐蜜样品谱图特征的真假洋槐蜜数据记录;B:对洋槐蜜数据记录进行真假标注,得到洋槐蜜数据集;对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性,用于表示洋槐蜜为真蜂蜜或掺假蜂蜜;每一条记录按照一定规则再添加一个样本名称属性;将得到的洋槐蜜数据集记为D;洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特征;C:选择谱图特征;从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终特征集合,根据最终特征集合得到低维的洋槐蜜数据集,记为D′,用于模型的构建和训练;具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小,并对特征重要性程度大小进行排序;然后选取前p个特征为最终特征集合;包括如下步骤:C1:构建包含多棵决策树的随机森林;随机森林中的每一棵决策树均为二叉树,即为一个分类器;决策树中的每个节点表示洋槐蜜数据集的一个子集;节点纯度最高的特征作为最优特征;C2:特征重要性评估:计算每个特征Cj的重要性评分VIMj,即计算第j个特征Cj在随机森林所有决策树中节点分裂纯度的平均改变量;计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献;取平均值,得到每个特征的贡献程度即重要性程度,采用基尼Gini指数表示;Gini指数值越小表示集合中被选中的元素被分错的概率越小,也就是集合的纯度越高;通过式(4)计算得到Gini指数的值:式中,GIm为决策树中节点m的Gini值;pmk代表节点m中样本属于第k类的概率估计值,K代表样本集的类别个数;类别分为真蜂蜜和假蜂蜜两个类别,即K=2,此时节点m的Gini指数为式(5):GIm=2pm(1‑pm)(5)其中,pm为洋槐蜜样本在节点m属于任意一类的概率估计值;设决策树分枝时,根据特征F是否取某一可能的值f,将洋槐蜜数据集合D分割成D1和D2两部分,即:D1={(x,y)∈D|F(x)=f},D2=D‑D1;其中x为洋槐蜜样本,y为样本x对应的标签值;则在特征F在取值f的条件下,集合D的基尼指数定义为式(6):其中,和由式(5)计算,|D|表示集合D中样本的个数;2CN113933334A权利要求书2/4页特征Cj在节点m中的重要性即决策树中的节点m分枝前后的Gini指数变化量,由式(7)计算得到:其中,GIL和GIR分别表示分枝之后两个新节点的Gini指数;如果特征Cj在第l棵决策树中出现M次,则Cj在第l棵树的重要性表示为:若随机森林共有n棵决策树,特征Cj在随机森林中的重要性表示为:将所有求得的重要性评分进行归一化处理,得到重要性评分VIMj:C3:特征选取;包括:使用洋槐蜜数据集D中176个特征的重要性评分,根据重要性进行降序排序之后得到特征序列λ(λ1,λ2,…,λ