一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于GWAS筛选后近红外光谱特征波段预测品质的方法及系统与流程

2022-02-20 20:31:54 来源:中国专利 TAG:

基于gwas筛选后近红外光谱特征波段预测品质的方法及系统
技术领域
1.本发明涉及品质无损可靠性试验与检测监测技术领域,尤其涉及一种基于gwas筛选后近红外光谱特征波段预测品质的方法及系统,可用于肉类产品的无损检测、监测。


背景技术:

2.近年来,随着人们生活水平的提高,消费者对味道鲜美、营养丰富的优质肉类产品的需求不断增加,市场消费结构随之发生改变,猪肉作为市场主要的消费肉类,越来越多的养殖公司将检验及改善猪肉品质作为猪育种的长期目标。通常评估猪肉品质的指标有很多,包括脂肪、水分、蛋白质、脂肪酸含量、ph、肉色等。世界各地的食品与农牧行业对这些猪肉品质指标的评价方法,除了常规的理化分析之外,基于可见光/近红外光谱技术的无损、快速、便捷的肉制品成分测定方法也逐渐受到广大科研工作者或相关产业人员的青睐。
3.然而,在近红外光谱分析技术的产业化实际应用过程中,可用的近红外光谱测定仪器成本不菲,尤其是仪器配套的匹配不同波段配置的测定探头往往比较昂贵,这对科研工作人员或者相关从业人员而言可能是一笔巨大的开销,从而对可见光/近红外光谱技术的无损、快速、便捷的肉制品成分测定技术的应用产生了明显的限制,实用性受限;另外的,利用可见光/近红外光谱仪器基于全波段配置实现肉质性状预测,针对性不足,导致预测结果可靠性不足,无法实现市场及肉质优培的需求。
4.公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成己为本领域技术人员所公知的现有技术。


技术实现要素:

5.为解决上述问题,本发明提供了一种基于gwas筛选后近红外光谱特征波段预测品质的方法,在一个实施例中,所述方法包括:
6.样本配置步骤、基于待测的全面肉质性状配置设定规模的原始肉类样本,按照设定的处理策略进行样本制备处理,并对制备的各目标样本进行编号;
7.数据测定步骤、通过近红外光谱采集设备对各目标样本进行扫描获取近红外光谱数据,利用近红外设备附带的测定功能模块,或匹配的理化测定手段获取各目标样本的肉质性状数据,并将两种数据关联记录;
8.gwas分析步骤、利用gemma软件调用线性混合模型对两者进行gwas分析,获取对应的分析结果;
9.特征图绘制步骤、基于gwas分析后的结果文件,配合设置的显著性阈值线绘制对应的曼哈顿图;
10.特征筛选步骤、依据曼哈顿图中的各项肉质性状指标表征信息相对于光谱波段表征信息的分布情况,筛选确定所有肉质性状指标对应的有效光谱波段;
11.预测应用步骤、利用近红外光谱技术基于筛选得到的有效光谱波段实现肉质性状
的预测。
12.一个可选的实施例中,在所述样本配置步骤中,待测的肉质性状包括以下指标:脂肪、水分、蛋白质、瘦肉率、胶原蛋白、盐分、灰分、饱和脂肪酸、能量kj/100g、能量kcal/100g、钠盐、ph值、l*值、a*值以及b*值。
13.进一步地,一个实施例中,在所述样本配置步骤中,按照设定的处理策略进行样本制备处理的过程包括:
14.去除各原始样品表面可见的脂肪与筋膜,采用粉碎设备将每个样品搅碎以使粉碎样品能选样均匀填入圆形玻璃平皿中。
15.一个实施例中,在所述数据测定步骤中,扫描获取近红外光谱数据后还包括:
16.运用马氏距离判别法对超过马氏距离阈值的样本进行剔除,将剩余的样本作为有效的样本投入肉质性状数据获取及后续步骤。
17.一个优选的实施例中,在所述gwas分析步骤中,包括:将肉质性状数据作为表型文件,将近红外光谱数据作为基因型文件,输入到相应的gemma软件或平台中,调用线性混合模型进行gwas分析,以有效消除光谱波段之间存在的多重共线性对分析结果产生的影响。
18.进一步地,一个实施例中,所述gwas分析步骤中,调用下式所示的线性混合模型:
19.y=xb zu ε
20.其中,y为样本对应的表型向量,x为由协变量生成的固定效应矩阵,z为聚合了所有样本光谱信息的随机效应矩阵,b和u分别表示固定效应和随机效应的权重系数,ε为残差。
21.具体地,一个实施例中,在特征图绘制步骤中,以光谱波段作为横坐标,显著性p值进行-log10转换后作为纵坐标绘制散点图,采用bonferroni校正法设置显著性阈值线。
22.一个可选的实施例中,在特征筛选步骤中,针对各个肉质性状指标,选取每个指标在特征图中超过阈值的每一个顶峰以及其左右各5个波段,将这些波段作为对应单个肉质性状指标的匹配近红外特征波段。
23.进一步地,一个实施例中,所述方法还包括分析验证步骤、在预测应用步骤之前,对筛选出的特征波段运用多元线性回归模型相对于全波段进行验证,通过计算以下参数:校正集决定系数交叉验证集决定系数校正集均方根误差(rmsec)和交叉验证集均方根误差(rmsecv)对比衡量所筛选特征波段相对于全波段的预测结果。
24.基于上述任意一个或多个实施例中所述方法的其他方面,本发明还提供一种基于gwas筛选后近红外光谱特征波段预测品质的系统,该系统执行上述任意一个或多个实施例中所述的方法。
25.与最接近的现有技术相比,本发明还具有如下有益效果:
26.本发明提供的一种基于gwas筛选后近红外光谱特征波段预测品质的方法及系统,该方法应用了特有的近红外光谱特征波段筛选策略,首先利用近红外光谱采集设备对配置的原始样本进行扫描,获取样本的光谱数据,并测定样本的各项肉质性状理化指标,然后按照设定的方式将两种数据导入到对应的系统中进行gwas分析,进而依据分析的结果和设定的阈值线绘制匹配的曼哈顿图,基于图中的信息筛选出各个肉质性状指标对应的超过阈值的若干匹配波段,最终基于筛选的波段利用近红外光谱技术实现肉类品质的预测,一方面有效控制了未来在近红外设备的研发和购买阶段的投入成本,另一方面简化了数据处理的
流程,优化预测时效性的同时提升了预测结果的精确度。
27.进一步地,本发明中以“曼哈顿图”的方式,将光谱与样本指标的关联结果以可视化的形式进行展现,给予研究工作者或相关产业人员直观的感受;
28.另外的,本发明研究人员考虑到以遗传学为背景的gwas分析中,每个独立数据个体都拥有高维度的特征以外,各个维度之间还存在很大程度的共线性,在遗传分析中称为snp位点之间的连锁不平衡。在gwas分析步骤中调用线性混合模型实现分析,既包含了固定效应,又包含了随机效应,能够有效消除多重共线性对于分析结果的影响,保障分析结果的可靠性。
29.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
30.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
31.图1是本发明一实施例所提供基于gwas筛选后近红外光谱特征波段预测品质的方法的流程示意图;
32.图2是本发明实施例所提供预测品质的方法中基于gwas筛选近红外光谱特征波段的原理示意图;
33.图3是本发明另一实施例所提供基于gwas筛选后近红外光谱特征波段预测品质的方法中配置样本的流程示意图;
34.图4是本发明实施例所提供基于gwas筛选后近红外光谱特征波段预测品质的方法中剔除离群点前的近红外光谱图示例;
35.图5是本发明施例所提供基于gwas筛选后近红外光谱特征波段预测品质的方法中剔除离群点后的近红外光谱图示例;
36.图6是本发明一实施例所提供基于gwas筛选后近红外光谱特征波段预测品质的方法的曼哈顿图示例;
37.图7是本发明又一实施例所提供基于gwas筛选后近红外光谱特征波段预测品质的系统的结构示意图。
具体实施方式
38.以下将结合附图及实施例来详细说明本发明的实施方式,借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
39.虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
40.计算机设备包括用户设备与网络设备。其中,用户设备或客户端包括但不限于电脑、智能手机、pda等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、vpn网络等。
41.这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。猪肉作为市场主要的消费肉类,越来越多的养殖公司将检验及改善猪肉品质作为猪育种的长期目标。通常评估猪肉品质的指标有很多,包括脂肪、水分、蛋白质、脂肪酸含量、ph、肉色等。世界各地的食品与农牧行业对这些猪肉品质指标的评价方法,除了常规的理化分析之外,基于可见光/近红外光谱技术的无损、快速、便捷的肉制品成分测定方法也逐渐受到广大科研工作者或相关产业人员的青睐。
42.然而,在近红外光谱分析技术的产业化实际应用过程中,可用的近红外光谱测定仪器成本不菲,尤其是仪器配套的匹配不同波段配置的测定探头往往比较昂贵,这对科研工作人员或者相关从业人员而言可能是一笔巨大的开销,从而对可见光/近红外光谱技术的无损、快速、便捷的肉制品成分测定技术的应用产生了明显的限制,实用性受限;另外的,利用可见光/近红外光谱仪器基于全波段配置实现肉质性状预测,针对性不足,导致预测结果可靠性不足,无法实现市场及肉质优培的需求。
43.基于此本发明研究人员考虑到因此,有针对性地筛选出我们预测工作中真正需要的近红外波段或者波段范围,并将其纳入近红外设备的研发和购买阶段,从而有效减少使用过程中硬件设备性能上的溢出,能够有效达到降低使用成本,推动近红外检测技术产业化应用的目的。
44.常见的光谱特征波段的筛选方法大致分为两类,第一类是基于数理统计的筛选,包括连续投影算法(spa)、相关系数法(cc)、蒙特卡洛法(mc)等。第二类是基于人工智能的特征机器人寻优,如遗传算法(ga)、蚁群算法(aca)、随机蛙跳算法(rf)等。在国内外的相关报道中,这些方法在光谱的特征波段筛选上已取得了不错的成绩。然而,这些方法在具体的应用中需要使用者具备一定程度的数学建模与程序编译基础,给普通的从业工作人员设置了不低的门槛,限制了这些方法在近红外技术产业化实际应用过程中的普及与推广。因此,本发明研究项目组为此开发了一种基于gwas(全基因组关联分析)的新型、高效、便捷的近红外光谱特征波段筛选方法,并将其应用于肉类品质的预测技术中。
45.具体地,为解决上述问题,本发明提供一种基于gwas筛选后近红外光谱特征波段预测品质的方法及系统,该方案基于遗传学的技术知识基础,通过建立光谱波段与样本各项理化指标之间的关联性,采用可视化的方式将关联结果呈现,并对筛选出的特征波段进行可靠的建模验证,实现了多项理化指标预测潜力的拔高,为近红外技术在产业化应用道路上提供了助力。
46.接下来基于附图详细描述本发明实施例的方法的详细流程,附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出
了各步骤的逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
47.实施例一
48.图1示出了本发明实施例一所提供基于gwas筛选后近红外光谱特征波段预测品质的方法的流程示意图,参照图1可知,该方法包括如下步骤。
49.样本配置步骤、基于待测的全面肉质性状配置设定规模的原始肉类样本,按照设定的处理策略进行样本制备处理,并对制备的各目标样本进行编号;
50.数据测定步骤、通过近红外光谱采集设备对各目标样本进行扫描获取近红外光谱数据,利用近红外设备附带的测定功能模块,或匹配的理化测定手段获取各目标样本的肉质性状数据,并将两种数据关联记录;
51.gwas分析步骤、利用gemma软件调用线性混合模型对两者进行gwas分析,获取对应的分析结果;
52.特征图绘制步骤、基于gwas分析后的结果文件,配合设置的显著性阈值线绘制对应的曼哈顿图;
53.特征筛选步骤、依据曼哈顿图中的各项肉质性状指标表征信息相对于光谱波段表征信息的分布情况,筛选确定所有肉质性状指标对应的有效光谱波段;
54.预测应用步骤、利用近红外光谱技术基于筛选得到的有效光谱波段实现肉质性状的预测。
55.采用上述实施例中的操作逻辑,针对当前近红外技术实际生产应用过程中,建模波段的盈余导致硬件设备性能上的溢出,产业化推广成本高昂,同时现有的大部分特征波段筛选方法实现难度大、门槛高等问题,专门应用了基于gwas(全基因组关联分析)的近红外光谱特征波段的筛选策略,快速、便捷、有效。该方法基于遗传学知识背景之上,通过建立光谱波段与样本各项理化指标之间的关联性,采用可视化的方式将关联结果呈现,并对筛选出的特征波段进行建模验证,实现了多项理化指标预测潜力的拔高,为近红外技术在产业化应用道路上提供了助力。
56.实际应用时,采用的近红外光谱特征波段的筛选策略包括以下思路:步骤(1)、样本数据的测定与采集;步骤(2):利用gemma进行gwas分析;步骤(3)、利用r软件绘制“曼哈顿图”;步骤(4)、根据“曼哈顿图”中的信息提取目标特征波段。
57.所述步骤(1),通过近红外光谱采集设备,对若干新鲜猪肉样本进行编号扫描,同时利用传统方法或近红外设备附带的测定模块,测定对应样本的各项肉质性状;
58.所述步骤(2),将肉质性状与近红外光谱数据分别以文本格式进行记录,前者作为表型文件,后者作为基因型文件输入到gemma软件中,调用线性混合模型进行gwas分析。
59.所述步骤(3),将gwas分析后的结果文件输入到r软件中,设置显著性阈值线绘制“曼哈顿图”。
60.所述步骤(4),对“曼哈顿图”进行观察,根据散点型成的峰谷进行特征光谱波段的筛选,如图2所示。
61.通过上述流程筛选出的近红外波段即为对应样本理化成分的特征波段。这是一种前所未有的光谱波段筛选方法,将所有近红外光谱波段与需要预测的理化成分建立关联,具有流程简单、可重复性强、技术门槛低等优点,同时关联结果的可视化还给予研究人员或
相关从业人员提供了最直观的感受,为近红外光谱分析技术产业化应用提供了有效助力。
62.其中,gwas(全基因组关联分析)是一种建立于关联分析的基础上,充分利用群体水平的连锁不平衡,以基因组中单核苷酸多态位点(snp)为分子遗传标记,定位影响复杂表型性状的遗传因素的一种遗传学统计分析技术。其基本原理是在全基因组范围内选择遗传变异进行基因分型,比较异常个体与对照组之间每个遗传变异频率的差异,以此统计分析每个变异与目标性状之间的关联性强弱。
63.本发明中主要结合遗传学相关背景,采用了全基因组关联分析(gwas)的思路和流程,建立了光谱波段与样本各项理化性质之间的可靠关联性,从而实现特征波段的筛选。
64.为了保障筛选后所得的特征波段能够全面涵盖各种肉质性状指标,在准备样本的过程中需要全面考虑需要测定的肉质性状指标,具体地,一个实施例中,在所述样本配置步骤中,需考虑的待测的肉质性状包括以下指标:脂肪、水分、蛋白质、瘦肉率、胶原蛋白、盐分、灰分、饱和脂肪酸、能量kj/100g、能量kcal/100g、钠盐、ph值、l*值、a*值以及b*值。
65.进一步地,在测定数据之前,需要配置合理的样本,实际应用时,本发明实验中用于定标建模的个体原始样品分别来源于广东、江西、广西的三家生猪养殖公司屠宰所得。其中90%个体为长白猪、大白猪及其杂交后代,10%为地方土猪,均达到统一上市日龄(平均200日龄)后进行屠宰。屠宰后的胴体在0~4℃的冷库中排酸24小时,然后对胴体进行分割,取左半边胴体的5~6肋骨处的背最长肌进行采样测定。
66.一个优选的实施例中,在所述样本配置步骤中,按照设定的处理策略进行样本制备处理的过程包括:
67.去除各原始样品表面可见的脂肪与筋膜,采用粉碎设备将每个样品搅碎以使粉碎样品能选样均匀填入圆形玻璃平皿中。
68.实际应用时,具体可以将所有样品均在室温(20℃)下解冻,按照中国《gb/t9695.19-2008肉与肉制品取样方法》规定的方法进行取样,去除样品表面可见的脂肪与筋膜等并进行编号,用小型电动台式绞肉机(skyworth-p407,50hz,300w,28000r/min)分别将每个样品搅碎,保证粉碎均匀之后将试样填入圆形玻璃平皿(直径80mm,深度13mm),如图3所示。本实验中所使用的foodscan2光谱分析仪采集到的近红外光谱波长为400至1099.5纳米。每个样本的近红外光谱数据,取自分析仪中自动旋转的平皿在18个不同点记录的18个光谱子集的平均值,以log(1/r)的形式存储,r代表反射率。
69.进一步地,按照美国分析化学家协会aoac(association of official analytical chemists)批准的官方方法,采用foodscan
tm 2 meat analyser(foss analytical,丹麦)仪器,以透射模式测定猪背最长肌的脂肪、蛋白质、水分、胶原蛋含量等15项肉质性状,详细数据如下表1)所示;
70.表1肉质性状测定情况(共15项)
[0071][0072]
进一步地,本发明研究人员考虑到测定过程中可能存在着随机误差,同时环境与批次等因素也会对后续的建模产生影响,因此为了避免基础的数据样本误差(或离群样本信息)对分析结果产生干扰,设计按照(ny/t2797-2015)中叙述的标准,运用马氏距离判别法对采集到的样本数据进行校正。
[0073]
因此,一个优选的实施例中,在所述数据测定步骤中,扫描获取近红外光谱数据后还包括:
[0074]
运用马氏距离判别法对超过马氏距离阈值的样本进行剔除,将剩余的样本作为有效的样本投入肉质性状数据获取及后续步骤。
[0075]
实验中,本发明使用foodscan采集到的光谱范围在400和1099.5nm之间,间隔为0.5nm,运用马氏距离判别法对超过马氏距离阈值的样本进行了剔除,最终筛选得到1206个样本。图4、图5分别示出了异常个体剔除前后的近红外漫反射光谱图。
[0076]
实际应用时,可采用如下式所示的马氏距离判别原理:
[0077][0078][0079]
其中,mdi为第i个样本的马氏距离,xi=(x
i1
,...,x
ik
)
t
为第i个样本xi在k个维度上的得分,μ=(μ1,...,μk)
t
,为x的期望,s为x的协方差矩阵,md
l
为马氏距离阈值,为样品马氏距离得的平均值,sd
md
为样品马氏距离的标准差。
[0080]
基于上述实施例中的方案剔除超过马氏距离阈值的误差样本,剩余的样本投入肉质性状数据获取操作以及后续的操作中,不仅能够节省计算资源的消耗,提升分析时效性,还能够克服误差样本对分析结果产生影响,提升分析结果的精确性。
[0081]
进一步利用gemma软件调用线性混合模型对获取的肉质性状数据和近红外光谱数据进行gwas分析,获取对应的分析结果;一个实施例中,在所述gwas分析步骤中,包括:将肉质性状数据作为表型文件,近红外光谱数据作为基因型文件,输入到相应的gemma软件或平
台中,获取对应的分析结果。
[0082]
将得到的15项肉质性状与近红外光谱信息分别输入到文本文件中,得到的性状文件将呈现n*15的矩阵,光谱文件将呈现p*(3 n)的矩阵,其中n表示样本总数,p代表光谱波段总数,肉质性状文件不需要添加行名以及列名,光谱信息文件的第一列为波段序号(400~1099.5),第二列与第三列填写为同一碱基类型,即a、t、c、g中的任意一项。之后将肉质性状文件作为表型文件,使用参数
“‑
p”进行调用,光谱信息文件作为基因型文件,使用参数
“‑
g”进行调用。同时由于
“‑
g”调用的并非是真正的基因型文件,因此需要添加参数
“‑
notsnp”以此保证程序的正常运行。最后调用参数
“‑
1mm 1”即可进行gwas分析。
[0083]
由于gwas分析中所使用的基因型数据与近红外光谱数据具有高度的相似性。除了具有一定群体规模以及群体中的每个独立个体都拥有高维度的特征以外,各个维度之间还存在很大程度的共线性,在基因型数据中称之为snp位点之间的连锁不平衡。因此,为了消除多重共线性对于分析结果的影响,在gemma中调用线性混合模型进行gwas分析。
[0084]
线性混合模型是一种方差分量模型,它既包含了固定效应,又包含了随机效应。当参数能被认为是恒定不变时,所产生的效应就是固定效应。但参数还有随机变量的特征时,我们称之为随机效应,其一般形式为:
[0085]
y=xb zu ε
[0086]
其中,y为样本对应的表型向量;x为固定效应矩阵(如样本类型、采样时间等协变量);z为随机效应矩阵,在本研究中是聚合了所有样本光谱信息的相关矩阵;b和u分别表示固定效应和随机效应的系数,用来衡量不同效应之间的权重;ε为残差。
[0087]
在使用gemma软件完成gwas分析后,将输出一个后缀为assoc.txt的文本文件,文件包含11列结果。本项目中仅涉及第2列的“rs”与第11列的“p_wald”信息使用。将该文本文件导入到r软件中,第2列“rs”信息作为横坐标,第11列“p_wald”信息进行-log10转换后作为纵坐标绘制散点图,
[0088]
进一步地,一个实施例中,在特征图绘制步骤中,以光谱波段作为横坐标,显著性p值进行-log10转换后作为纵坐标绘制散点图,采用bonferroni校正法设置显著性阈值线,如0.05/p或0.01/p,p代表光谱波段总数,本项目中为1400,绘制而成的散点图即为“曼哈顿图”。
[0089]
一个优选的实施例中,在特征筛选步骤中,针对各个肉质性状指标,选取每个指标在特征图中超过阈值的每一个顶峰以及其左右若干个波段,将这些波段作为对应单个肉质性状指标的匹配近红外特征波段。
[0090]
具体应用时,选取所有肉质性状指标在关联分析中超过阈值的每一个顶峰波长以及其左右各五个波段,将这些波段作为该肉质性状的近红外特征波段,具体数据如下表2所示。
[0091]
表2特征峰数量以及所在位置
[0092][0093]
基于gwas基本原理,对15个肉质性状进行了全光谱波段进行关联分析,阈值设置为p=0.05/1400和p=0.05/1400。图6中的每个点代表一段波长,橙色的点代表高于阈值的点,表明这个波长对该肉质性状的预测有贡献。比如,通过对曼哈顿图进行观察,盐分(%)、ph、l*三项指标没有超过阈值的波长,说明在400至1099.5光谱波长中基本没有有效信息;灰分、a*、b*三项指标超过阈值波长较少,说明在400至1099.5光谱波长中有效信息较少;其余指标在400至1099.5光谱波长中有效信息丰富,说明在此波长范围内拥有良好的预测潜力,基于同样的策略,选取各个肉质性状指标对应的匹配特征波段。
[0094]
进一步地,一个实施例中,所述方法还包括分析验证步骤、在预测应用步骤之前,对筛选出的特征波段运用多元线性回归模型相对于全波段进行验证,通过计算以下参数:校正集决定系数、交叉验证集决定系数、校正集均方根误差和交叉验证集均方根误差对比衡量所筛选特征波段相对于全波段的预测结果。
[0095]
对筛选得到的这些特征波长运用多元线性回归模型进行预测,理论上此时光谱数据的多重共线性问题已经得到了极大地改善。本研究中衡量模型优劣的主要参数包括校正集决定系数交叉验证集决定系数校正集均方根误差(rmsec)和交叉验证集均方根误差(rmsecv)。一个好的模型应该具有较高的和系数,以及较低的rmsec和rmsecv值,且rmsec和rmsecv间差异越小越好。
[0096]
计算结果具体如下表3所示,结果表明,在使用全波段信息进行多元线性回归预测的过程中,存在着严重的过拟合现象,校正集结果明显优于交叉验证集,这可能是由于光谱数据本身维度多、共线性强的特性导致的。当使用本研究新方法筛选出的特征波段重新进行预测,脂肪(%)、水分(%)、蛋白质(%)、瘦肉率(%)、胶原蛋白(%)、饱和脂肪酸(%)、能量kj/100g、能量kcal/100g、钠盐(%)的预测结果均得到了极大地改善。
[0097]
表3多元线性回归模型下全波段与特征波段预测效果对比
[0098][0099]
与此同时从整体上看,该预测结果与曼哈顿图呈现结果基本一致,即预测效果与超过阈值波长数量成正相关。
[0100]
综上所述,本研究中运用近红外光谱进行关联分析选取肉质性状的特征波长的方法是切实可行的,在使用该方法筛选出的特征波段进行建模预测分析后,其预测结果也显示这是一种非常可靠的筛选方法。
[0101]
本方法基于全基因组关联分析(gwas)的思路和流程,建立起光谱波段与样本多项理化性质之间的关联,经后续建模交叉验证,证明该方法筛选出的特征波段可使多项理化指标预测准确性提高,进而基于切实可行的近红外光谱特征波段筛选策略进一步实现肉类品质的预测,有效控制了预测作业时在近红外设备的研发和购买阶段的投入成本,同时提升了预测结果的可靠性和精确度。
[0102]
另外的,与传统现有的特征波段筛选方法相比,本发明的数据处理流程操作简单、可重复性强、技术门槛低,同时还以“曼哈顿图”的方式,将光谱与样本指标的关联结果以可视化的形式进行展现,给予研究工作者或相关产业人员直观的感受,为近红外光谱分析技术的产业化推广和应用提供了实质性的帮助。
[0103]
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0104]
需要指出的是,在本发明的其他实施例中,该方法还可以通过将上述实施例中的某一个或某几个进行结合来得到新的数据处理和分析预测应用方法,以实现对红外光谱技术的应用优化。
[0105]
需要说明的是,基于本发明上述任意一个或多个实施例中的方法,本发明还提供一种存储介质,该存储介质上存储有可实现如述任意一个或多个实施例中所述方法的程序代码,该代码被操作系统执行时能够实现如上所述基于gwas筛选后近红外光谱特征波段预测品质的方法。
[0106]
实施例二
[0107]
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置或系统实现,因此基于上述任意一个或多个实施例中所述方法的其他方面,本发明还提供一种基于gwas筛选后近红外光谱特征波段预测品质的系统,该系统用于执行上述任意一个或多个实施例中所述的基于gwas筛选后近红外光谱特征波段预测品质的方法。下面给出具体的实施例进行详细说明。
[0108]
具体地,图7中示出了本发明实施例中所提供基于gwas筛选后近红外光谱特征波段预测品质的系统的结构示意图,如图7所示,该系统包括:
[0109]
样本配置模块,其配置为基于待测的全面肉质性状配置设定规模的原始肉类样本,按照设定的处理策略进行样本制备处理,并对制备的各目标样本进行编号;
[0110]
数据测定模块,其配置为通过近红外光谱采集设备对各目标样本进行扫描获取近红外光谱数据,利用近红外设备附带的测定功能模块,或匹配的理化测定手段获取各目标样本的肉质性状数据,并将两种数据关联记录;
[0111]
gwas分析模块,其配置为利用gemma软件调用线性混合模型对两者进行gwas分析,获取对应的分析结果;
[0112]
特征图绘制模块,其配置为基于gwas分析后的结果文件,配合设置的显著性阈值线绘制对应的曼哈顿图;
[0113]
特征筛选模块,其配置为依据曼哈顿图中的各项肉质性状指标表征信息相对于光谱波段表征信息的分布情况,筛选确定所有肉质性状指标对应的有效光谱波段;
[0114]
预测应用模块,其配置为利用近红外光谱技术基于筛选得到的有效光谱波段实现肉质性状的预测。
[0115]
一个优选的实施例中,所述样本配置模块配置设定规模的原始肉类样本时,依据的待测肉质性状包括以下指标:脂肪、水分、蛋白质、瘦肉率、胶原蛋白、盐分、灰分、饱和脂肪酸、能量kj/100g、能量kcal/100g、钠盐、ph值、l*值、a*值以及b*值。
[0116]
进一步地,一个实施例中,所述样本配置模块基于以下操作按照设定的处理策略进行样本制备处理:
[0117]
去除各原始样品表面可见的脂肪与筋膜,采用粉碎设备将每个样品搅碎以使粉碎样品能选样均匀填入圆形玻璃平皿中。
[0118]
一个具体的实施例中,所述数据测定模块在扫描获取近红外光谱数据后,还配置为执行以下操作:
[0119]
运用马氏距离判别法对超过马氏距离阈值的样本进行剔除,将剩余的样本作为有效的样本投入肉质性状数据获取及后续步骤。
[0120]
进一步地,一个实施例中,所述gwas分析模块配置为:将肉质性状数据作为表型文件,近红外光谱数据作为基因型文件,输入到相应的gemma软件或平台中,调用线性混合模型进行gwas分析,以避免gwas分析中所使用的基因型数据与近红外光谱数据具有相似性的影响。
[0121]
具体地,一个实施例中,所述gwas分析模块调用下式所示的线性混合模型实现分析:
[0122]
y=xb zu ε
[0123]
其中,y为样本对应的表型向量,x为由协变量生成的固定效应矩阵,z为聚合了所有样本光谱信息的随机效应矩阵,b和u分别表示固定效应和随机效应的权重系数,ε为残差。
[0124]
一个可选的实施例中,所述特征图绘制模块具体配置为:以光谱波段作为横坐标,显著性p值进行-log10转换后作为纵坐标绘制散点图,采用bonferroni校正法设置显著性阈值线。
[0125]
进一步地,一个实施例中,所述特征筛选模块具体配置为:针对各个肉质性状指标,选取每个指标在特征图中超过阈值的每一个顶峰以及其左右各设定数量的波段,将这些波段作为对应单个肉质性状指标的匹配近红外特征波段。
[0126]
另外的,需要说明的是,一个优选的实施例中,所述系统还包括分析验证模块,其配置为在预测应用步骤之前,对筛选出的特征波段运用多元线性回归模型相对于全波段进行验证,通过计算以下参数:校正集决定系数、交叉验证集决定系数、校正集均方根误差和交叉验证集均方根误差对比衡量所筛选特征波段相对于全波段的预测结果。
[0127]
本发明实施例所提供基于gwas筛选后近红外光谱特征波段预测品质的系统中,各个模块或单元结构可以根据实际分析和运算需求独立运行或组合运行,以实现相应的技术效果。
[0128]
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而不意味着限制。
[0129]
说明书中提到的“一实施例”意指结合实施例描述的特定特征、结构或特征包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一实施例”并不一定均指同一个实施例。
[0130]
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献