纤维粒报考大学万能公式,Plant Com | 整合基因组和表型数据以提高作物性状预测精度
- 更新日期:2025-06-20
- 查看次数:2
近日,南京农业大学前沿交叉研究院作物时空表型组学团队在Plant Communications发表题为GPS: Harnessing data fusion strategies to improve the accuracy of machine learning-based genomic and phenotypic selection的研究论文。该研究提出了多源数据融合框架(Genomic and Phenotypic Selection,GPS),有效整合了基因组与表型信息,显著提升了作物性状的预测准确性、稳健性和跨环境适应性,为作物高效育种提供了新的视角。
研究背景
随着全球气候变化和人口增长,粮食安全问题日益突出,作物精准育种需求迫在眉睫。然而,传统的基因组选择(GS)和表型选择(PS)在复杂性状预测、跨环境泛化等方面仍面临准确率低、鲁棒性差等瓶颈。怎样整合多源信息,提升复杂作物性状的智能预测能力,成为作物科学与人工智能交叉领域亟需突破的科学难题。
研究内容
1. 提出并系统验证了GPS多源数据融合框架
图1 三种融合策略的技术路线图。(A)数据融合。(B)特征融合。(C)结果融合。模型部分包括六个模型:Lasso、RF、SVM、XGBoost、LightGBM和DNNGP。在上述三种融合策略中,每次只应用一个模型。例如,在特征融合过程中,RF首先用于从基因组和表型数据中提取特征,然后在融合步骤后提取特征。
本研究提出了多源数据融合框架(GPS),系统设计并比较了三种融合策略(数据融合、特征融合、结果融合),实现了对基因组数据与表型数据的高效整合。通过多模型(统计模型、机器学习模型和深度学习模型)、多物种(大豆、水稻、玉米和小麦)的系统测试,证明了该框架具备高准确性和稳定性。在GPS框架中,数据融合策略表现最为突出,优于特征融合和结果融合(图2A)。以Lasso_D模型为例,在玉米、大豆、水稻、小麦四大作物上,模型的预测准确率相比最佳GS(LightGBMg)提升了53.4%,相比最佳PS(Lassop)提升了18.7%(图2B)。
图2 不同融合策略的准确性比较。(A) 三种融合策略的预测精度比较。(B)数据融合策略与GS和PS模型预测精度的比较。注:RFg、RFp、RF_D、RF_F和RF_R分别表示使用RF模型的基因组预测、表型预测、数据融合预测、特征融合预测和结果融合预测。相同的符号组合规则适用于其他模型。图中相同颜色的点表示同一物种内不...状的预测准确性。每个框的顶部水平线表示上四分位数,中间水平线表示中位数,底部水平线表示下四分位数。从方框延伸的垂直线表示最大值和最小值,而这些垂直线范围之外的点表示异常值。每种方法的预测精度由测试集中预测值和实际值之间的皮尔逊相关系数来评估。
2. 揭示并量化了影响模型预测能力的关键因素
通过敏感性分析,明确了样本数量、SNP密度、表型数量及其与目标性状的相关性是影响融合模型预测表现的主要因素。研究发现,即使在小样本情况下(样本数量为200),Lasso_D依然能够保持较高的预测精度(图3A)。通过改变SNP质量,发现模型的精度并未出现显著变化,这表明模型能够适应未经过滤的SNP数据;同时,这也表明模型在仅使用少量高质量的SNP时,依然可以实现与使用未经过滤的所有数据时相当的精度(图3B)。此外,我们还发现预测精度与辅助性状的数量成正相关(图3C),预测精度和辅助性状与目标性状的相关系数的绝对值成正相关(图3D)。
图3 不同方案下的模型敏感性分析。图中显示的预测性状为TW(Test Weight)。(A)样本量对预测精度的影响。(B)SNP质量对预测准确性的影响。(C)表型数量对预测准确性的影响。(D)目标性状和辅助性状之间的相关性对预测准确性的影响。每条线代表每个模型100个重复的平均预测精度。阴影区域表示95%的置信区间,通过平均值?1.96?SE(Standard Error)计算。
3. 系统评估GPS的跨环境泛化能力
研究深入探讨了融合模型在跨年份、跨地点、跨环境下的预测性能。用于研究的数据集包含了7个环境下的多种表型(图4A-B)。结果显示,在训练集中增加多年数据和多地点数据均能提升模型的预测精度(图4C-D)。GPS融合框架能显著提升模型的迁移能力,预测精度远高于单一数据集。多环境训练的融合模型准确率较同环境训练的模型仅下降0.3%(图4E),说明该模型具有很好的泛化能力,极大增强了该方法在实际育种场景中的推广应用价值。
图4 不同环境下的模型预测精度。(A) 1260份大豆样品在不同环境中的含油量分布。(B)大豆数据集中七个性状的皮尔逊相关系数,PH表示株高,YD表示产量,ME表示含水率,PT表示蛋白含量,OIL表示含油率,FR表示纤维含量,GW表示粒重。(C)跨年份含油率预测结果。ETY表示排除测试年份后,剩余数据用于训练。(D) 跨地点含油率预测结果。ETL表示在排除测试地点后,剩余数据用于训练。(E)跨环境含油率预测结果。ETE表示在排除测试环境后,剩余数据用于训练。“Value”表示测试集中预测值和实际值之间的皮尔逊相关系数。
4. 提出了一种快速权重分配方法FastW,提高了结果融合的计算效率
对多源数据进行结果融合时,通常采用全局优化算法(DEoptim)以确保给每个模型分配最佳的权重。但是,全局优化算法需要经过成百上千次的迭代才能达到最佳的效果,需要消耗大量的时间和计算资源。因此,本研究针对GS和PS的特性,提出了FastW这一权重分配方式。结果表明,FastW分配的权重与DEoptim分配的权重相关性超过了93.4%(图5),但DEoptim消耗的计算时间是FastW的3倍以上(图6)。
注:h2表示表型性状遗传力,cor表示辅助性状与目标性状之间相关系数的绝对值中的最大值。wg和wp和分别表示分配给GS和PS的权重。predg和predp分别表示GS和PS的预测结果。
图5 权重相关性分析。DEoptim_w表示使用DEoptim分配的权重,而FastW_w表示基于遗传力和相关系数计算的权重。Cor_M表示玉米中LH(叶长)、EH(穗高)和PH(株高)的权重相关系数,Cor_S表示大豆中YD(产量)、PT(蛋白质)和GW(粒重)的权重相关系数,Cor_R表示水稻中PH(株高)、YD(产量)和 GW(粒重)的权重相关系数,Cor_W表示小麦中的TW(容重)、GP(蛋白含量)和GH(粒厚)的权重相关系数。G_w表示基因组预测的权重,P_w表示表型预测的权重。
图6 两种权重分配方式(DEoptim和FastW)的效率比较
研究结论
本研究提出的GPS多源数据融合框架,显著提升了作物性状的预测准确性、稳健性和跨环境适用性。通过系统比较三种融合策略,数据融合被证实为最优选择,并在多物种和多模型场景下取得了突出效果。该成果为作物多组学数据融合研究提供了新见解,也为未来实现高效、精准的作物智能育种奠定了坚实基础。
作者团队
南京农业大学前沿交叉研究院博士生吴泓杉为本文第一作者,南京农业大学前沿交叉研究院作物表型组学交叉研究中心金时超为通讯作者。研究生唐建玲、仙俊红参与本研究工作。合作专家包括四川省农科院项超,南京农业大学张焦平、赵晋铭、吴玉峰、姜东和丁艳锋,中国科学院东北地理与农业生态研究所冯献忠。该研究得到国家重点研发计划、中央高校基本科研业务费、江苏省重点研发计划、江苏省自然科学基金、海南省崖洲湾种子实验室、国家自然科学基金、四川省财政厅项目、江苏省种业振兴揭榜挂帅项目、科技创新2030重大专项、钟山生物育种实验室、江苏省基础研究专项(重大创新平台计划)等项目的资助。
长按或扫描二维码
订阅Molecular Plant和Plant Communications
的最新文章邮件推送
Mol Plant
微信号|Mol Plant2019
www.cell.com/molecular-plant/home