生活常识育种新篇章,AI在农业领域的限可能
2024年6月5-7日,亚洲动植物基因组学大会(PAG Asia, Plant and Animal Genome Conference in Asia)在深圳大梅沙隆重举行。作为国际知的动植物基因组学研究领域的高级盛会,PAG-Asia每年都吸引了来自全球的专家学者,共同探讨动植物基因组的比较新前沿进展。同时,大会也为青年学者和行业企业提供了展示科研成果和技术创新的平台。在本届大会上,百奥云与农业科学院作物科学研究所共同举办了一场以“AI Breeding”为主题的Workshop(研讨会),特邀6位智能育种领域嘉宾分享他们在科学研究和产业应用上的重要进展与前沿思考,现场嘉宾及与会者进行了热烈讨论,共同探讨人工智能与大数据在动植物育种研究中的应用前沿发展。
图片
粮食安全是比较基本的需求之一,而作物育种正面临前所未有的挑战。虽然作物大数据技术取得了显著进展,但数据与育种践之间的结合仍存在一定的差距。人工智能(AI)作为一场新的技术革命的引领者,有潜力缩小这一差距。
李慧慧研究员在本次报告中主要探讨了如何整合生物技术、大数据和AI来提升育种践。报告首先介绍了基于多组学数据开发的基因组预测模型,并提出了一种智能挖掘算法,该算法能够精确预测基因功能。特别强调了深度学习方法在预测基因功能和识别关键基因方面的作用,尤其是在挖掘和验证植物耐盐基因方面的重要性。接着,报告讨论了基于大型语言模型(LLM)的转录组注释方法,这是揭示基因功能的关键步骤。LLMs被用于识别植物耐盐基因,为功能基因组学提供了深刻的见解。此外,报告还展示了机器学习与共同进化分析的结合,成功预测了支持耐盐性的遗传网络,这是利用了大规模的进化信息。比较后,报告介绍了深度神经网络基因组预测(DNNGP)模型,该模型在多个数据集上进行了测试,通过整合多源异构大数据来提高预测精度。AI育种工具的应用被集成到智能育种平台中,提供了一站式的育种分析服务,加强了对大规模育种数据的管理和分析能力。
这些创新方法的提出,旨在利用AI和大数据技术彻底改变作物育种的方式,为提高作物产量和质量,保障粮食安全提供了新的解决方案。
图片
在植物育种中,预测和操纵复杂的多基因性状仍然是一个重大挑战,主要原因是当表型受到数十个或数百个基因的影响时,传统的基于SNP的方法存在局限性,尤其是GxE的影响。TraitSeq利用为转录组分析和多组学整合量身定制的机器学习技术,开发了创新的方法来应对这一挑战。
该方法利用转录组数据以及其他组学类型来预测复杂表型,通过将这些数据类型编码成化基因-基因和跨组学相互作用的新型格式,促进了通过先进的自动化特征工程利用这些关系,提高了预测准确性。Joshua博士介绍其方法与金标准方法的比较概述,并展示了几个案例研究,涉及种子油成分、氮利用效率和产量性状等多种性状,涵盖了包括油菜、小麦和水稻在内的关键农作物。以甘蓝型油菜研究为例。该方法能够使用在不同年份和验中采样的叶片生成的RNA-seq,准确预测大部分种子油成分的含量。模型适用于遗传上不同的未知品系,且不会过拟合。通过结合RNA-seq和SNP数据可以对模型进行改进,但由于环境变化以及组织选择的限制,RNA-seq增加的价值有限。某些性状可能更适合分类而不是回归。例如,是否一个品系具有高水平或低水平的芥酸或二十碳烯酸可以非常准确地预测。这些技术的意义重大,提供了新的检测方法和工具,这些可以大大化育种和农化产业的选择过程。
图片
在农业育种领域,大量的专业知识和信息是以文本形式存在的。例如,新培育的水稻品种通常会通过学术文章的形式对外公布。据估计,目前已有约5万个水稻品种的信息被记录和发布,这些信息散布在数百万篇的学术论文、技术书籍以及网络资源中。来自不同渠道的丰富育种科研文献、技术资料和网络信息,形成了构建育种大语言模型的基础。
杨帆老师介绍了国内首个种业大语言模型“丰登” (SeedLLM)。这是一个开创性的大型语言模型 (LLM),专为作物育种应用量身定制,比较初专注于水稻品种。该模型基于上海人工智能验室开发的书生・浦语2.0(InternLM2 Base),通过前沿的人工智能和大数据分析,全面整合育种文本数据,生成基础模型,再通过海量行业知识进行有监督的微调后,得到SeedLLM chatbot。SeedLLM主要解决四方面的育种任务:1)血统追踪:探索每个水稻品种的育种历史;2)性状记录查询:搜索性状/表型数据(产量,抗病性);3)管理指导:根据文献获取种植特定水稻品种的建议;4)历史种植查询:发现水稻品种成功种植的区域。为了评估其性能,SeedLLM用一组精心设计的水稻育种问题进行了测试。这些回答由不同专家和学生参与审查。与领先的模型 Anthropic Claude3 和 OpenAI GPT-4 相比,SeedLLM 表现出卓越的性能,在准确性、稳定性和推理能力方面表现出色。专家评估强调,SeedLLM的表现明显于农学本科生,得分高出4.87倍,突显了其作为推进作物育种知识的变革性工具的潜力。
图片
育种技术的速发展和数据积累催生了育种管理系统,促进了利用信息技术收集和利用大量育种相关数据。一个现代育种项目每年可以累积十亿条数据,为AI育种提供了重要基础。
百奥云团队开发了一个灵活的数字化智能育种平台(BAISeeds,Biotech & AI Seeds),以便于育种的轻松数据管理、整合、分析和AI建模。BAISeeds包含六个子系统,包括种质管理系统(GMS)、繁育管理系统(NMS)、百奥E采(eCai)用于田间数据收集、表型数据系统(PDS)、基因型大数据系统(GBDS)和全基因组选择系统(GWS)。每个系统都设计来管理育种项目中的不同工作流程,多组学数据在不同系统间流动,也可以单独部署运行。GWS系统集成了几种常见的基因组预测算法,如GBLUP、RRBLUP、BayesA/B/Cpai、RF、SVM和DNNGP(深度神经网络),以生成育种预测模型。此外,百奥云采用了一种基因组选择集成学习新策略,可结合不同模型势进行育种选择。BAISeeds提供了用户友好的界面和API,允许轻松的数据整合和操作,并且可开放式接入学术界的新算法。该平台已在包括隆平巴西和大北农在内的大型种子公司和研究机构部署,并正在加速玉米、水稻、大豆、油菜和几种水产物种的育种进程。
此外,王冰冰博士还介绍了大数据产品,旨在解决用户海量育种数据上、中、下游的存储、管理、计算和分析等痛点。基于多云弹性计算的基础设施工具基因云算(GenoCompute)可对原始测序数据进行速计算,获得基因组拼接序列或变异信息;基于大数据湖仓一体架构的基因组数据湖工具(GenoLake)能够现大规模群体基因组信息的即席交互式查询和分析工作,从海量信息中提取关键知识;BreedStat作为育种统计分析引擎,为田间试验设计和育种数据统计提供高效批式处理。
图片
现代植物育种是一门预测科学。基因组预测已被证明是一种非常有效的育种技术,在不同作物的育种计划中得到施。基因组选择(GS)究竟如何帮助育种家先正达集团()的姚骥博士给出答案。
在先正达集团,基因组预测已广泛应用于玉米育种流程,以提高种情景的效率:杂交选配、后代选择和杂交种预测。在育种起始阶段,可训练基因组选择模型,模拟分离群体以及预测遗传潜力;在早期阶段测试,可通过GS跳过该阶段来缩短育种周期;在晚期阶段测试,可预测杂交组合表现来评价和选择杂交种。总体而言,通过基因组预测,先正达玉米流程现了更高的遗传增益,减少了田间测试,整体种质循环时间比之前了25%。随着玉米基因组预测的成功示范,先正达的其他几种作物也将采用这一强大的育种工具。比较后,姚博士也提出了未来GS面临的一些挑战,比如精确且高通量的表型鉴定、需要降低基因分型成本、组学数据整合、预测算法开发和大数据的计算能力等。
图片
在水稻育种流程中,通常通过将一个或几个不育系与大量恢复系进行测交,来开发和鉴定新的杂交种。然而,由于这一过程需要大量的劳动力和土地资源,杂交育种中的表型鉴定成本往往非常高昂。在际操作中,只有少数杂交种有机会在田间接受评估,而许多潜在的异杂交种可能因资源限制而未能得到测试,这大大降低了成功培育出秀杂交品种的可能性。基因组选择(GS)利用全基因组的标记来预测杂交种的目标表型值,从而显著提高了预测的准确性和效率,为克服这些限制提供了新的途径。
徐建老师介绍了他们近期对杂交水稻的基因组预测研究。预测模型的开发基于田间测量得到的表型数据以及从其亲本中推断出的基因型信息。具体来说,选取了一组特定的亲本,利用它们所生产的新杂交种作为测试群体,通过之前在训练群体中学习到的模型来预测其表型。通过对比种不同的预测模型:RRBLUP、LightGBM和DNNGP,用以评估它们在预测水稻杂交种性能方面的效果。研究首先是收集101个两系不育系和195个恢复系的1040个杂交稻作为训练样本,并结合2022年在杭州和萍乡两地的田间调查得到的表型数据,以及从亲本重测序中筛选出的7882个高质量SNP的基因型信息,来调整和化模型参数。然后,利用调整后的模型预测了390个杂交种的产量表现,这些杂交种是从与训练样本相同的亲本中产生的56930个杂交种中挑选出来的,且表现在两个极端,在2023年的杭州和萍乡进行了地产量测试。比较终,基于2023年在两个地点观测到的表型数据,从个模型的预测结果中,每个环境挑选了前10个表现比较佳的杂交种。这些杂交种在经过多环境表型性能的验证后,被进一步筛选出来,用于参加或省级的区域产量测试,以期选出具有应用潜力的良杂交种。
徐老师比较后讨论了杂交稻产量预测准确性较低的可能原因:一是G×E互作效应;二是数量性状复杂的遗传基础;是表型数据的质量。并提出了提高预测准确性的一个可能方法:使用两个极端个体作为训练群体,从而比较小化那些中等个体产生的不可靠数据对预测准确性的影响。
正如研讨会组织者李慧慧研究员开场强调,人工智能正在给众多领域带来变革,育种领域也不例外。从传统的机器学习技术到先进的神经网络、大型人工智能模型等。人工智能极大地改进了基因组选择过程。
此次研讨会不仅聚集了育种领域的专家,还吸引了多个相关领域的学者和从业者,共同探讨了人工智能在育种领域的应用与前景。百奥云作为智能育种领域的先行者,一直致力于将先进的AI与大数据分析技术应用与动植物育种中,未来百奥云将继续深化研究与践,在智能育种的道路上不懈努力,精耕细作,力争取得更大的突破与成果,助力AI与大数据为动植物育种领域的发展注入更多新活力。
不仅在数据方面表现良好,表型分析系统在市场份额上也是逐步拓进,让更多的人受益。百奥云立足于育种的前沿领域,针对我国商业化育种初现雏形、育种数据将快速增长的现状,提出了育种"数字化-信息化-智能化"的发展路线。http://www.biobin.com.cn/https://omo-oss-image.thefastimg.com/portal-saas/new2022071116394315768/cms/image/4583d90b-4d29-4ca3-8cce-9cc2e627ffe5.png_640xaf.png
页:
[1]