GPB:王向峰/宋述慧合作开发水稻基因组育种数据库SR4R
水稻是最重要的两大粮食作物之一。水稻多组学数据资源IC4R(http://ic4r.org/)的建立为水稻基因组育种提供了大量基于单核苷酸多态性(SNP)分子标记。然而,这些原始的SNP标记包含大量的冗余位点和缺失信息,并不能直接应用于水稻群体研究、农艺性状的基因鉴定、全基因组选择辅助育种模型和品种保护指纹图谱开发等目的。
中国农业大学王向峰教授团队联合中科院基因组研究所/国家基因组科学数据中心宋述慧副研究员团队开发了SR4R数据库(http://sr4r.ic4r.org/),通过构建不同类型的SNP集,充分满足水稻基因组育种研究中不同应用场景的需要。该项研究成果于2020年发表在Genomics, Proteomics & Bioinformatics杂志上。
文章基于IC4R的子库RVD(http://variation.ic4r.org/)中5152份水稻材料的~18M 原始SNP基因型数据,通过层层过滤,以不同条件筛选到不同大小的SNP集,并对每个SNP集进行系统评估,证实每个SNP数据集可应用于水稻基因组育种的不同场景和目的。最后构建了SR4R数据库,并提供web分析工具、分析脚本及数据集下载。4个SNP数据集及其用途如下:
hapmapSNPs可用于GWAS分析;
tagSNPs可用于群体遗传研究和全基因组选择育种;
fixedSNPs可用于种子纯度和遗传背景分析;
barcodeSNPs可用于品种指纹图谱构建和品种鉴定。
图1. 四个SNP数据集的生成
SR4R数据库地址
主页:http://sr4r.ic4r.org/
通过机器学习模型进行水稻亚群分类的在线工具:http://sr4r.ic4r.org/onlineTools/ml
数据预处理、群体多样性分析和品种分类与鉴定的脚本:http://sr4r.ic4r.org/tools/bgp
基因型及注释文件、脚本工具等下载:http://sr4r.ic4r.org/download
图2. SR4R数据库主页
合作研究团队简介
王向峰教授实验室(http://ibreeding.org/)研究方向为植物基因组学和生物信息学、作物分子育种决策模型及应用工具,包括作物全基因组选择辅助育种模型、基因组优化设计育种模型、大数据驱动的育种智能决策模型、作物多组学数据关联分析算法、大规模种质资源基因挖掘工具、作物杂种优势遗传互作机制和适应性机制等方面的研究。近两年相关研究成果在Genome Biology(2021), Genomics, Proteomics & Bioinformatics(2020),Theoretical and Applied Genetics(2020)等国际知名期刊发表。
宋述慧副研究员团队主要从事基因组学和生物信息学研究,目前负责国家基因组科学数据中心建设。国家基因组科学数据中心自成立以来,已建成包含原始组学数据归档库、基因组序列归档库、基因组变异库、基因表达库、表观组数据库等一系列多维组学数据库和知识库,支撑国内外用户的公益性科学研究与产业创新发展。2018至2020年连续三年被国际同行称为“全球主要生物数据中心”。
文章编译来源:Jun Yan, Dong Zou, Chen Li, Zhang Zhang, Shuhui Song, Xiangfeng Wang, SR4R: An Integrative SNP Resource for Genomic Breeding and Population Research in Rice, Genomics, Proteomics & Bioinformatics, Volume 18, Issue 2, 2020, Pages 173-185, ISSN 1672-0229, https://doi.org/10.1016/j.gpb.2020.03.002. 引用请参考以上格式。英文全文详见(https://www.sciencedirect.com/science/article/pii/S1672022920300619).
中国农业大学农学院博士后闫军和中科院基因组研究所高级工程师邹东为论文共同第一作者,中国农业大学农学院王向峰教授和中科院基因组研究所宋述慧副研究员为文章的共同通讯作者,广东省农科院水稻研究所李晨教授和中科院基因组研究所章张研究员也参与了该项研究工作。该研究得到了国家自然科学基金(No. 31871706)、广东省农业厅项目(No. 201836)、广东省科技计划项目(No. 2019B030316006)和中国科学院青年创新促进协会项目(No. 2017141)的资助。