联合科研团队:2019新型冠状病毒所有关键蛋白质同源模建结果和方法公布

面对当前新型冠状病毒(2019-nCoV)感染肺炎不断扩散的严峻形势,华为云EI医疗智能体团队联合华中科技大学同济医学院基础医学院李岩教授,西安交通大学第一附属医院刘冰教授,中科院北京基因组研究所韩大力研究员,华中科技大学同济医学院附属武汉儿童医院柯尊辉大夫组成联合攻关团队,针对新型冠状病毒(2019-nCoV)的多个靶标蛋白进行了超大规模计算机辅助药物筛选工作。筛选出五种可能对2019新型冠状病毒(2019-nCoV)有效的抗病毒药物(新闻链接:https://www.huaweicloud.com/news/2020/20200204113312294.html)。现将联合科研团队对2019新型冠状病毒所有关键蛋白质同源模建结果和方法公布。

背景介绍
蛋白质同源建模

蛋白质同源建模是指当未知结构的蛋白和已知结构的蛋白质在一级序列上比较相似的时候,可以把已知结构的蛋白作为模板,通过计算机的模拟和计算,基于未知结构蛋白的一级序列预测其三维空间结构。

同源建模基于两个假设:1. 蛋白质的结构由其氨基酸序列唯一决定,如果已经知道一级序列,在理论上就可以获取其二级结构以及三级结构。2. 蛋白质的三级结构在进化中相比于其一级序列更加保守。如果两个蛋白质的氨基酸序列有50%相同,那么约有90%的a-碳原子的位置偏差不超过3 Å。

以SARS-CoV蛋白质结构作为模板构建2019-nCoV蛋白质三维结构

2019-nCoV和SARS-CoV非常近似,氨基酸的序列一致性达到了76.47%。同时SARS-COV的蛋白质的三维结构基本上已经被解析出来,所以我们可通过这些已知的蛋白质三维结构作为模板,构建2019-nCoV的蛋白质结构,并进而指导药物研发。

数据和方法

2019-nCoV蛋白质一级序列提取

2019-nCoV的基因组序列参考NCBI上已公开的序列:NC_045512.2。由于基因组注释数据的缺失,无法直接获取其所有功能蛋白质的一级序列。因此我们将SARS-CoV的各个蛋白对应的序列比对到2019-nCoV基因组上,选择best match的比对区域,作为该蛋白对应的在2019-nCoV的一级序列。通过这种方法,我们获得了2019-nCoV的共计20个蛋白质的序列,其中包含非结构蛋白16个(NSP1-16),结构蛋白4个(S,M,N,E)。

同源建模

Swiss model用于同源建模

Swiss-model是自动化蛋白质同源建模工具,使用的过程中需要用户输入目的蛋白的序列,也可以同时指定参考蛋白质模板,在没有指定模板的情况下,系统会自动选择匹配度最高的模板。

我们在通过Swiss-model做同源建模的步骤和结果如下:

Step 1: 输入蛋白质序列

在swiss-model主页 (https://swissmodel.expasy.org/) 点击“Start modeling”并上传蛋白质的fasta序列。点击“Search For Templates”,开始搜索最模板蛋白。

联合科研团队:2019新型冠状病毒所有关键蛋白质同源模建结果和方法公布

Step 2: 选择合适的模板蛋白

Swiss-model会给出通过一级序列匹配到的模板蛋白,以及每一个模板蛋白的匹配度和模板蛋白的参数,通过以下标准,我们选择最优的模板蛋白用于同源建模:

1. 目的蛋白和模板蛋白一级序列一致性要求:identity>30%;优先选择identity最高的模板蛋白;

2. 优先选择SARS-COV的模板蛋白用于同源建模;

3. 当identity比较相似的时候,优先选择通过高精度X-ray方法构建晶体结构的模板;如果没有X-ray,需要点进PDB看蛋白结构分辨率,优先选分辨率高的;

4. 如果Oligo State存在有Homo和heter,就两个都要选择。

联合科研团队:2019新型冠状病毒所有关键蛋白质同源模建结果和方法公布

Step 3:同源建模

选定好最优的模板蛋白之后,点击页面的“Build Models”,即可自动的做同源建模;对于序列比较短的蛋白(<100 残基),该过程通常花费几分钟;对于序列比较长的蛋白(>1000 残基),该过程通常花费约二十分钟左右; 建模完成后,可直接下载模板蛋白和目的蛋白的三维空间结构用于后续的分析。

联合科研团队:2019新型冠状病毒所有关键蛋白质同源模建结果和方法公布

Step 4:分子动力学模拟

同源建模得到的蛋白质结构可以用于分子动力学(Molecular Dynamics)模拟。分子动力学模拟可以通过GROMACS等工具完成,这一步骤通常比较耗时。华为云医疗智能体平台已经提供加速版的GROMACS,加速后的GROMACS消耗的时间仅有传统版本的1/6。

联合科研团队:2019新型冠状病毒所有关键蛋白质同源模建结果和方法公布

结果

建模结果统计

针对2019-nCOV的20个蛋白质一级序列,有15个蛋白和SARS-COV的蛋白质有比较高的同源性,identity>70%;通过蛋白质三维工具可视化之后,也可以看到这些蛋白质的三维空间构象和模板蛋白比较相似;

其中有一个蛋白质,NSP4,在SARS-COV中没有很好的同源蛋白,是以小鼠肝炎病毒的A59进行建模,其identity>60%;

另外有四个蛋白质的同源建模效果不是很好,其中NSP2,NSP6和M均没有很好的目的模板,匹配度最好的蛋白质序列的identity < 30%;所以建模的结果不太理想;同时NSP11蛋白质的长度只有11个残基,长度太短,不满足建模要求;

目的蛋白的长度,模板蛋白的选择和同源建模的参数整理在以下的表格中供参考:

联合科研团队:2019新型冠状病毒所有关键蛋白质同源模建结果和方法公布

数据和可视化

模板蛋白和同源建模得到的2019-nCoV蛋白质三维结构都以PDB格式进行保存,为了方便用户查阅,华为云医疗智能体平台的Notebook工具已经内置了可视化所需要的插件和工具,用户可以交互式拖动和展示感兴趣的蛋白质三维结构。

联合科研团队:2019新型冠状病毒所有关键蛋白质同源模建结果和方法公布

以上涉及到的数据、算法和工具都已经集成在华为云医疗智能体平台,基于华为云AI昇腾集群服务的强大算力,用户可省时省力地完成端到端的分析。