生命基线凌之浩:基因检测与基于AWS的数据分析

面向个人(2C)的基因检测市场因为种种乱象,背上了许多争议,由于人们普遍缺乏对基因检测的认识,所以,价格上的各种怪象,还有市场宣传上的种种怪异夸大效果的说法,还有甚者同一个人在不同基因检测平台上得出的报告结果相差甚远,基因检测准不准也成了问题。

这些问题让消费者迷惑,知乎上有许多专业人士的批判和科普解读,这种现象长期下来不利于行业的发展,让本来能造福人类的基因检测技术面临尴尬境遇,解决这一问题单靠自律和市场是不够的。

2019年3月上旬,从成都生命基线科技COO 凌之浩的介绍中,笔者了解到许多基因检测行业的真相,也看到了基因检测商业化实践中的新的尝试,而亚马逊AWS云计算服务对于生命基线的业务发展起到了重要作用。

基因检测飞入寻常百姓家

生命基线创立的JanGene(简基)品牌,是把2C的基因检测做成了2B(面向企业)业务,面向企业,为企业员工提供健康风控服务,侧重点是做疾病预防,有相对明确的检测指标,并结合体检的数据提供有针对性的预防手段,与一些泛娱乐化的互联网基因检测服务有很大区别。

谈到基因检测,许多人的第一直观感受就是高大上,九十年代开始,全球六个国家的科学家一起协作“人类基因组计划”,这是一项浩大的工程,整个项目花费13年超过30亿美金。而现在一个全基因组测序,只需要数天不到一千美金就可以完成,这就是基因测序领域常说的超摩尔定律,,而这一切源于基因检测整体技术的进步所致。成本和速度都发生了天翻地覆的变化,这也让原本高大上的基因检测服务飞向了寻常百姓家。

常见的基因检测服务主要分两个环节,一个是采集基因的数据,一个是解析这些数据反应的结果。


基因检测准不准?测序和分析都很重要

第一环节,凌之浩表示,整体市场上的基因数据采集过程都有非常标准化的流程和检测设备,数据的准确程度其实非常高。

第二个环节就是要根据现有的数据进行解析,给出分析报告,说明数据背后反映的意义。而大多数疾病的发生并不完全由基因决定,后天生活环境也很重要。

基因检测与基于AWS云计算的数据分析

凌之浩介绍说,按照目前的测序技术,要相对完整的覆盖一个人的全基因组序列,大约需要产出约90G的原始数据。而基于这些数据的研发过程,在存储和计算都需要强大的IT支持。

同一基因位点的变异,在不同人群中的影响可能完全不同,基因信息的解析是否适合服务的人群是一家基因公司最核心的竞争力。为了提升解析的精准度,需要做许多原创性的研究,从凌之浩的介绍中了解到,生命基线科技已与四川大学华西医院联合申报了原创性的研发项目,而类似的这种创新合作需要长期坚持才能有所成效。生命基线是在做事业,而不是急于追求商业上的成功,在产品上,生命基线已经累计了许多知识产权。

除了直接面向企业提供健康风控服务外,生命基线科技的另一块业务叫做“基因帮”,致力解决科研人员在科研过程中各个环节的需求,提供基因测序及测序数据分析服务。科研人员在平台上提交需求,基因帮进行工程师匹配,双方取得联系,明确收费和交付时间。在这个过程中基因帮作为一个第三方平台,将对项目预付款、项目进度进行把控和监管。。

在陆陆续续使用了超算和一些云计算平台后,基因帮最终在半年前选择了AWS。对于选择亚马逊AWS的原因,凌之浩说,一方面是因为成本,一方面是服务。在使用AWS的过程中,公司发现AWS的服务非常好,24小时有工程师可以解决问题,而且AWS提供的API接口等工具非常便于开发者去学或者用,上手很快,作为一家创业公司,AWS的性价比也是他们非常看重的

通过数百台Amazon EC2 Spot实例,基因帮获得所需要的计算能力,使用命令行工具和丰富的API种类,配合EC2,以及启动脚本来进行快速的部署,利用AWS S3存储桶来储存样本数据和最终结果。基因帮可根据业务需求自动的进行弹性扩展所需要的实例,可以在 Amazon EC2 Spot实例请求中指定出价,从而选择愿意为实例支付的每小时价格,这一模式非常适合测试和开发环境。

现在几分钟就可以部署上百台服务器实现计算分析任务,并在计算完成后自动关闭实例,极大的降低了运维的压力。

未来发展

生命基线的两大业务当中,简基作为新兴业务在定位和内容上都不同于市场常见的2C的基因检测公司,对企业员工提供的一系列服务能让企业为员工选择更有针对性的体检项目,让员工看到体检的价值,这点理应受到企业的欢迎。

面向未来,生命基线给自己的定位是技术服务商,为体检机构、社区医院等机构提供高质量的基因数据分析服务,帮助这些机构为用户提供更高质量的服务。