论坛风格切换切换到宽版
  • 2404阅读
  • 0回复

如何阅读人类基因序列和编造一个人 [复制链接]

上一主题 下一主题
 

只看楼主 倒序阅读 使用道具 楼主  发表于: 2022-01-24




如何阅读人类基因序列和编造一个人
Translated by Jingqi Gong
Reviewed by Rachel Li
接下来的一刻钟,我要带大家踏上一段旅程 这大概是全人类的终极梦想—— 解读生命的密码!

我的经历开始于很多很多年以前, 那时我遇到了第一台3D打印机。 3D打印真是个非常赞的概念 它需要三个要素: 少量的信息,一些原材料,再加上点能量

就能制造出以前从没存在过的任何东西。 当时我正在研究物理学 有天我回到家,突然意识到我家里就有台3D打印机

而且每人家里都有一台 就是我妈妈。

我妈妈用这三个要素: 少量的信息—— 来自我爸和我妈的共同投入 原材料和能量的共同来源——食物 历时几个月,制造出了我 而我以前从来没有存在过!

除了震惊的发现我妈其实是台3D打印机 我还立即被另一个部分吸引了 第一个要素,信息—— 到底需要多少信息 才能制造和组装一个人呢? 是要很多?还是很少? 要用多少个U盘去储存?

我最开始是学物理的, 我想如果把人看成是一个巨型的乐高玩具 小的乐高模块就像是原子—— 这里有氢原子,这边有碳原子,上面这有氮原子。 按照最初的这个设定 如果能够列出组成人类的所有原子 应该就能组装出一个人。 大致计算一下 得到的结果非常惊人。 所需要的原子的总数, 全部存到U盘里面——即便是组装一个小婴儿 用掉的U盘就能装满整个泰坦尼克号 再乘以2000倍... 这就是生命的奇迹。 现在你再看到一个孕妇 她正在组装你能见到的最大量的信息

不要谈大数据,不要谈以前听说过的数字 这就是现存的,最最大量的信息。

(掌声) 但是......

好在大自然比一个年轻的物理学家要聪明多了。 在四十亿年的进化过程中 这些信息被压缩在叫做DNA的小晶体当中。 在1950年代我们第一次知道了DNA 那时一位杰出的女科学家Rosalind Franklin 给DNA拍了张照 但我们花了超过40年的时间, 才最终能够从人类细胞中提取这种晶体, 展开来,第一次去阅读它。 这个遗传密码由简单的字母表组成, 四个字母,A,T,C和G (碱基)。 要组装一个人,需要30亿个字母。 30亿....30亿是多少? 光这么说大家可能都没概念, 我在想怎么表达才能让人更清楚, 这些遗传密码的数量到底有多庞大。 所以...我需要点帮助... 最合适来帮我介绍遗传密码的人, 就是第一位进行人类基因组测序的人, Craig Venter 博士。

我们欢迎Craig Venter博士到台上来—— (掌声) 不是他本人—— 但这是史上第一次,一个人的基因组 被一页一页,一个字母一个字母的打印在纸上—— 总共26万2千页,450千克, 从美国运到加拿大 感谢Bruno Bowden还有 Lulu.com—— 他们负责完成了这一切,一项壮举。

这些就是生命密码给人最直观的视觉感受。 现在我可以来玩点有趣的—— 从这里面挑一段来读一读。 我来找一本有意思的...比如这一本... 我放了书签在里面,这书太厚了... 给你们看一下,生命的密码长什么样子 成百上千...成千上万...上百万的字母... 它们当然都有意义。 让我来找一段特殊的 读给你们听...

"AAG, AAT, ATA"

你们可能觉得像是听天书, 但这段序列决定了Craig眼睛的颜色。 在看看另外一段... 这一段稍微复杂一些...

第14号染色体,书本编号132...

(笑声)

你们想象到了哦...

(笑声)

"ATT, CTT, GATT"

这个人很幸运, 因为如果他在这个位点上少了2个字母, 30亿中的2个... 他就会患上一种非常可怕的疾病—— 囊肿性纤维化(cystic fibrosis) 目前没有治疗的方法,这是绝症, 仅仅是2个字母的区别。

这是一部鸿篇巨著, 它帮助我理解,也能让你们看到 一件更加另人叹为观止的事。 我们中的每一个人, 是什么让我成为我,让你成为你... 大概只占这其中的500万... 只有半本书... 所有剩下的,我们完全一模一样。 500页,涵盖了你的生命奇迹; 余下的,我们全都一样。 讨论人与人差异的时候反思一下, 我们有这么多共通的东西。

现在我已经引起了你们的兴趣, 下一步就是: 怎么去读取这些信息? 怎么理解和运用它们? 不管你在组装宜家家居上有多在行... 这么长的说明书...基本是不可能完成的任务

2014年,两位著名的TED参加者 Peter Diamandis 和 Craig Venter 决定成立一个新公司 人类长寿公司(Human Longevity, Inc.)诞生了。 唯一的任务—— 竭尽全力,穷尽其学的研究这些书目 只为达到一个目的: 让个人化医疗成为现实。 怎么做才能提高人类健康水平 了解这些书目背后的秘密。

一个强大的团队,拥有40位数据分析人员 还有很多其他的人力支持 和他们一起工作十分愉快。 实际上工作流程不很复杂 我们用一种叫做机器学习的方法。 一方面,我们有几千个基因组; 另一边我们建立一个超大的人类信息数据库: 性状,3D扫描,核磁共振,所有能想到的 在这两个端点之间, 有神秘的翻译在进行。 我们在中间建了一个机器, 建好之后训练这台机器—— 实际上不只一台机器,而是很多台... 试图去理解基因组并把它翻译成性状。 有哪些字母——它们控制什么性状—— 这是普适的方法,可以用在所有问题上, 但用在基因组学上异常的复杂。 一点一点有了进展,我们再尝试更有挑战性的东西 最开始我们从常见的特征下手, 常见特征最容易因为它们太常见了, 每个人都有。

我们开始提出如下问题: 能预测身高吗? 能不能根据这些信息预测身高? 可以,在5厘米的误差范围以内。 BMI 主要跟生活习惯有关, 但我们仍然能预测得差不多,8千克上下的误差。 眼睛的颜色能不能预测? 可以,80%准确率。 皮肤颜色? 可以,80%准确。 年龄? 可以,因为很明显基因随着年龄产生变化。 DNA 会变短,缺失一些片段,插入另外一些片段 我们读取这些信号,然后建立模型。

现在来个有意思点的挑战: 我们能不能预测人的面孔? 这个略有点复杂, 因为有几百万个碱基都对人脸产生影响。 而且人脸并不是一个构造十分精准的物体。 所以必须要建立一整个单独的模块, 给机器去训练和学习人脸是什么, 再把这个模块压缩整合进去。 如果你对机器学习有点概念的话, 就能够想象这个挑战是有多大。

现在15年过去了——15年前我们读取第一条序列 ——今年10月,我们总算有了些进展, 当时还是很激动人心的。 这是我们的一个测试对象,一张人的脸—— 我们要对测试对象的面孔进行简化, 因为并不是所有的特征都是面孔的一部分—— 很多特点、缺陷和不对称是生活的痕迹。 把面孔调整对称之后,跟我们运算的结果比较。 现在给你们看,我们根据血液样本生成的预测。

(掌声)
等一下—— 你们的眼睛正在左右两边交替看, 大脑希望两幅图是一模一样的。 我其实想请大家反过来, 找找两幅图的不同点, 其实非常多。 性别提供最多的信息, 接下来是年龄,BMI(体质指数),种族; 再考虑更多因素会变得更加复杂。 但是这样的结果,即便有很多不同, 表示我们已经接近了, 正在逐渐靠得更近——而且这已经能够鼓舞人心了

这是另外一个测试对象, 这边是预测结果。 脸小了一点,完整的颅骨结构没预测到。 但至少像那么回事。 这是又一个测试对象, 这是预测结果。 这些面孔在训练机器的时候是没有用过的, 就是所谓的随机测试组。 并且你们不认识这些人,可能说服力不太够。 我们在学术期刊上发表了这些结果, 你们可以去读一下。

但既然我们在台上,Chris 给我出了个点子, 我可以挑战一下,尝试预测一个你们都认识的人。 这里有管血液——你们很难想象 我们为了带一管血液到这里花了多少工夫... 这支试管里的血液足够完成一次全基因组测序 只需要这么多。 完成了测序,下面我们一条条来看—— 我们综合了所有已知的信息—— 从血液测试的结果,我们预测这是一名男性, 被试是男性。 预测他身高1米76, 被试身高1米77。 预测他体重76kg,被试是82kg; 我们还预测了年龄,38岁 被试实际是35岁。 预测了眼睛的颜色,有点偏深了; 预测他的皮肤颜色, 基本上准确。 这是他的面孔...

现在到了揭晓的时刻: 被试对象是这个人。
(笑声)
我是有意拿自己做测试的, 我属于一个特别又特殊的种族, 南欧人,意大利人——从来都不符合模型预测。 而且这一种族在模型里是一个复杂的边界情况。 但还有另一个重点—— 最常用的来辨识人的方法, 不是由基因组编译的。 是人们的自由意志——我想让自己看起来怎么样, 虽然我的发型不是我自己决定的,但胡子是的。 下面我们来看一下—— 单纯的用photoshop,不用建模—— 把胡子加上去。 是不是立即觉得变得很相像了。

那么,我们为什么要研究这些? 当然不是为了预测身高, 或者是根据血液样本得到一张美照; 我们研究是因为同样的技术和手段—— 对基因组的机器学习, 能帮助我们了解人类自身, 你的身体怎么运作,身体如何老化, 疾病是如何产生的, 癌症是怎么出现和恶化的; 药物如何起作用—— 药物是不是能够对你有效。

这是一个巨大的挑战, 而且是一个全球的科学家都面临的挑战 ——个性化医疗。 从只能借助统计学方法—— 每个人都只是沧海一粟—— 到能够实现有针对性的治疗, 通过解码这些基因信息, 我们能够彻底了解每一个人。 但这是一项异常复杂的挑战, 因为到目前为止在这么庞大的基因组信息中, 我们大概只了解2%: 175本书里的4本...

当然这不是我今天演讲的主题, 因为我们会进步,会了解更多—— 有很多顶尖的人才在从事这项工作。 预测能力会提升,模型会更准确。 随着了解的逐渐深入, 我们需要做的决定会越来越多, 而且是一些从前没有想象过的决定—— 关于生,关于死,关于子孙后代... 所以我们在此的讨论,涉及生命最本质的东西, 这些改变不只是在科学和技术层面。 我们必须要有全球性的对话, 必须要为全人类的未来设想。 我们需要和创新人才、艺术家、哲学家交流, 还需要政治家的参与。 每个人都身在其中,因为这关乎人类的未来。 不需要惊慌—— 但必须了解我们现在做出的每一项决定, 都会彻底改变历史。

谢谢。



(持久的掌声)


转自 TED https://www.ted.com/talks/riccardo_sabatini_how_to_read_the_genome_and_build_a_human_being?referrer=playlist-how_does_dna_work#t-370414
快速回复
限100 字节
批量上传需要先选择文件,再选择上传
 
上一个 下一个