> For the complete documentation index, see [llms.txt](https://compgenomr.kaopubear.top/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://compgenomr.kaopubear.top/01/01-1.md).

# 1.1 基因 DNA 和中心法则

本书一个将会反复出现的核心概念是「基因」。在解释基因之前我们需要先介绍其它几个对理解「基因」很重要的概念。人体由数十亿个细胞组成，这些细胞各自有不同功能。例如，在肝脏中一些细胞能够产生分解毒素的酶，在心脏中有专门的肌肉细胞使心脏跳动。这些不同种类的细胞都来自一个单细胞胚胎，所有制造不同种类细胞的指令都包含在这个细胞中，随着细胞每一次分裂指令都会被传送到新的细胞中。这些指令可以编成 DNA 分子，一种由反复出现的核苷酸组成的聚合物。DNA 分子中的四种核苷酸，腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶（A、C、G 和 T）以特定的序列储存着生命信息，DNA 两个互补链以双螺旋的形式组织起来。

## 1.1.1 什么是基因组

一个生物体的完整 DNA 序列包含了所有遗传信息，称为基因组。基因组包含了构建和维持生物体的所有信息，其有不同的大小和结构。我们的基因组不仅仅是一段裸露的 DNA，在真核细胞中，DNA 被蛋白质（组蛋白）包裹形成核小体这样的高级结构，组成染色质和染色体（见图 1.1）。

![](https://kaopubear-1254299507.cos.ap-shanghai.myqcloud.com/picgo/20200711214635.png)

图 1.1: 动物的染色体结构

不同的生物体有不同数量的染色体，在某些物种（如大多数原核生物）中，DNA 是以环状形式储存的。不同物种的基因组大小和染色体数量也是不同，人类的基因组有 46 条染色体，超过 30 亿个碱基对，而小麦的基因组有 42 条染色体，170 亿个碱基对。生物的基因组序列可以通过测序技术获得，通过测序获得的基因组中 DNA 序列片段称为读数(read)。利用彼此重叠的读数将最原始的 DNA 片段拼接成较大的片段，从而获得更长的基因组序列。最新的测序技术使基因组测序变得更便宜且用时更短，输出更多、更长和更准确的读数。

1999-2000 年第一个人类基因组的预估成本是 3 亿美元，如今一个高质量的人类基因组用 1500 美元就可以获得。由于成本下降，研究人员和临床医生可以产生更多的数据。这推动了数据存储成本的上升，也推动了对分析基因组数据人才的需求。当然，这也是写这本书的动机之一。

## 1.1.2 什么是基因

在基因组中，有一些特定区域包含着为遗传信息物理产物编码的精确信息，基因组中含有这种信息的区域就是我们所谓的「基因」。不过基因的准确定义仍在发展之中，根据经典的分子生物学教材，基因是对应于单个蛋白质或单个催化和结构 RNA 分子的一段 DNA 序列（Alberts 等，2002）。关于基因的一个现代定义是：包括编码一个功能转录本所必需的所有序列元素的区域 (Eilbeck 等人，2005)。不过无论定义如何变化，大家认同基因是所有生物体遗传的基本单位。

所有细胞在大多数时候都在以相同方式使用它们的遗传信息；DNA 的复制则是为了将信息传递给新的细胞。基因被激活后会在细胞核中（真核生物）转录成信使 RNA（mRNA），随后 mRNA（如果基因是蛋白质编码的）在细胞质中被翻译成蛋白质。这实质上是遗传信息在 DNA、RNA 和蛋白质之间的传递过程，该过程也被称为分子生物学的「中心法则」（总结见图 1.2）。蛋白质是生命的基本元素。所有活细胞的生长、修复、功能和结构都依赖于它们。

这就是为什么基因是基因组生物学的核心概念，因为一个基因可以编码蛋白质和其他功能分子的信息。基因如何被控制和激活决定了生物体的一切，从细胞特征到免疫反应，细胞发育和对某些刺激的行为都是由基因和其编码的功能分子活性所决定的。肝细胞之所以成为肝细胞，就是因为某些基因被激活并产生对应的功能产物，从而帮助肝细胞完成任务。

![](https://kaopubear-1254299507.cos.ap-shanghai.myqcloud.com/picgo/20200711214644.png)

图 1.2：中心法则 复制转录翻译

## 1.1.3 基因如何被控制？转录和转录后调控

为了回答这个问题，我们必须对「中心法则」引入的转录概念进行深入挖掘。信息传递过程中的第一步--DNA 到 RNA--称为转录，由 RNA 聚合酶完成。RNA 聚合酶依赖的转录起始是因为 DNA 序列中一个特定区域--核心启动子的存在而实现。核心启动子是 DNA 序列中可以促进转录的区域，位于转录起始位点上游。在真核生物中，被称为通用转录因子的蛋白质能识别并与核心启动子结合进而形成一个转录起始前复合物。RNA 聚合酶识别这些复合物并启动 RNA 合成，聚合酶沿着模板 DNA 前进并产生 RNA 拷贝(Hager, McNally, and Misteli 2009)。mRNA 产生后通常由剪接体进行剪接，被称为「内含子」的部分被移除，被称为「外显子」的部分则被留下。随后剩余的 mRNA 被翻译成蛋白质，最终成熟转录本包括哪些外显子也是可以被调控的，这使得蛋白质具有结构和功能的多样性（见图 1.3）。

![](https://kaopubear-1254299507.cos.ap-shanghai.myqcloud.com/picgo/20200711214654.png)

图 1.3：转录后可以通过剪切产生不同的转录本，进而产生不同的蛋白质亚型，因为产生蛋白质所需的信息在转录本中编码。同一基因的不同转录本可以产生不同的蛋白质亚型。

与蛋白质编码基因相反，非编码 RNA(ncRNAs)基因在转录后经过加工即发挥功能，不进入翻译过程，因此被称为非编码 RNA，某些 ncRNA 也可以进行剪切但仍不会翻译。 ncRNA 和其他 RNA 一般可以分子内形成互补碱基，使它们具有额外的复杂性。这种基于自身互补的结构称为 RNA 二级结构，通常是许多 ncRNA 发挥功能所必需的。

综上所述，从转录起始到产生功能产物的一系列过程称为基因表达，而基因表达的量化和调控则是基因组生物学的基础研究内容。

## 1.1.4 基因是什么样的

在进入下一话题前，我们最好先了解一下基因是如何被可视化的。作为一个对计算基因组学感兴趣的人，你会经常在电脑屏幕上看到一个基因，而它在电脑上的呈现方式就等同于你听到「基因」这个词时头脑中想到样子。在线数据库中基因会以字母序列的形式出现，或者用一系列彼此链接的方框来展示外显子和内含子的结构，其中也可能包括了转录的方向（见图 1.4）。当然，你遇到更多的是后者，所以当你想到基因时你的脑海中很可能会出现后者的样子。

我们提到 DNA 有两条链，基因其实可以位于其中任何一条链上，转录的方向也取决于此。在下图你可以看到内含子上的箭头（连接方框的线）表示基因的方向。

![](https://kaopubear-1254299507.cos.ap-shanghai.myqcloud.com/picgo/20200711214707.png)

图 1.4: A) UCSC 浏览器中基因的表示方式。方框表示外显子，线表示内含子。B) NCBI GenBank 数据库中显示的 FATE1 基因部分序列。

## 参考文献

Alberts, B., D. Bray, J. Lewis, M. Raff, K. Roberts, and J.D. Watson. 2002. *Molecular Biology of the Cell*. 4th ed. Garland.

Eilbeck, Karen, Suzanna E Lewis, Christopher J Mungall, Mark Yandell, Lincoln Stein, Richard Durbin, and Michael Ashburner. 2005. “The Sequence Ontology: A Tool for the Unification of Genome Annotations.” *Genome Biology* 6 (5): R44.

Hager, Gordon L, James G McNally, and Tom Misteli. 2009. “Transcription Dynamics.” *Molecular Cell* 35 (6): 741–53.