Biopython - 基因组分析

基因组是完整的 DNA 集,包括其所有基因。 基因组分析是指研究单个基因及其在遗传中的作用。


基因组结构图

基因组图将遗传信息表示为图表。 Biopython 使用 Bio.Graphics.GenomeDiagram 模块来表示 GenomeDiagram。 GenomeDiagram 模块需要安装 ReportLab。

创建图表的步骤

创建图表的过程通常遵循以下简单模式 −

  • 为每组要显示的独立特征创建一个 FeatureSet,并向它们添加 Bio.SeqFeature 对象。

  • 为每个要显示的图形创建一个 GraphSet,并向它们添加图形数据。

  • 为图表上的每个轨道创建一个轨道,并将图形集和特征集添加到您需要的轨道。

  • 创建图表,并向其中添加轨道。

  • 告诉图表绘制图像。

  • 将图像写入文件。

让我们以输入GenBank文件为例 −

https://raw.githubusercontent.com/biopython/biopython/master/Doc/examples/ls_orchid.gbk 从 SeqRecord 对象中读取记录,最后绘制基因组图。 下面解释一下,

我们将首先导入所有模块,如下所示 −

>>> from reportlab.lib import colors 
>>> from reportlab.lib.units import cm 
>>> from Bio.Graphics import GenomeDiagram

现在导入SeqIO模块读取数据 −

>>> from Bio import SeqIO 
record = SeqIO.read("example.gb", "genbank")

此处记录从genbank文件中读取序列

现在,创建一个空图来添加轨道和功能集 −

>>> diagram = GenomeDiagram.Diagram(
   "Yersinia pestis biovar Microtus plasmid pPCP1") 
>>> track = diagram.new_track(1, name="Annotated Features") 
>>> feature = track.new_set()

现在,我们可以使用从绿色到灰色的替代颜色应用颜色主题更改,如下定义 −

>>> for feature in record.features: 
>>>    if feature.type != "gene": 
>>>       continue 
>>>    if len(feature) % 2 == 0: 
>>>       color = colors.blue 
>>>    else: 
>>>       color = colors.red 
>>> 
>>>    feature.add_feature(feature, color=color, label=True)

现在您可以在屏幕上看到以下响应 −

<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d3dc90> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d3dfd0> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x1007627d0> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57290> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57050> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57390> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57590> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57410> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d57490> 
<Bio.Graphics.GenomeDiagram._Feature.Feature object at 0x105d574d0>

让我们为上面的输入记录画一个图 −

>>> diagram.draw(
   format = "linear", orientation = "landscape", pagesize = 'A4', 
   ... fragments = 4, start = 0, end = len(record)) 
>>> diagram.write("orchid.pdf", "PDF") 
>>> diagram.write("orchid.eps", "EPS") 
>>> diagram.write("orchid.svg", "SVG") 
>>> diagram.write("orchid.png", "PNG")

执行上述命令后,您可以在您的 Biopython 目录中看到以下图像。

** Result **
genome.png

创建图表

您还可以通过进行以下更改以圆形格式绘制图像 −

>>> diagram.draw(
   format = "circular", circular = True, pagesize = (20*cm,20*cm), 
   ... start = 0, end = len(record), circle_core = 0.7) 
>>> diagram.write("circular.pdf", "PDF")

染色体概述

DNA 分子被包装成称为染色体的线状结构。 每条染色体都由 DNA 组成,DNA 围绕支持其结构的称为组蛋白的蛋白质紧密盘绕多次。

当细胞不分裂时,染色体在细胞核中是不可见的——即使在显微镜下也是如此。 然而,构成染色体的 DNA 在细胞分裂过程中变得更加紧密,然后在显微镜下可见。

在人类中,每个细胞通常包含 23 对染色体,总共有 46 对。这些染色体中有 22 对称为常染色体,在男性和女性中看起来都一样。 第 23 对性染色体在男性和女性之间存在差异。 女性有两份 X 染色体,而男性有一条 X 和一条 Y 染色体。