各位老铁们,大家好,今天由我来为大家分享深入解析:基因测序的基本原理及应用,以及的相关问题知识,希望对大家有所帮助。如果可以帮助到大家,还望关注收藏下本站,您的支持是我们最大的动力,谢谢大家了哈,下面我们开始吧!
1. 第一代测序(Sanger测序)
关键词:双脱氧测序、末端终止测序
1.1 正常DNA的合成过程
在模板链和引物存在的情况下,核糖体RNA分别将四种脱氧核糖酸(dNTP)转运至引物末端。然后根据互补碱基配对的原理脱水形成5"-3"磷酸二酯键。
正常的DNA合成过程
1.2 Sanger测序原理
采用链终止法,即将脱氧核糖酸(dNTP)和双脱氧核糖(ddNTP)同时加入到反应体系中。两者都可以随机整合到模板链中形成DNA,但由于缺少羟基(-OH),ddNTP的反应在整合到模板链中时随机终止。利用ddNTP的这一特性,结合电泳条带的检测或利用光源信号传输即可获得序列。
ddNTP 与引物结合后,反应无法继续。
ddNTP随机组合产生不同长度的带
每个系统都进行电泳以分别读取信号。
利用光信号转换读取
1.3 Sanger测序优缺点
优点:方法简单,准确度高,测序片段长,一次可达1kb。缺点:高成本、低通量
2. 第二代测序(Illumina测序为例)
关键词:桥式PCR,可逆末端终止,高通量,边合成边测序Illumina 的Solexa和Hiseq两个系列机器是目前全球使用最多的第二代测序机。为了获得完整的基因组,通常包括三个阶段:测序、短序列比对和序列拼接。IIIumina测序数据三大阶段的特点:读长短、一定的错误率、深度高、reads之间有pairend关系
2.1 测序
测序过程大致分为三个步骤。测序完成后,获得的原始数据将经过质量评估和控制等中间过程,然后进入短序列拼接。
测序三大步骤中制备DNA基因组样品时,单倍体选择、样品总量、DNA浓度OD需要满足要求,并注意不要降解。
2.1.1 第一步:构建基因文库
步骤一:使用超声波将待测DNA样本破碎成小片段,通常约为500bp。
步骤二:将小片段修复成钝端,并在钝端进一步添加A碱基,形成粘端。
步骤三:在粘性末端添加接头适配器、测序引物、标签等。
图书馆建设流程
最终的文库形式文库:是DNA 片段的集合。测序片段断裂后,形成文库。一般将片段小于1kb的文库称为小片段文库(pairend),大于1kb的文库称为大片段文库(matepair)。文库的大小也称为插入片段大小,可用于后续的拼接。
2.1.2 第二步:桥式PCR
步骤一:液体流过流动池后,单个DNA 序列将被固定到流动池上。
步骤二:执行多重桥式PCR 扩增。
步骤三:多余的DNA 序列将被液体冲走,在流动池上留下相同的DNA 单链簇。
流通池
桥接PCR的一般流程。桥式PCR的目的是增加信号源,方便检测。其详细原理可参考:
修拉_
2.1.3 第三步:测序
步骤一:将DNA 聚合酶、接头引物和4 种带有碱基特异性荧光标记的dNTP 添加到反应体系中。
步骤二:合成第一个碱基后,后续反应无法正常进行。
步骤三:除去剩余的未使用的碱和试剂。
步骤四:激发基础荧光并收集信号。
步骤五:去除第一个碱基的封闭基团和荧光基团。
步骤六:重复步骤一到五。
每个序列需要测序两次。正向引物测序后会被液体洗掉,然后用反向引物对另一端进行测序。
合成测序
双端测序
读取信号类似于同一张照片的叠加
2.1.4 测序饱和度评估
目的:推测测序所需的最小数据量理论上是数据量的10倍,但实际上还有其他误差,所以会高于该值。
理论最小值
2.1.5 数据质控
1. 两个指标碱基含量分布:测序后的GC含量应与基因组GC含量相同。碱基质量分布:Q20碱基百分比(一般要求90%以上)、Q30碱基百分比(一般要求85%以上) Q20表示该位点碱基的错误率为百分之一,Q30为千分之一。
2. 用fastqc可生成质量控制报告
质量报告对比
2.1.6 测数数据处理——过滤
非基因组序列。包括接头、测序引物、标签等。N碱基过多的reads。通常,如果N 碱基占读数的10% 以上,则会被去除。低质量reads。以Q20为标准,低于一定水平的Q20比例将被剔除。去除duplication。两对相同的读数将消除一对。注:只要pairedend reads中的一个reads不满足条件,就需要移除这两个reads。 RNA-seq和16s测序时不能去除重复,否则会丢失一些丰度信息。
2.2 测序拓展内容
2.2.1 大片段文库
事实上,无论是大片段库还是小片段库,都无法完全测量一次read的全长。例如,Illumina构建的小片段文库为500bp。双端测序一般只能测两端150bp左右的长度,中间200bp无法测。但由于最初建库时的随机中断,第一次read无法测序中间序列,后续reads也会检测到中间序列。
1.png1. 构建大片段文库的目的:为了获得reads之间的物理距离关系,以方便后续的序列拼接。
2. 大片段文库的测序过程:步骤1:在大片段的两端添加生物标志物序列进行环化。
步骤2:后续步骤与小片段文库测序类似
环化处理
将大片段打碎成小片段进行测序
3. pairend和matepair文库区别测序reads方向不一致,pairend方向相反,matepair方向相反。
反向配对
matepairverse
2.2.2 测序注意事项
无法一次性对整个基因组进行测序,因为PCR技术限制了读长,并且很难保证从样本中提取的基因组的完整性。
GC偏差会影响PCR,正常GC含量为35%~65%。
所选文库的大小和读长必须协调; Denove拼接过程中,先使用小片段文库,逐渐增加文库;
二代测序无法持续测量,因为随着反应的进行,后续反应条件发生变化;同时,在簇化过程中,由于碱基反应的相位不一致,会出现错误。
2.3 短序列比对
短序列比对是将过滤后的reads重新定位到基因组中。这个过程也称为映射。
回复
2.3.1 短序列比对的四种情况
一对一、无错配一对一、有错配一对多、无错配多对多、有错配
2.3.2 短序列比对的应用
1. 与自身基因组比对1.1 计算每个站点的覆盖深度
1.2 计算参考序列覆盖率
2. 与参考基因组比对2.1 RNA测序计算基因表达
2.2 变异检测
2.3 宏基因组测序计算不同生物的丰度
2.3.3 基因差异表达计算
1. 基因结构基因结构2. 成熟mRNA成熟mRNA
3. 基因表达差异的指标3.1 FoldChange,同一基因在不同样本中表达水平的变化倍数,即RPKM值的差异。差异越大,变化就越大。
3.2 FDR校正,FDR越小,差异越显着。注:转录起始位点位于启动子区和5"UTR非翻译区之间,翻译起始位点位于CDS起始密码子处。 RPKM值消除了基因长度和测序量的差异对计算基因表达量的影响,可以直接用于比较不同样本之间基因表达量的差异(可变剪接的FPKM值)。
2.3.4 变异检测
单碱基转换:转换、颠换、删除、插入
2.3.5 物种组成和丰度计算
步骤一:16s序列长度约为1.5kb,无法一次性测试。使用双端测序和质控过滤得到不同的reads,但不能去除重复。
步骤二:将两个读取拼接到标签中
步骤三:将不同标签集群到不同的OUT
步骤四:与16s数据库比较并设置阈值。
2.4 序列拼接
又称为de nove splicing,将测序得到的reads输入到拼接软件中,利用reads之间的重叠部分进行拼接。
目前序列拼接的算法有两种:一种是Overlap-Layout-Conesensus(常用于拼接长片段如Sanger),另一种是De bruijn graph(常用于拼接短序列如Illumina)。但本质是根据序列之间的重叠进行剪接。
常见名词:reads,直接从测序获得的片段pairend和matepair,文库大小insertsize,物理长度kmer,将读段切割成更小的固定片段contig,通过kmers 之间的重叠连接成更长的片段(有时也指将读段串联成重叠群) )scaffold,重叠群通过pairend关系连接成更长的片段。
2.4.1 kmer值估计基因组大小
1. kmer定义kmer 两次读取kmer,一次是正向,另一次是反向补码。
2. 利用kmer的分布图估计基因组大小kmer分布图
2.4.2 基于德布莱英图(De bruijn graph)算法拼接
1. 构图(gregraph)是切掉kmer(13-127之间的奇数),去掉频率为1的kmer(kmer频率为1,那么对应的reads只测一次,这在高通量测序中几乎是不可能的)
2. 构建contig利用不同kmer大小的片段之间的重叠形成Debraying图,然后简化该图。理论上,该图只有一个头和一个尾,但由于测序过程中存在重复区域。实际的脑解图会有很多头和尾。然后将较短的分支去除,形成很多contig,并且contig之间没有重叠关系。
De bruijn graph3. 构建scaffold构建过程通过reads之间的配对关系,contigs连接成更长的序列,这就是scaffold。首先,将测序的读数重新定位到重叠群,然后记录配对比较。落在同一contig用于计算insertsize,落在不同contig用于构建scaffold。 (例如:reads1对齐到contig1的末尾150bp,reads2对齐到contig2的开头150bp。reads1和reads2之间的insetsize为500,那么在连接contig1和contig2的过程中就会有200bp的N个碱基(存在) 比较过程中要注意reads的方向。
作图通常需要三对以上的不同重叠群来确定物理位置关系,并进一步将它们连接成支架。
image.png 当基因组中重复序列过多时,pairend关系可能不足以确定contig之间的位置关系。在这种情况下,需要使用matepair库。拼接策略:先使用小片段库,然后逐步添加大片段库。然而,获得完整的基因组序列通常很困难。特点支架序列方向不一致,有的来自有义链,有的来自反义链(但都是5"-3")。
脚手架之间没有位置关系,但有些软件会按大小顺序输出。
scaffold中可能存在N碱基,但contig序列中没有N碱基。4. 补洞基因组中的孔(称为间隙)由N 个碱基组成。间隙是在重叠群形成支架的过程中产生的。
有关gap:N个碱基数是由insertsize决定的,但并不完全准确。 N碱基来自基因组的复杂区域(重复、GC异常等)并且不容易剪接。补洞策略
使用桑格测序长片段补洞
如果N区太大(超过2k),可以用pacbio测序来补长片的空洞。
利用pairend关系补洞
3. 第三代测序
主要包括三种测序技术,分别利用光信号、电信号和化学信号的转换
3.1 PacBio公司的SMAT
1. 原理概述应用边合成边测序的思路,利用SMRT芯片作为测序载体,将DNA聚合酶与模板结合,用4色荧光标记4个碱基。在碱基配对阶段,不同碱基的加入会发出不同的光,根据光的波长和峰值可以确定传入碱基的类型。保持酶活性,区别反应信号与周围游离碱基荧光背景是关键技术。2. 特点读长长,测序速度快,测序错误率高,可达15%。然而,错误是随机的,可以通过多次测序来有效纠正。
3.2 Oxford公司的Nanopore
1. 原理概述根据碱基影响电流变化幅度不同的特点,设计了一种特殊的纳米孔,孔内共价连接有分子连接体。当DNA 碱基穿过纳米孔时,它们会改变电荷,从而短暂影响流经纳米孔的电流强度。敏感的电子设备检测这些变化并识别通过的碱基。这是一种基于电信号的方法。它不是光信号的排序技术。
2. 特点的读长非常长,达到几十kb,甚至100kb。错误率在1%到4%之间,属于随机错误。通量高,可直接读取甲基化胞嘧啶。
关于深入解析:基因测序的基本原理及应用和的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
【深入解析:基因测序的基本原理及应用】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
我一直对基因测序很感兴趣,想知道具体是如何工作的
有5位网友表示赞同!
看了这篇标题,感觉可以学到很多关于DNA测序知识啊
有13位网友表示赞同!
测序技术真是太神奇了,现在已经应用到医疗、农业等很多领域
有16位网友表示赞同!
希望能详细了解不同种类的测序方法
有20位网友表示赞同!
这个原理是不是很难理解呢?
有16位网友表示赞同!
我记得以前生物课上学过点测序的概念,但不太清楚具体操作步骤
有20位网友表示赞同!
文章能介绍一下测序的历史发展吗?
有9位网友表示赞同!
希望这些知识能够帮助我更好地了解基因研究
有11位网友表示赞同!
这篇文章的图示会不会很直观呢?
有18位网友表示赞同!
我比较想了解测序在医学诊断中的应用
有7位网友表示赞同!
测序技术的发展对人类有什么意义?
有19位网友表示赞同!
学习一下测序原理,可以让我更全面地了解生物科技
有9位网友表示赞同!
这篇文章能回答哪些关于测序成本的问题呢?
有5位网友表示赞同!
是否会介绍测序技术的局限性以及未来发展方向?
有16位网友表示赞同!
我想知道测序技术对环境保护有什么影响?
有17位网友表示赞同!
这篇文章会不会讲到一些与测序相关的伦理问题?
有14位网友表示赞同!
测序技术的发展是不是会带来一些新的社会挑战?
有9位网友表示赞同!
我很期待看到这篇关于测序原理的文章!
有14位网友表示赞同!