欢迎来真孝善网,为您提供真孝善正能量书籍故事!

分子进化视角下的基因家族分析入门指南

时间:10-28 名人轶事 提交错误

大家好,分子进化视角下的基因家族分析入门指南相信很多的网友都不是很明白,包括也是一样,不过没有关系,接下来就来为大家分享关于分子进化视角下的基因家族分析入门指南和的一些知识点,大家可以关注收藏,免得下次来找不到哦,下面我们开始吧!

按功能划分:将功能相似的基因聚类成一个家族,如GH家族(糖苷水解酶家族)等。 按序列相似性划分:一般将同源基因放在一起认为是一个家族,orthoMCL一般是用于聚类。

基序是蛋白质分子中相似二级结构的聚集体,具有特定功能或者是独立结构域的一部分。

序列高度相似的序列彼此同源,属于一个基因家族(拷贝数大于1)

从结构域的角度来看,具有保守结构域(一个或多个)的序列是某个基因家族的序列(可能同时也可能没有另一个结构域)

2.常规的基因家族分析流程

在这些常规的生物信息学分析之后,一般文章还会添加一些湿实验进行验证,比如基因家族在不同非生物条件下的表达(主要是PCR)。

1. 研究已确定的基因家族

2.了解你正在研究的基因家族的特征

3.您可以参考包含基因家族特征的网站。

4.查找相关文献

5.数据下载

A. 基因组序列信息,存储基因组序列信息的.fasta 文件。还有它的蛋白质序列,也是一个以.fasta结尾的文件。一般来说,注释更好的基因组将包含这些文件。

B.基因组基因结构注释信息。gff3或.gtf文件,存储内含子、外显子、CDS、基因等基因坐标信息。

C.基因家族隐马尔可夫模型,hmm文件

3.基因家族鉴定的工具hmmer:

一般情况下,在寻找基因家族时,可以通过保守域进行预测,从而找到该物种的某个基因家族。

在识别基因家族时,常用的工具是hmmsearch,其中常用的算法有3种。一般我们使用--cut_tc算法来搜索隐马尔可夫模型。 tc算法利用pfam提供的hmm文件中的trusted cutoof值进行过滤,相对可靠。

二、基因家族分析|基因家族成员鉴定(hmm模型同源blast)

1 基因家族成员鉴定步骤详解

确定要研究的基因家族

确定科成员的基本特征(参考现有物种)

参考序列集合的准备

下载或准备目标物种序列和注释信息

双向Blast比较,获取可能的成员

基于保守域的进一步筛选

双向Blast比对获取可能的成员

方法一:基于hmm模型的鉴定方法

准备数据

下载研究物种基因组的fasta文件和注释文件gtf/gff3文件

下载IAP基因家族的hmm模型:http://pfam.xfam.org/PFAM

BIR.hmm #PF00653.22 这是一个例子

目标基因家族搜索与筛选

hmmsearch --cut_tc --domtblout 123.out BIR.hmm 拟南芥.TAIR10.pep.all.fa.gz

#过滤并过滤得到E值小于1*10-20的,先得到序列号

grep -v "#" BIR.out|awk "($7 + 0) 1E-20"|cut -f1 -d " "|sort -u BIR_qua_id.txt

#根据序列号,从Arabidopsis_thaliana.TAIR10.pep.all.fa.gz中提取序列

少拟南芥_thaliana.TAIR10.pep.all.fa.gz | /data1/spider/ytbiosoft/seqkit grep -f BIR_qua_id.txt BIR_qua.fa

多序列比对,构建目标物种的NB-ARC基因家族的hmm模型

#使用clustalw对选中的序列进行多序列比对。

/data/shaofeng/clustalw/clustalw

弹出clustalw操作界面。具体输入流程如下图:

选择1(输入需要比对的序列)输入需要比对的序列的文件名:BIR_qua.fa选择2(开始序列比对)选择9(选择输出比对结构的格式为aligned)按回车键 选择1(选择比较模式为全局比较) 指定输出比较结果的文件名:BIR_qua.aln 按Enter 开始比较 输入树文件名(新建GUIDE TREE 文件) :BIR_qua.dnd (最后要获取BIR.aln,否则BIR.aln为空)

#使用hmmbuild为这些置信序列构建隐马尔可夫模型,即构建更准确的hmm模型来尽可能预测目标物种中BIR基因家族的所有成员。

hmmbuild BIR_qua.hmm BIR_qua.aln

hmmsearch --cut_tc --domtblout BIR.second.out BIR_qua.hmm 拟南芥_thaliana.TAIR10.pep.all.fa

利用目标物种的hmm模型再次筛选目标物种中符合要求的序列

#再次过滤提取这些基因

grep -v "#" NBS-ARC.second.out|awk "($7 + 0) 1E-03" | cut -f1 -d " "|sort -u Final.NBS.list

少拟南芥_thaliana.TAIR10.pep.all.fa.gz | /data1/spider/ytbiosoft/seqkit grep -f Final.NBS.list Final_NBS-ARC_qua.fa

方法二:基于同源比对blast的鉴定方法

下载Ref-seq中存在的NCBI中所有动物的IAP序列(Ref-seq一般认为是比较可信的动物基因序列)

将下载的蛋白质序列存储在ref.nbs.plant.fa文本文件中并上传到服务器

比较并筛选符合目标物种要求的序列

#使用makeblastdb创建blast数据库

makeblastdb -in ref.nbs.plant.fa -dbtype prot -outblastdb

#使用blastp搜索序列,得到每个序列的相似序列

blastp-num_threads 20-dbblastdb-queryArabidopsis_thaliana.TAIR10.pep.all.fa-outfmt 7-seg是blastp.out

#过滤同一性大于75%的序列

catblastp.out |awk "$375" |cut -f1 |sort -ublastp_result_id.list

将上述两种方法得到的基因ID结合起来,取交集,找到两种方法共有的基因家族成员,使结果更加可信。

comm -12blastp_result_id.listfinal.NBS.listcommon.list

少拟南芥_thaliana.TAIR10.pep.all.fa.gz | /data1/spider/ytbiosoft/seqkit grep -f common.list Final_searh_NBS-ARC_qua.fa

最后,你还可以通过互联网上的一些保守结构域来搜索网页,进一步验证找到的结果,例如:

NCBI CD 搜索工具https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgiPfam 的搜索https://pfam.xfam.org/search#tabview=tab1InterProScan 序列搜索https://www.ebi.ac.uk/interpro/search/sequence-search

这些工具可以重新验证搜索到的蛋白质序列是否包含基因家族对应的结构域。检查保守结构域后,如果该区域含有IAP对应的保守结构域,例如BIR区域,则可以保留该蛋白序列用于后续分析。如果在该区域没有找到对应的保守区域,为了分析的严谨性,需要进一步调查以确定是否应该删除该序列。这种情况一般分为两种情况。首先是注释是正确的。该序列确实丢失了相应的保守结构域,需要去除。第二种情况是注释错误,序列的结构域可能没有完整保留。这种情况下,就应该对序列的上下游进行截取,重新进行注释和分析。

总结及注意事项

只有一个结构域,hmmer速度很快,但是可能有很多结果,比如MAPK、MAPKK、MAPKKK等,它们的结构域都是pkinase,家族分类是根据进化树的分支结果。这种情况下需要用爆破结果进行验证。

好了,文章到这里就结束啦,如果本次分享的分子进化视角下的基因家族分析入门指南和问题对您有所帮助,还望关注下本站哦!

用户评论

雪花ミ飞舞

终于看到简单易懂的基因家族分析教程了!

    有7位网友表示赞同!

枫无痕

一直想了解更多关于分子进化的知识,这个教程很合适。

    有16位网友表示赞同!

命硬

太棒了!这下不用再费力去翻找复杂的论文了。

    有14位网友表示赞同!

红尘滚滚

希望这教程能够详细讲解每个步骤,这样我才能更好地理解。

    有16位网友表示赞同!

良人凉人

感觉“保姆级”真的很有帮助,可以让我这个小白慢慢入门。

    有5位网友表示赞同!

日久见人心

终于找到一个能让人快速掌握基因家族分析的方法!

    有14位网友表示赞同!

来自火星的我

期待学习更多关于进化关系和演化的知识,这个教程应该会有很多启发。

    有20位网友表示赞同!

浅巷°

分子进化是个很抽象的领域,希望这个教程能够用通俗易懂的方式讲解。

    有20位网友表示赞同!

请在乎我1秒

希望能看到一些案例分析,这样更容易理解基因家族分析的应用场景。

    有10位网友表示赞同!

夏日倾情

有了这个教程,我就可以在课余时间学习基因家族分析了!

    有18位网友表示赞同!

陌上花

对生物学和进化有很大兴趣,这篇文章正好能满足我的需求!

    有17位网友表示赞同!

坠入深海i

希望教程能够包含一些常用的软件工具介绍,以便我们更好地实践。

    有6位网友表示赞同!

开心的笨小孩

现在越来越多人关注基因研究,这个教程应该会很有帮助。

    有17位网友表示赞同!

陌潇潇

学习分子进化知识不仅有趣而且很有意义,期待这个教程能够深入浅出地讲解。

    有18位网友表示赞同!

tina

之前接触过一些基本概念,希望这个教程能更系统地介绍基因家族分析的各个方面。

    有18位网友表示赞同!

揉乱头发

学习基因家族分析肯定可以帮助我更好地理解生物多样性,期待能从这篇教程中学到很多东西!

    有18位网友表示赞同!

嘲笑!

希望教程能够结合图片和图表等直观的素材,使内容更易于消化。

    有14位网友表示赞同!

淡淡の清香

非常感谢作者分享这个宝贵的资源,相信它会帮助很多人深入了解基因家族分析!

    有9位网友表示赞同!

有你,很幸福

期待这篇文章能带来更广泛的传播和应用,推动基因研究的发展。

    有19位网友表示赞同!

【分子进化视角下的基因家族分析入门指南】相关文章:

1.蛤蟆讨媳妇【哈尼族民间故事】

2.米颠拜石

3.王羲之临池学书

4.清代敢于创新的“浓墨宰相”——刘墉

5.“巧取豪夺”的由来--米芾逸事

6.荒唐洁癖 惜砚如身(米芾逸事)

7.拜石为兄--米芾逸事

8.郑板桥轶事十则

9.王献之被公主抢亲后的悲惨人生

10.史上真实张三丰:在棺材中竟神奇复活