#
# 使用fastq-dump解压sra数据
# 该数据集是双端数据
# 解压格式为fq.gz
对于SRR6929571 SRR6929572 SRR6929573 SRR6929574 SRR6929577 SRR6929578 中的i;
做
pfastq-dump --split-files --threads 20 --gzip -s 00_RawData/${i}.sra --outdir 00_RawData/
## 质量控制
fastp -i 00_RawData/${i}_1.fastq.gz -o 01_CleanReads/${i}_1.clean.fq.gz -I 00_RawData/${i}_2.fastq.gz -O 01_CleanReads/${i} _2.clean.fq.gz -q 20 -z 4 -w 20 -h 01_CleanReads/html/${i}.html
## fastqc评估
fastqc -q -t 30 -o 01_CleanReads/fastqc/01_CleanReads/${i}_*.fq.gz
## 根据信息,修改如下脚本
#mkdir 03_MappedFile/Hisat2_Mapped
#mkdir 03_MappedFile/Hisat2_Mapped/summary/
#mkdir 03_MappedFile/Hisat2_Mapped/Unmapped_reads
.
.
.
.
did以下是获取.sort.bam文件后运行。
# 合并gtf文件
ls 04_Result/Stringtie/*.gtf 04_Result/Stringtie/mergelist.txt
stringtie --merge -F 0 -T 0 -G 02_Geneome_index/ITAG4.1_gene_models.gtf -o 04_Result/Stringtie/gffcompare/stringtie_merged.gtf 04_Result/Stringtie/mergelist.txt
## gffcomapre 注释
gffcompare -r 02_Geneome_index/ITAG4.1_gene_models.gtf -G -o 04_Result/Stringtie/gffcompare/merged 04_Result/Stringtie/gffcompare/stringtie_merged.gtf
##
## 计算FPKM
mkdir 04_Result/Stringtie/featureCounts
featureCounts -T 20 -p -t 外显子-g script_id -a 04_Result/Stringtie/gffcompare/stringtie_merged.gtf -o 04_Result/Stringtie/featureCounts/All.transcript.count.txt 03_MappedFile/Hisat2_Mapped/*.sort.bam
###
## 计数到FPKM
猫04_Result/Stringtie/featureCounts/All.transcript.count.txt |切-f 1,6-13 04_Result/Stringtie/featureCounts/01.all.count.txt
perl CountToFPKM.pl 04_Result/Stringtie/featureCounts/01.all.count.txt 04_Result/Stringtie/featureCounts/02.all.FPKM.txt
一、写在前面
今天分享一个转录组上游分析过程(Hisat2-Stringtie-Count),这个过程的操作还是很简单的。我们的流程主要采用软件安装、数据下载、过滤、比较、Count、Count To FPKM等流程。
二、软件的安装
1. Conda软件安装
conda是一款常用的软件安装和管理软件,操作简单方便。
https://mirrors.tuna.tsinghua.edu.cn/
要下载conda 软件,您可以下载miniconda 或Anaconda。
2.miniconda(下载对应的版本)
3.Anaconda(下载对应的版本)
4. 软件的安装
5. 添加常用镜像
如果无法使用,可以自行百度搜索。
## Conda常用的图片
# 下面四行配置清华大学bioconda的通道地址,国内用户推荐
conda config --添加频道https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --添加频道https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --添加频道https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --添加频道https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
conda config --set show_channel_urls yes
#中国科学技术大学镜源
conda config --添加频道https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --添加频道https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --添加频道https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/
conda config --添加频道https://mirrors.ustc.edu.cn/anaconda/cloud/msys2/
conda config --添加频道https://mirrors.ustc.edu.cn/anaconda/cloud/bioconda/
conda config --添加频道https://mirrors.ustc.edu.cn/anaconda/cloud/menpo/
conda config --添加频道https://mirrors.ustc.edu.cn/anaconda/cloud/
#阿里巴巴镜像源
conda config --添加频道https://mirrors.aliyun.com/pypi/simple/
#豆瓣镜像
conda config --添加频道http://pypi.douban.com/simple/
#中国科学技术大学USTC Mirror
conda config --添加频道https://mirrors.ustc.edu.cn/anaconda/pkgs/main/
conda config --添加频道https://mirrors.ustc.edu.cn/anaconda/pkgs/free/
conda config --addchannels https://mirrors.ustc.edu.cn/anaconda/cloud/conda-forge/
6. 创建生信环境
如果你担心你的基础环境被破坏,那就安装你自己的小环境吧。
## 创建环境
conda create -n env_name python=x.x
## 删除环境
conda 删除-n env_name -all
激活
conda 激活env_name
##
源激活env_name
## 关闭
conda deactivate查看环境中的软件# 查看指定环境安装的包
## 查看指定环境安装的包
conda list -n 环境名称
## 在指定环境中安装包
conda install -n env_name [包]
## 删除指定环境下的一个包
conda 删除-n env_name [包]
## 更新指定环境下的一个包
conda update -n env_name [package]
三、生信比对软件的安装
安装mamba 软件。与conda安装软件相比,mamba安装更快、更简单。 conda install -y mamba 比较所需软件.
hista2Stringtiesubreadsamtoolsfastpmamba 安装hisat2
曼巴安装绳带
曼巴安装samtools
曼巴安装子读
mamba install fastp 使用源码安装
直接下载对应的软件源码,解压并安装。
四、数据的下载
公共数据库可以直接从NCBI下载,也可以使用自己的测量数据。如果您想使用公共数据库中的数据,可以从我们之前的教程中下载转录组数据。
五、基因组的下载
大部分的作物有自己基因组注释网址,我们需要自己的去寻找模式植物中,拟南芥、番茄、烟草等都有自己的基因组URL。
茄科作物基因组:https://solgenomics.net/organism/solanum_lycopersicum/genome
-- 从NCBI 下载基因组文件如果自己的物种基因组没有单独的网址,如何做呢?可以根据NCBI中进行下载步骤:进入NCBI官网(https://www.ncbi.nlm.nih.gov/)输入需要寻找的基因组名称 (可以是作物名或是拉丁名)。点击“搜索”,您将看到以下界面。 “基因组”是作物的基因组数据。点击进入。
在此界面就是我们的作物的基因组信息,有版本信息,geneome,transcript,protein,GFF,GenBank等信息。
六、数据过滤和质控检测
使用FastP主要是简单方便。
软件官网:[https://github.com/OpenGene/fastp](https://github.com/OpenGene/fastp}
用于质量评估的FastQC
FastQC 旨在提供一种简单的方法来对来自高通量测序流程的原始序列数据进行一些质量控制检查。它提供了一组模块化分析,您可以使用它来快速了解数据是否存在任何问题,在进行进一步分析之前您应该注意这些问题。
处理任何样本之前的第一步是分析数据的质量。 fastq 文件中包含涉及每个碱基检出的准确性(% 置信度)的质量信息。 FastQC 查看样品序列的不同方面,以识别影响结果的任何不规则或特征(适配器污染、序列重复水平等)。
本教程详细教程:一个转录组上游分析流程 | Hisat2-Stringtie****
本教程到此结束。很多参数需要根据自己的数据进行调整。
往期文章:
1.复现SCI文章系列专栏2. 《生信知识库订阅须知》 ,同步更新,易于搜索与管理。3. 最全WGCNA教程(替换数据即可出全部结果与图形)WGCNA 分析|全流程分析代码|代码一
WGCNA分析|全流程分析代码|代码2
WGCNA分析|全流程代码分享|代码3
WGCNA分析|全流程分析代码|代码四
WGCNA分析|全流程分析代码|代码五(最新版本)
4. 精美图形绘制教程精美图形绘制教程5. 转录组分析教程转录组上游分析教程[零基础]
【转录组上游分析流程详解:Hisat2应用指南】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
这篇文章刚好是我最近在学习的东西,Hisat2的应用感觉还是挺棒的。
有8位网友表示赞同!
以前用的STAR,现在听说很多人都开始用Hisat2了,是不是效果真的更好?
有16位网友表示赞同!
对转录组上游分析流程还挺感兴趣,有详细介绍就好了!
有16位网友表示赞同!
学习一下这篇文章,最近有个项目需要用到转录组测序。
有10位网友表示赞同!
不知道Hisat2比传统的软件有哪些优势呢?
有8位网友表示赞同!
感觉RNA测序越来越常用,Hisat2一定会成为必备工具之一。
有15位网友表示赞同!
希望能看到更多不同平台下RNA测序的数据分析流程,了解一下经验分享。
有11位网友表示赞同!
转录组上游分析流程确实很重要,要做好数据处理才能得到可靠的结果。
有7位网友表示赞同!
这篇文章正好可以帮助我学习Hisat2的使用方法,省得自己摸索很久。
有9位网友表示赞同!
希望作者能详细讲解一些常见问题和解决方法,这样更实用。
有11位网友表示赞同!
转录组测序分析流程确实比较复杂,需要了解各个步骤之间的关系。
有7位网友表示赞同!
学习一下Hisat2的原理可以让我更好地理解它的应用场景。
有6位网友表示赞同!
如果有具体的案例分析,对学习效果会更好。
有17位网友表示赞同!
希望能看到更多关于不同类型RNA测序数据的分析流程。
有14位网友表示赞同!
转录组上游分析是一个不断更新的研究领域,期待作者能分享一些最新进展。
有9位网友表示赞同!
阅读这类文章可以拓宽我的知识面,让我了解最新的研究方法和工具。
有14位网友表示赞同!
这篇文章对我的科研工作很有帮助,可以帮助我更好地理解RNA测序数据。
有6位网友表示赞同!
转录组分析需要结合不同领域的研究成果才能得到更深刻的结论。
有16位网友表示赞同!