大家好,今天来为大家分享基于单细胞转录组数据解析细胞类型识别方法的一些知识点,和的问题解析,大家要是都明白,那么可以忽略,如果不太清楚的话可以看看本篇文章,相信很大概率可以解决您的问题,接下来我们就一起来看看吧!
1.1 What Is a CellType?
尽管每个细胞都是独一无二的,但生物学家多年来的经验表明,细胞可以根据可量化的共同特征进行分组。这种分类能够对复杂组织进行系统且可重复的分析,类似于物种的概念,这极大地将生物体的多样性简化为可解释的分类学,而不否认任何单个成员的个性[18]。用于定义细胞类型的特征包括谱系、位置、形态、活性、与其他细胞类型的相互作用、表观遗传状态、对某些细胞的反应
基于ScrRNA-seq 的细胞分类涉及将数据划分为各个细胞簇,其中每个簇由相对于其他簇的唯一基因表达特征定义,因此代表一种假定的细胞类型。然而,值得注意的是,计算定义的簇不一定对应于1:1 种细胞类型,因为scRNA-seq 确定的细胞分子状态不一定反映所有特征46karthik Shekhar 和Vilas Menon
如上所述。此外,在细胞的生命周期中,某些分子特性比其他分子特性更短暂,因此有必要将细胞的类型(其主要身份)与其当前的“状态”(例如,神经元放电期间的神经元放电率“的暂时变化”区分开来)。上”和“下”状态,或内分泌细胞的不同水平的分泌活动)。如果scRNA-seq 的转录特征足够独特,它们可能会解析同一细胞类型的不同“状态”,并且如果在早期发育过程中指定其身份的分子在实验阶段不再表达,则会折叠成两种不同但密切相关的相关分子。类型。即使仅限于分子状态,细胞“类型”和“状态”之间的差异也无法仅通过RNA-seq 来解决,可能需要通过其他方式进行检查,例如那些捕获有关细胞表观遗传状态或其动态信息的方式。回应。综上所述,这些考虑因素在解释scRNA-seq 数据时需要谨慎,特别是在仅根据转录组信息识别细胞类型时。正在进行的工作正在继续完善细胞类型的概念,作为人类计划图集[2] 和BRAIN Initiative 等大型项目的一部分
.2 A Brief Overviewof scRNA-Seq
scRNA-seq 不是单一方法,而是一组协议,每个协议都有自己的优点和局限性[20]。目前,每个scRNA-seq协议都包含三个步骤(图1):(1)单细胞捕获和条形码; (2) 文库制备; (3)测序。目前的方案通过组织解离分离单细胞,然后将荧光激活细胞分选(FACS) 放入板上的各个孔中,或捕获微流体室、微孔或单个液滴中的单细胞。在单细胞捕获之前,可以任选地通过使用FACS 或磁激活细胞分选(MACS) 的分选步骤来分离解离的细胞,以富集或耗尽表达特定标记组合的细胞。文库制备涉及使用聚合酶链式反应(PCR) 或体外转录(IVT) 将mRNA 逆转录为cDNA 并对其进行扩增。最近开发的协议在捕获阶段(上述步骤1)使用独特的分子标识符(UMI) 标记转录本,该标识符是随机核苷酸序列[21]。原则上,每个捕获的转录本都标有不同的UMI,这允许下游校正扩增偏差。然后将扩增的cDNA 片段化,并将分子接头添加到扩增子片段的末端以实现高通量测序。文库可以保留每个转录本的全长,或者标记每个mRNA 的30 或50 末端- 选择基于进一步的考虑。排序通常是高度复用的,并且可以是单端的或成对的,具体取决于上游选择。一个重要的考虑因素可能是每个细胞的测序深度,这通常与分析的细胞数量有关[22]。从单细胞转录组数据鉴定细胞类型47
image.png
1.3 Batch Effectsin scRNA-Seq Analysis
数据驱动的细胞类型识别可能会因批次效应而混淆,批次效应是在不同时间、使用不同试剂批次、由不同实验者或三者混合进行制备时发生的[23]来自实验重复之间微妙但系统的差异。由于技术因素,批次效应可能导致同一细胞类型的转录组状态在重复之间发生变化;当这种效应很强时,细胞可以按批次而不是按生物特性进行聚类。如果除了转录差异之外,批次之间特定细胞类型的频率也不同,也会出现批次效应[24,25]。如果在不同批次中处理不同的生物学条件(例如,对照与扰动)或不同的样本来源(例如,来自癌症患者的活组织检查),则从统计上来说不可能消除生物学和技术影响。虽然可以通过仔细的实验设计来减轻批次效应,包括在实验批次中均匀分布不同的生物条件(“区组设计”),但如果样品处理的延迟会影响质量,则这种设计在逻辑上是可能的。并不总是可能的。在这种情况下,必须对单个实验批次中识别出的细胞类型和分子信号持怀疑态度,并且只有在多个独立重复或其他数据模型中支持它们时,结果才可信。检测和校正批次效应是计算创新的一个不断发展的领域,最近提出了许多方法[24, 26]。
未来有前途的研究途径包括将scRNA-seq 数据直接与其他数据模式整合。特别是,将RNA-seq 与空间定位联系起来的最新进展(例如fisseq [27] 和“空间转录组学”[28]),以及高分辨率和扩展显微镜技术的出现,都为原位单基因测序带来了希望。在细胞水平上收集转录组范围的信息,无需细胞分裂。除了消除细胞类型或转录本中与解离相关的偏差外,转录组学和空间定位的整合将创建基于组织的细胞类型图谱,提供一种无偏差、高度多重病例杂交方法。 [29,30]。同样,其他跨模式技术也处于成熟的不同阶段:其中包括将单细胞RNA-seq 与电生理测量(Patch-Seq [31])、基因扰动(CRISPR-Seq 和扰动-seq [32])、蛋白质表达(CITE-Seq [33])和谱系追踪(MEMOIR [34],scGESTALT [35])。所有这些技术和其他技术的大规模应用即将到来,并将带来复杂组织中细胞类型的新的多模式分类和表征。最终,单细胞转录组学的力量及其相关的计算方法将继续发展,成为产生关于复杂组织的组织、调节和功能的新假设的关键组成部分。尽管取得了这些进展,用于细胞类型识别的scRNA-seq 数据分析的基本方法仍然基于基本框架,如下所述
2 Methods
以下工作流程(图2 中的概述)描述了从单核(sn) RNA-seq 数据中识别分子上不同的细胞类型的基本计算步骤。然而,它不涉及任何与原始测序数据的预处理、比对和量化相关的步骤,这些步骤已在其他地方描述过[36, 37]。我们使用R 编程语言(https://www.r-project.org),这是一个用于多种类型基因组分析的多功能平台,并受益于各种统计和生物信息学库的可用性。多年来,已经开发了许多用于单细胞跨膜分析的软件包(https://github.com/seandavi/awesome-single-cell),其中许多可以通过Bioconductor 获得。具有活跃用户社区的生物信息学库的开源档案。该工作流程之前主要使用Seurat 包[38],这是一套积极维护的scRNA-seq 分析工具
图片.png
在这里,我们分析了涵盖人类额叶皮层(FC)、视觉皮层(VC)和小脑(CB)的单核(sn)RNA-seq数据[39]。尽管正文主要指的是单个“细胞”,但以下方法和一般概念同样适用于snRNA-seq 数据和其他单细胞水平测量,例如表观基因组和蛋白质(例如大规模细胞计数)数据(尽管统计考虑因素各不相同)。我们的工作流程从基因表达矩阵X 开始,其行对应于基因,其列代表单个细胞。矩阵的条目表示读数或转录本的数值计数,具体取决于生成数据的scRNA-seq 协议。尽管我们的演示使用特定的示例数据集,但可以使用任何基因表达矩阵执行以下步骤(图2)。以下步骤是在RStudio(一个免费开源的R 集成开发环境(IDE))中实现的
2.1 Preprocessing:Read the Count Matrixand Setup the SeuratObject
1. 首先,我们加载必要的包。utilities.Ris 是一个脚本,其中包含作者编写的一些工具对于此工作流程自定义功能
图片.png
2.然后,我们读取从Gene Expression Omnibus提交文件(NCBI Gene Expression Omni-bus,GSE97942)下载的FC、VC和CB对应的各自数据矩阵[39]。它们存储在本地可访问的名为Data 的文件夹中。由于这些表达矩阵的大部分条目都是“0”,我们立即使用Matrix包将它们转换为稀疏矩阵格式以减少内存占用。
图片.png
3. 接下来,我们为三个组织矩阵添加“组织起源”标签,并将它们绑定为一个矩阵。最终矩阵的行对应于三个组织矩阵中每一个的基因的并集。假设任何矩阵中缺失的基因都不会被表达。我们使用Matrix.utils 包中的rBind.fill 函数来填充缺失的基因并从单细胞转录组数据中识别细胞类型。
图片.png
4.接下来,我们初始化Seurat类的S4 R对象。将对此对象执行各种下游计算。
image.png 然后我们检查归一化性能矩阵的维数和每个样本的细胞数量。 Heresnd@identstore 存储这些细胞的样本ID,对应于它们的大脑起源区域。
图片.png
6. 因此,我们有23,413 个基因和34,234 个细胞,其中19,368 个细胞在VC 中,10,319 个细胞在FC 中,4637 个细胞在CB 中。我们可以使用Seurat 绘图命令VlnPlot(例如,可视化每个细胞的基因数量(nGene) 和每个细胞的转录本/UMI 数量(nUMI))作为“小提琴图”(旧的“盒须图”的经典)情节”版本)。 3)
image.png
2.2 Normalizethe Data
1. 由于细胞裂解和mRNA 捕获效率方面的技术差异,来自两个等效细胞的计数载体可能在所有基因的转录本/UMIs 总数上有所不同。这使得有必要首先对数据进行标准化以减弱这些差异,这需要分两步完成。在这里,我们选择每个细胞总转录本的中位数作为缩放因子。这通常称为“库大小归一化” (b) 我们对标量表达式值应用对数变换,如Elog(E + 1)(添加1 是为了确保零映射到零值)。该信息有两个理想的属性:100020003000 小脑额叶皮层视觉皮层身份(皮层身份)(即转录本)计数(右,y 轴)的象方分布(如小提琴图)。点代表来自单细胞转录组数据的细胞类型的单个细胞标记。
它缩小值,使数据在其值范围内分布更加均匀,这在存在异常值时尤其有利。 l由于logA logB logAB,它将距离转换为长基因轴对数折叠值。这一变化的结果是,无论基因的绝对表达值如何,细胞/样品表达差异都会得到同等对待。这对于低表达基因(例如泛素因子)可能特别理想。
image.png
2.3 FeatureSelection: IdentifyHighly Variable Genes
1. 在高维数据分析中,通常会选择比代表统计噪声的特征更有价值的特征。此步骤称为“特征选择”。在scRNA-seq 数据中,这是通过选择“高度相关”的基因来完成的。假设大多数基因的变异并不代表有意义的生物学。另一个挑战是基因的变异水平与其平均表达有关(一种称为异质城市化的现象),必须明确地解释这一点。我们使用最近发布的Poisson-Gamma 混合模型[40] 进行可变基因选择,该模型被证明可以准确捕获基于UMI 的scRNA-seq 数据的统计特性(图4)。
图片.png
因此,我们在数据中发现了1307个可变基因。我们建议读者参考其他变量基因选择方法,例如M3Drop [41]、均值CV 回归[42] 或Seurat 的内置函数FindVariableGenes。
image.png
2.4 Z-Score the Dataand Remove UnwantedSources of VariationUsing LinearRegression
1. 与细胞身份相关的scRNA-seq 数据的变异可能会被许多不需要的变异来源所掩盖。一个常见的挑战是批次效应,这可以反映在同等实验批次之间的转录组差异和细胞类型组成的差异上。如前所述,裂解效率、mRNA 捕获和扩增的变化可能导致同等细胞的转录组之间存在显着差异。由于生物过程(例如细胞周期、对解离的反应、应激和细胞凋亡)可能存在其他变异来源,这些变异可能主导所测量细胞的转录组状态。
纠正这种效应仍然是一个活跃的研究领域,最近引入了许多复杂的方法[24, 25],但我们无法提供全面的概述。在这里,出于说明目的,我们删除了与文库大小nUMI 高度相关的变异基因表达。 Seurat 使用nUMI 作为预测因子对每个基因的表达水平进行线性拟合,并将残基返回为“校正的”表达值。接下来,对每个基因的表达值进行z-scoredor归一化,
image.png 这里Eij是原始细胞的校正基因表达值,Eiand是所有细胞中基因表达的均值和标准差。现在,所有基因的转换表达值均值为零,标准差等于1。 2.使用Seurat的函数ScaleData一起去除nUMI和z-scores的影响,然后将转换后的基因表达值存储在slotnd@scale.data中
image.png
2.5 The Curseof Dimensionalityand DimensionalityReduction Using PCA
1. 高维scRNA-seq 数据的分析带来了大量挑战,通常统称为“维数曲线”(COD) [43]。对于高维和噪声数据,相同和不同的细胞亚群(即细胞类型)可能彼此等距,使得很难区分类型内变异和类型间变异。 COD 通常有两种处理方式(图2)。首先,可以过滤特征/基因的数量以仅包括高度可变的基因,如上一节所述。其次,可以使用保留原始数据的一些重要属性(包括基因间关系)的算法将数据投影到低维子空间中。这种选择通常是由感兴趣的潜在生物学问题决定的。的。降维的方法有很多,例如主成分分析(PCA)[44]、独立成分分析(ICA)[45]、非负矩阵分解(NMF)[46]、自动编码器和扩散映射(DM)[47] 。降维的结果是将原始基因表达数据压缩为更少的“复合”变量。每个“复合”变量都是原始基因特征的复杂组合。根据算法的不同,原始基因特征可以是线性的或非线性的。这些合成特征编码前面提到的转录组模块结构,可以解释为基因模块或“元代”,每个元代由基因的加权组合定义。然后,观察到的每个细胞的表达谱可以用作每个同代的聚合体,根据其在该特定细胞中的活性进行加权。当多个宏因子在某些细胞中被激活但在其他细胞中未被激活时,这可能会导致基因表达空间中的细胞分离。在该图中,每种细胞类型都是分离良好的降维空间中的点云,其位置由基因表达模块的活动模式决定。 2. 在这里,我们执行主成分分析(PCA),这是一种经典且广泛使用的降维方法,可识别最准确捕获数据差异的线性子空间[44]。该子空间的每个单独的轴称为主向量(PV),是原始基因的线性组合,原始数据在这些轴上的投影称为主成分(或PC)。每个PV 由一组对应于基因的权重(称为“负载”)定义。据说一个PV是由具有高权重(正或负)的基因“驱动”的,两个PV代表独立的正交方向。 RunPC 的打印输出将沿着顶部PV 扫描负载最多(阳性和阴性)的基因。 2.6 可视化PCA输出1. Seurat允许以多种方式可视化PCA输出,这对于获得生物直觉非常有用。沿着任意数量的用户指定的PV 加载(图5)。2 PCAP 允许在PC 的降维空间中绘制单元格,并且通常可以突出显示子群结构(图6)。3。图5和图6显示了具有高PC1异型树突细胞值的细胞,其特征是高负载特征蛋白,例如蛋白脂蛋白1(PLP1)和Mye-lin碱性蛋白(MBP)(图5)。接下来,PCHeatmapallows 可以从单细胞转录组数据中识别细胞类型
图片.png
每个PV 由一组对应于基因的权重(称为负载)定义。一个PV被认为是由高权重(正或负)的基因驱动的,并且两个PV以独立、正交的方向重新发送。 runpcalista 打印出PV 上负载最高的基因(正负)。
2.6 Visualize PCA Output
Seurat 允许采用多种方式可视化PCA 输出,这对于获得生物直觉很有用。 VizPCA 显示沿着任意数量的用户指定的PV 具有最高绝对负载的基因(图5)。
图片.png2。 PCAPlot 允许在PC 的降维空间中绘制细胞,并且通常可以突出显示亚群结构(图6)。
图片.png3。图5和图6显示了具有高PC1异型少突胶质细胞值的细胞,其特征是高负载特征蛋白,例如蛋白脂质蛋白1(PLP1)和髓鞘碱性蛋白(MBP)(图5)。接下来,PCHeatmap 允许从单细胞转录组数据中识别细胞类型,以便轻松观察数据中每个PC 的基因表达变化,并且在尝试确定要包含哪些PC 进行进一步下游分析时特别有用(图7)。细胞和基因都根据它们的PCA 分数和每个PC 上的负载进行排序。将cells.use 设置为一个数字会在光谱的任一端绘制“极端”细胞。例如,在这里我们看到星形胶质细胞中PC3 水平较低,其特征是转运蛋白sslc1a2 和slc1a3 的表达。
图片.png
图片.png
图片.png
图片.png
图片.png
图片.png
虽然有许多正式的方法可以确定统计上显着的PC 的数量(例如,参见Shekhar 等人,Cell,2016[13]),但一种特别简单且流行的方法是检查PC 增加的方差的成功减少,并确定计算机就在你的身边,边际效用在哪里(这通常称为本底噪声)。我们使用SeuratfunctionPCElbowPlot 来实现这一点(图8)。
image.png
2.7 Identify Clusters
1. 我们根据图8 选择25 个PC。因此,数据中的每个单元从约23,000 个基因减少到25 个PC(维数减少约1000 倍!)。接下来,我们使用SeuratFindClusters 函数通过基于图的聚类来识别该数据中的子群体[48]。图聚类在最近的scRNA-seq 论文中得到了广泛应用,与k 均值聚类、层次聚类和基于密度的聚类等其他方法相比,图聚类具有许多理想的特性。在这里,我们首先构建kRNA 上的k 最近邻图。数据,根据转录相似性将每个单元与其k 个最近邻单元连接起来。使用欧几里德距离度量根据PC 空间中的邻近度确定最近邻居。接下来,采用与Levine 等人采用的策略类似的策略。 [49]被采纳。和谢卡尔等人。文献[13]基于Jaccard-likeness度量细化了图的边权重,从而消除了簇之间的错误边。 FindClusters 实现了一种算法,用于确定使PC123 的数学偏差最大化的标准簇。 8 前50 个PC(x 轴)考虑了标准偏差(y 轴),以便根据“肘部”的存在粗略地识别重要PC 的数量。下游分析选择了大约25 个PC60 函数,由Karthik Shekhar 和Vilas Menon 在Jaccard 加权k 最近邻图上称为模块化。该函数包含一个分辨率参数,用于调整集群的粒度,增加该值将产生更多的集群。我们使用值1,但需要测试该参数的变化以检查其稳健性。
image.png 因此,我们在数据中获得了26个簇。我们可以使用t 分布随机邻域嵌入(t-SNE) [50] 来可视化这些细胞,这是一种保留局部距离的2D 嵌入方法(图9)。细胞根据光泽标签着色
图片.png
图片.png
3. 接下来,我们使用Seurat sBuildClusterTree 函数根据这些簇的平均转录组相似性将它们排列到树状图上(图10)。这有助于可视化集群之间的关系并揭示相关集群的子组。
图片.png
4. 此时,重要的是要注意我们是否找到了要开放的“最佳”集群数量。重要的是,构成细胞类型簇的标准必须独立于算法的目标——它可以是数据驱动的,例如与其他基因相比,簇中富集的差异表达基因的最小数量,或者算法恢复某些基因具有了解类型(例如细胞类型)的能力。基本事实)。然而,通常情况下,scRNA-seq 簇的评估需要实验技术将分子特性与其他细胞形态、位置和功能结合起来。这里我们采用数据驱动的标准来评估集群稳定性。简而言之,Seurat 的assessnode 函数在树状图的每个二元节点上训练分类器,并计算左/右簇的分类误差。我们可以使用此信息来折叠任何显示15% 分类错误的节点。 10 显示簇(节点)之间转录关系的树状图62 Karthik Shekhar 和Vilas Menon
image.png
2.8 CompareClusters with OriginalCell Type Labels fromLake et al.
这里我们看到最大数据包分类错误(OOBE) 小于我们的阈值。因此,我们保留了全部26 个簇。接下来,我们将聚类结果与Lake 等人发表的光泽标签进行比较。 [39],其中列出了分析中的33 个簇。尽管我们的簇数量明显较少,但研究它们如何与Lake 等人的结果进行比较将会很有趣。我们首先读取它们的簇标签
图片.png
这里,Ast代表星形胶质细胞,End代表内皮细胞,Ex1代表兴奋性神经元组1,依此类推。为了将聚类标签与Lake 等人的聚类标签进行比较,我们绘制了一个“混淆矩阵”,其中每一行对应于Lake 等人的33 个聚类之一,每列对应于我们的聚类(图11)。该矩阵经过行归一化,以描述Lake 等人中的每个簇如何。从单细胞转录组数据中识别细胞类型63
图片.png
令人鼓舞的是,我们发现,虽然我们的分析工作流程与原始论文中报告的结果无关,但我们的许多集群与Lake 等人的集群表现出1:1 对应关系。例如,集群21 (n 624) 对应于
图片.png
小胶质细胞(Mic),而簇25(n 1/4 4058 个细胞)对应于少突胶质细胞(Oli)。在多个Lake 等人的情况下。集群映射到我们的集群,这些是相关的。例如,浦肯野细胞簇Purk1 和Purk2 映射到簇1 (n977),而抑制性神经元In6a 和In6b 映射到簇6 (n1462)。可能需要第二轮迭代聚类来解决密切相关类型(例如In6a 和In6b)之间的差异。虽然这令人鼓舞,但我们也注意到一些差异- 类别2 (n 390)、24 (n 139) 和26 (n 30) 确实有所不同。这些簇通常不对应于Lake 等人的任何簇。簇,而簇18 (n 1/4 2061) 和19 (n 1/4 2877) 似乎并未专门映射到Lake 等人的许多区域。聚类3。我们可以可视化每个三脑区域的聚类组成(图12)
图片.png
从图中可以看出,簇1、簇4和簇26,包括浦肯神经元和小脑颗粒细胞,是CB样本所特有的,而其余簇主要来源于FC和VC样本。
2.9 Identify Cluster-Specific DifferentiallyExpressed Genes
接下来,我们使用Seurat sFindMarkers 函数通过在每个簇与其他簇之间执行差异表达(DE) 分析来查找簇特异性标记。寻找
markers支持使用多种统计方法进行DE(在测试中指定)。useparameter seeSeurat文档)。在这里,我们用学生的t-test,因为它计算效率高。然而,我们注意到对于单细胞RNA-seq数据的t检验有许多限制,特别是its无法计算零通胀。 读者必须探索其他方法,例如由Seurat支持的MAST和tweeDEseq(有关DE方法的全面综述,请参见Sonson和Robinson [51])。 image.png输出是总结特定于集群的标记的ada .frameobject。在这里,每一行是一个基因,丰富的acluster显示在列集群。pct。1是簇中表达这一标记的前部分细胞,而epct。2是背景中表达该标记的细胞比例。我们可以按如下方式检查给定集群的标记 image.png 3.如预期的那样,前两个基因是少突胶质细胞的经典标记物PLP1(蛋白脂质蛋白1)和MOBP(髓磷脂相关少突胶质细胞碱性蛋白)。 接下来,我们检查集群12(一个兴奋性神经元簇),它对应于Ex6a,并由包括HTR2C和NPSR1-AS1在内的多个基因标记(图13) image.png image.png 详细检查这些集群的标识超出了这个工作流的范围。我们鼓励读者深入挖掘,并尝试测试上述方法的变化。最后,我们演示了两种常见的解释结果的方法:(a)检测基因集丰富度,(b)调整备选数据集的簇。2.10 ExamineClustersfor Enrichmentof BiologicalProcesses
1.识别标记后,我们可以评估簇特异性基因是否丰富了任何基因本体论(GO),疾病本体论(DO)或疾病基因网络(DGN)基因列表或类别。 这些调用中的每一个都有多个参数,反映出统计重叠的严格性,但是它们对于评估功能或疾病相关性的群集是有用的工具。 image.png image.png image.png例如,查看GO、DO和DGN类别丰富的基因区分簇1(浦肯野神经元)。请注意,这些类别是根据调整后的p值排列的,而且许多类别并没有显著地丰富。从单细胞转录组数据中识别细胞类型 image.png image.png image.png2.11 Comparewith Mouse CorticalCell Types
细胞类型分类研究中面临的众多挑战之一是如何在不同的数据集上调整聚类,这些数据集可能包括不同的批次、不同的条件(例如,正常与疾病),甚至不同的物种。在这里,我们尝试使用智能seqmethod[15]将从成年小鼠中分离和分析的视觉皮层(VC)神经元的数据集中的集群映射到使用管理学习算法的人类CB、VC和FC集群。我们使用前面描述的[13]的多类分类方法。 首先,我们读取由1679个单元格组成的鼠标VC数据,并创建一个SeuratS4对象。 为了使基因ID与Humandata匹配,我们将所有基因名称都大写-请注意,更精确,更冗长的方法是基于适当的正交数据库匹配基因。 我们还读取了每个单元的群集分配。 Tasic等。 确定了49种转录组类型,包括23种抑制型,19种兴奋性和7种非神经元类型[15]。 Wenext选择功能来训练我们的分类器。 我们使用Seurat的FindVariableGenes函数(图14)来识别可变基因,它更适合于Smart-seq数据[40]。 使用NB.var.genes扩展snRNA-seq数据中的可变基因集后,我们计算出通用可变基因以训练多类分类器。 image.png image.png 2.接下来,我们在snRNA-seq数据上训练一个随机森林(RF)模型[52],并使用该模型将簇标签分配给mouseVC数据。 给定一个单元格,分类器将其映射到26个集群之一中,以解决snRNA-seq(3-0偏置,基于UMI的)和Smart-seq(全长,基于非UMI的)之间的尺度差异 ,我们将两个数据集标准化(每个基因的z得分值)。 在snRNA-seq数据上对其进行训练后,我们将该分类器从鼠标VC数据应用于每个细胞,并将其分配给26个snRNA-seq群集之一。OK,本文到此结束,希望对大家有所帮助。
【基于单细胞转录组数据解析细胞类型识别方法】相关文章:
2.米颠拜石
3.王羲之临池学书
8.郑板桥轶事十则
用户评论
这太酷了!感觉单细胞技术越来越厉害了。
有11位网友表示赞同!
能用转录组数据直接识别人类细胞类型吗?太强大了
有12位网友表示赞同!
这样研究细胞类型的进展真是令人期待啊!
有5位网友表示赞同!
我很好奇哪些细胞类型可以通过这种方法识别出来。
有14位网友表示赞同!
这篇文章一定很有帮助,能让我们更深入地了解细胞种类和功能吧。
有14位网友表示赞同!
单细胞转录组数据的处理真的很复杂,这篇论文能提供哪些新的思路呢?
有5位网友表示赞同!
我最近在研究细胞生物学,这种鉴定方法太有用了!
有5位网友表示赞同!
希望能看到更多关于这种识别算法的具体细节,比如准确度和效率怎么样?
有7位网友表示赞同!
这篇文章会不会涉及不同组织和物种的单细胞识别?
有17位网友表示赞同!
我觉得这项技术的应用范围非常广阔,未来将会在很多领域发挥作用。
有7位网友表示赞同!
我一直对细胞生物学很感兴趣,这种新的技术让我更兴奋了!
有17位网友表示赞同!
学习这篇文章之后,感觉单细胞研究的门槛好像降低了许多。
有12位网友表示赞同!
希望更多人能够了解和应用这种先进的技术,推动科研发展。
有8位网友表示赞同!
是不是可以利用这种方法来识别患病组织中的异常细胞类型?
有9位网友表示赞同!
这篇文章会不会探讨不同细胞类型的差异性基因表达特点?
有10位网友表示赞同!
我很想看到文章中提供的案例分析,看看实际应用的效果怎么样?
有18位网友表示赞同!
希望能看到更多关于基于单细胞转录组数据的疾病诊断和治疗的研究。
有6位网友表示赞同!
这篇文章是不是会介绍一些用于分析单细胞转录组数据的软件工具?
有18位网友表示赞同!
我对这种技术未来发展方向感到好奇,它将会带来哪些颠覆性的应用?
有16位网友表示赞同!
我觉得这篇论文将成为单细胞生物学研究的重要文献。
有10位网友表示赞同!