共计 1121 个字符,预计需要花费 3 分钟才能阅读完成。
当您进行 RNA 测序时,您以 RPKM(Reads Per Kilobase of exon modelper Million mapped reads,每千碱基百万个读数)或 FPKM(Fragments Per Kilobase of exon model per Million mapped fragments 每千碱基百万个碎片)报告结果。但是,TPM(每千碱基记录本)现在变得非常流行。由于这些术语似乎有很多混乱,我认为我将使用 StatQuest 清除所有内容。
这三个指标试图对测序深度和基因长度进行标准化。这是针对 RPKM 的操作方法:
计算样本中的总读数,并将该数字除以 1,000,000- 这是我们的“每百万”缩放比例。
将读取计数除以“每百万”缩放比例。这会规范化测序深度,使您的读数达到百万分之一(RPM)
将 RPM 值除以基因长度(以千碱基为单位)。这为您提供了 RPKM。
FPKM 与 RPKM 非常相似。RPKM 是针对单端 RNA-seq 制作的,其中每个读数对应于一个已测序的单个片段。FPKM 用于配对末端 RNA-seq。使用成对末端 RNA-seq,两个读段可以对应一个片段,或者,如果该对中的一个读段没有作图,则一个读段可以对应一个片段。RPKM 和 FPKM 之间的唯一区别是 FPKM 考虑到两次读取可以映射到一个片段(因此它不会对该片段进行两次计数)。
TPM 与 RPKM 和 FPKM 非常相似。唯一的区别是操作顺序。这是您计算 TPM 的方法:
将读数计数除以每个基因的长度(以千碱基为单位)。这样就可以得到每千个基数(RPK)的读数。
计算样本中所有 RPK 值,然后将其除以 1,000,000。这是您的“每百万”缩放比例。
将 RPK 值除以“每百万”比例因子。这为您提供了 TPM。
因此,您会看到,在计算 TPM 时,唯一的区别是先对基因长度进行归一化,然后对序列深度进行归一化。但是,这种差异的影响非常深远。
使用 TPM 时,每个样本中所有 TPM 的总和是相同的。这样可以更轻松地比较每个样本中映射到基因的读段的比例。相反,使用 RPKM 和 FPKM,每个样本中的标准化读数之和可能会有所不同,这使得直接比较样本变得更加困难。
这是一个例子。如果样品 1 中基因 A 的 TPM 为 3.33,而样品 B 中 TPM 为 3.33,则我知道这两个样品中映射到基因 A 的总读数的比例完全相同。这是因为两个样本中的 TPM 的总和总是相同(因此,无论您要查看的是什么样本,计算比例所需要的分母都是相同的。)
使用 RPKM 或 FPKM,每个样本中的标准化读数之和可能不同。因此,如果样本 1 中基因 A 的 RPKM 为 3.33,样本 2 中的 RPKM 为 3.33,我将不知道样本 1 中与基因 2 映射的基因 A 的读取比例是否相同,这是因为分母需要计算两个样本的比例可能会有所不同。