RNAseq中RPKM FPKM和TPM的区别

共计 1121 个字符，预计需要花费 3 分钟才能阅读完成。

当您进行 RNA 测序时，您以 RPKM（Reads Per Kilobase of exon modelper Million mapped reads，每千碱基百万个读数）或 FPKM（Fragments Per Kilobase of exon model per Million mapped fragments 每千碱基百万个碎片）报告结果。但是，TPM（每千碱基记录本）现在变得非常流行。由于这些术语似乎有很多混乱，我认为我将使用 StatQuest 清除所有内容。

这三个指标试图对测序深度和基因长度进行标准化。这是针对 RPKM 的操作方法：

计算样本中的总读数，并将该数字除以 1,000,000- 这是我们的“每百万”缩放比例。
将读取计数除以“每百万”缩放比例。这会规范化测序深度，使您的读数达到百万分之一（RPM）
将 RPM 值除以基因长度（以千碱基为单位）。这为您提供了 RPKM。
FPKM 与 RPKM 非常相似。RPKM 是针对单端 RNA-seq 制作的，其中每个读数对应于一个已测序的单个片段。FPKM 用于配对末端 RNA-seq。使用成对末端 RNA-seq，两个读段可以对应一个片段，或者，如果该对中的一个读段没有作图，则一个读段可以对应一个片段。RPKM 和 FPKM 之间的唯一区别是 FPKM 考虑到两次读取可以映射到一个片段（因此它不会对该片段进行两次计数）。

TPM 与 RPKM 和 FPKM 非常相似。唯一的区别是操作顺序。这是您计算 TPM 的方法：

将读数计数除以每个基因的长度（以千碱基为单位）。这样就可以得到每千个基数（RPK）的读数。
计算样本中所有 RPK 值，然后将其除以 1,000,000。这是您的“每百万”缩放比例。
将 RPK 值除以“每百万”比例因子。这为您提供了 TPM。
因此，您会看到，在计算 TPM 时，唯一的区别是先对基因长度进行归一化，然后对序列深度进行归一化。但是，这种差异的影响非常深远。

使用 TPM 时，每个样本中所有 TPM 的总和是相同的。这样可以更轻松地比较每个样本中映射到基因的读段的比例。相反，使用 RPKM 和 FPKM，每个样本中的标准化读数之和可能会有所不同，这使得直接比较样本变得更加困难。

这是一个例子。如果样品 1 中基因 A 的 TPM 为 3.33，而样品 B 中 TPM 为 3.33，则我知道这两个样品中映射到基因 A 的总读数的比例完全相同。这是因为两个样本中的 TPM 的总和总是相同（因此，无论您要查看的是什么样本，计算比例所需要的分母都是相同的。）

使用 RPKM 或 FPKM，每个样本中的标准化读数之和可能不同。因此，如果样本 1 中基因 A 的 RPKM 为 3.33，样本 2 中的 RPKM 为 3.33，我将不知道样本 1 中与基因 2 映射的基因 A 的读取比例是否相同，这是因为分母需要计算两个样本的比例可能会有所不同。