基因测序有什么要求(基因测序可以测什么)

2022-09-18 01:39:42

前言
思考
该问题中卡方检验的理解
总TSS上下游1kb范围长度之和
总长度计算
卡方检验
转换为reads
注意

前言

今天进行一个思维的简单训练。

现在有一个问题，我们来思考下：如果我们做组蛋白的ChIP-seq分析，那么对于我们组蛋白数据，最少应该有多少的测序深度，才能够有效的进行数据分析呢？

这里涉及到一系列的统计学知识。

我这里的思考不一定完全正确，仅仅写出来让大家一起来思考。

思考

什么才是一个合格的组蛋白ChIP-seq数据呢？那么肯定是在有限的reads中，这些reads大都可以富集集中到一些基因组上的区域中。

但是结合不同组蛋白自身特点，所以这里我们将数据分为2种：

sharp marker

broad marker

之所以做这种分类，主要考虑到，基因组上broad marker多呈现为大片段连续分布，而sharp的marker则多呈现为在TSS区域的富集。

为了简化我们的思考，我们这次主要考虑sharp的marker。也就是考虑需要多少reads时，数据可以表现出在TSS有富集的信号。

为了对TSS范围做出定义，我以TSS上下游1kb标准，需要考虑2kb的范围内有富集。

描述到这里，其实如果有一定统计基础的同学，差不多已经知道用什么统计方法来进行计算了——超几何检验。

但是这里不能用超几何检验，因为在超几何检验中，球的总数需要是固定的，并且白球和黑球总数也是固定的，超几何检验计算的是每次抽取的球中包含白球总数的概率。

而在我们的实例中，落入到TSS上下游1kb范围的reads以及落入到其他区域的reads总数是不固定的。

所以我们不能用超几何检验。那我们应该用什么统计方式呢？

我们可以用卡方检验。

该问题中卡方检验的理解

在这个问题中，因为每个read都可以随机分布在整个基因组上，而我们关心的只是，这些reads能不能主要落在TSS上下游1kb的范围，所以我们需要计算出：

整个基因组的长度

所有TSS上下游1kb的长度之和

基因组上除去TSS上下游1kb范围之外的长度

根据卡方检验的原理，我们可以把思路转变一下：去比较落在TSS上下游1kb范围内的reads数和落在其他区域内的reads数什么时候可以有显著差异。只要当两者比例存在显著差异时，我们就可以得出结论了。

既然比较差异，那么我们可以先假设没有富集现象的存在，这是reads是均匀分布的，所以基于该假设的结果即为：所有TSS上下游1kb的长度之和比上基因组上除去TSS上下游1kb范围之外的长度。

如果reads的分布存在富集，那么在该假设下，我们应该存在另外一个比例值。

而我们的标准是在P<0.05时，计算出这个比例值。

这样我们的思路就确定了，我们需要计算的结果有：

总TSS上下游1kb范围长度之和

基因组上除去TSS上下游1kb范围之外的长度

而我们的结果则是计算出在卡方检验P<0.05时，在reads分布存在富集的假设下，最小的比例值。
考虑到不同基因如果距离较近，那么他们之间会存在有overlap，所以这里我们先提取出所有基因TSS上下游1kb范围的坐标，然后对其取并集：

$ grep -v ^# gencode.v40.annotation.gtf |awk -F"\t" -v OFS="\t" '{if($3~/gene/) {if($4-1000<0) print $1,0,$4+1000;else print $1,$4-1000,$4+1000}}'|bedtools merge -i - >gene.gtf

然后我们计算所有并集的区域之和：

$ awk -F '\t' 'BEGIN{sum=0} {b=$3-$2;sum=sum+b} END{print sum}' gene.gtf116561151总长度计算

下载染色体长度：

$ wget https://hgdownload-test.gi.ucsc.edu/goldenPath/hg38/bigZips/hg38.chrom.sizes

计算常见的染色体长度之和：

$ egrep "chr[0-9XY]{1,2}.[0-9]{1,}" hg38.chrom.sizes | awk -F'\t' 'BEGIN{sum=0} {sum=sum+$2} END{print sum}'3088269832

这样我们就知道了基因组上除去TSS上下游1kb范围之外的长度：

$ echo "3088269832-116561151"|bc2971708681卡方检验

接下来我们去R中进行计算。首先计算出均匀分布时，总TSS上下游1kb范围长度之和占总长度的比例116561151/3088269832# 0.03774319

然后写循环计算：

rm(list = ls())options(stringsAsFactors = F)library(stringr)library(ggplot2)dat <- data.frame(proportion=NA, p_value=NA)base=1e9m=1for (i in seq(0.03774319,0.03774319+0.01,length.out=1e5)) { mytable <- data.frame(men = c(0.03774319*base,(1-0.03774319)*base), women = c(i*base,(1-i)*base)) p <- chisq.test(mytable)$p.value dat[m,"proportion"]=i dat[m,"p_value"]=p m <- m+1}dat$fdr <- p.adjust(dat$p_value)head(dat[dat$fdr<0.05,])# proportion p_value fdr# 324 0.03777549 0.0001512562 0.04900699# 325 0.03777559 0.0001442724 0.04688854# 326 0.03777569 0.0001375932 0.04485539# 327 0.03777579 0.0001312061 0.04290439# 328 0.03777589 0.0001250991 0.04103250# 329 0.03777599 0.0001192608 0.03923679

发现只要当比例最低达到0.03777549时就会出现显著变化了。

转换为reads

既然知道了比例，那么接下来就是根据这个比例去计算了。

首先，reads必须要占满所有的TSS，即所有基因的TSS上都要有reads。

我们假设reads长度为x，那么此时需要的reads数最低需要：116561151/x

然后我们根据上述计算比例，就可以计算出此时的总reads数应该有：

116561151/x/0.03777549=4403155/x

也就是说，如果测序长度平均为30bp，那么理论上我们需要的reads数目为：4403155/30=146772条即可。

注意

因为这里只是单纯从理论上去计算，read的估算其实是存在很大误差的，例如：

不可能我们在测序时仅仅要求所有TSS的覆盖度只有1x

所有TSS上下游区域的划分并不是连续的，计算reads时我们当作了连续的进行处理

其他

所以为了保险，我们可以将最终结果乘以一个系数，但是这个系数具体是多少我这里也不知道，但是我也许就估算为10（即TSS区域为10x）。

那么在这个结果中，我们需要的reads则为1.5e6条。