RNA-seq质控

 

RNA-seq QC

Rawdata质控

Parameters Description Value
CleanData(%)   >90%
Adapter(%)   <6%
LowQuality(%)   <10%
polyA(%)   <0.01%
N(%)   <10%
AF_Q20(%)   >90%
AF_Q30(%)   >80%
sample rawdata(bp)   >5400000000
ATCG pos|(i+1)-i|   <0.05
pos i |A-T|(|C-G|)   <0.04
Mapped_Reads(%)   <50%
Total_Mapped(%) 人鼠:参考基因组比对率低于85%给与警示;其他物种:参考基因组比对率低于60%给与警示 >80%
Multiple_Mapped(%) Multiple map>20%给与警示,阈值调整为35% <35%
Total_Mapped(%) max-min   <10
sequenced_Total_Genes(%) 基因检出率低于40% >40%
sequenced_Total_Genes(%)max-min   <10
Annot [Pathway]   >8%
Annot [Description]   >70%
Annot [GO]   >35%
pair all diff   >100
newgene/allgene    
pearson 计算样本之间的pearson相关系数,对表达值采用 log2(TPM+1)处理,再计算相关系数 >0.8
Top 3 gene max-min ratio 样本间Top3基因count占总count的比例差值>15%给与警示 >15%
updown ratio 上调基因数目/下调基因数目<0.05或上调基因数目/下调基因数目>20时给与警示 >=0.05, <20
AF_GC 各个样本GC%含量差值>4%给与警示 >4%
rawdata 每个样本 6 G数据,并考虑到生物学实验的不确定性,合同承诺最终各样本平均数据量不低于目标数据量的90%,每个样本数据量不低于目标数据量的70%,平均Q20≥90%,平均Q30≥80%。 mean>90%
log10(median) 比较同组样本中生物学重复样本的log10(FPKM)的中位数值,当生物学重复样本中log10(FPKM)的中位数极大值-极小值>0.32时,给与警示 >0.32
base pos 碱基分布曲线中,A,G,C,T四条线,横坐标相邻位置的两个点差值不超过5% >0.5%
A-T 碱基分布曲线中|A%-T%|>4%给与警示(不考虑reads的前20bp) >4%
exon 与exon比对率低于50%时给与警示 <50%
C-G 碱基分布曲线中|G%-C%|>4%给与警示(不考虑reads的前20bp) >4%