RNA-seq QC
Rawdata质控
| Parameters | Description | Value |
|---|---|---|
| CleanData(%) | >90% | |
| Adapter(%) | <6% | |
| LowQuality(%) | <10% | |
| polyA(%) | <0.01% | |
| N(%) | <10% | |
| AF_Q20(%) | >90% | |
| AF_Q30(%) | >80% | |
| sample rawdata(bp) | >5400000000 | |
| ATCG pos|(i+1)-i| | <0.05 | |
| pos i |A-T|(|C-G|) | <0.04 | |
| Mapped_Reads(%) | <50% | |
| Total_Mapped(%) | 人鼠:参考基因组比对率低于85%给与警示;其他物种:参考基因组比对率低于60%给与警示 | >80% |
| Multiple_Mapped(%) | Multiple map>20%给与警示,阈值调整为35% | <35% |
| Total_Mapped(%) max-min | <10 | |
| sequenced_Total_Genes(%) | 基因检出率低于40% | >40% |
| sequenced_Total_Genes(%)max-min | <10 | |
| Annot [Pathway] | >8% | |
| Annot [Description] | >70% | |
| Annot [GO] | >35% | |
| pair all diff | >100 | |
| newgene/allgene | ||
| pearson | 计算样本之间的pearson相关系数,对表达值采用 log2(TPM+1)处理,再计算相关系数 | >0.8 |
| Top 3 gene max-min ratio | 样本间Top3基因count占总count的比例差值>15%给与警示 | >15% |
| updown ratio | 上调基因数目/下调基因数目<0.05或上调基因数目/下调基因数目>20时给与警示 | >=0.05, <20 |
| AF_GC | 各个样本GC%含量差值>4%给与警示 | >4% |
| rawdata | 每个样本 6 G数据,并考虑到生物学实验的不确定性,合同承诺最终各样本平均数据量不低于目标数据量的90%,每个样本数据量不低于目标数据量的70%,平均Q20≥90%,平均Q30≥80%。 | mean>90% |
| log10(median) | 比较同组样本中生物学重复样本的log10(FPKM)的中位数值,当生物学重复样本中log10(FPKM)的中位数极大值-极小值>0.32时,给与警示 | >0.32 |
| base pos | 碱基分布曲线中,A,G,C,T四条线,横坐标相邻位置的两个点差值不超过5% | >0.5% |
| A-T | 碱基分布曲线中|A%-T%|>4%给与警示(不考虑reads的前20bp) | >4% |
| exon | 与exon比对率低于50%时给与警示 | <50% |
| C-G | 碱基分布曲线中|G%-C%|>4%给与警示(不考虑reads的前20bp) | >4% |
PREVIOUSWGCNA的基本概念及简单应用
NEXT修正差异基因中上下调基因数目失衡