修正差异基因中上下调基因数目失衡
修正差异基因中上下调基因数目失衡
1. 实验设计
固定实验组(EBVa)样本量:始终使用27例EBVaGC样本。
逐步增加对照组(EBVn)样本量:从50例逐步增加到250例(每次增加50例),每次随机抽取对应数量的EBVn样本,重复进行差异表达分析。
观察指标:记录不同样本量下DEGs的总数量及上下调比例。
2. 验证逻辑
假设1:若样本量差异导致不平衡
当EBVn样本量增加时,统计功效(检测差异基因的能力)会增强,可能检测到更多DEGs,且上下调比例可能趋于均衡。
预期结果:上调基因数量随EBVn样本量增加而显著增加,上下调比例逐渐接近。
假设2:若生物学本质导致不平衡
无论E...
WGCNA的基本概念及简单应用
一、基本概念
WGCNA( Weighted correlation network analysis)译为加权基因共表达网络分析,是一种经常用于基因组和系统生物学研究中的网络分析方法。WGCNA对不同样本中的基因关联模式进行描述,以鉴定出样本中和表型高度协同变化的基因集,或者说模块。
比如,可以研究不同组织或不同物种之间的模块保存程度(module preservation)。
模块保存程度统计信息(Preservation Statistic)旨在量化参考数据集和测试数据集之间模块保存情况。WGCNA R包中的函数modulePreservation用于计算不同数据集之间的模块保存统计信息。modulePreservation函数用法可以参考网页:https://rdrr.i...
Upset图的原理以及在富集分析中简单的应用
Upset图的原理
基本概念
Upset 图是一种用于可视化集合之间交集情况的工具,它主要用于展示多个集合之间的相交关系和元素的分布。这种图在分析基因集合、物品集合等多种数据场景下非常有用,尤其是当你需要同时考虑多个集合组合的交集情况时。
例如,假设有四个不同的基因集合,分别代表在不同实验条件下差异表达的基因。Upset 图可以清晰地展示这些基因集合之间的交集,如哪些基因是在所有四个条件下都差异表达的,哪些基因是仅在其中两个条件下差异表达的等。
原理细节
集合的表示与转换
Upset 图将多个集合的数据转换为一种适合可视化交集的格式。首先,每个集合中的元素(如基因、...
PCA降维原理以及用R绘制PCA图
PCA图的原理
基本概念 - PCA(Principal Component Analysis)即主成分分析,是一种常用的数据分析方法。它的主要目的是通过线性变换将原始数据转换为一组新的变量,这些新变量被称为主成分。主成分是原始变量的线性组合,并且它们是按照方差大小依次排列的。 - 比如,假设有一组二维数据点$(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$,PCA的目标就是找到两个新的变量(主成分),使得这些数据点在新的变量表示下能够最大程度地保留数据的方差信息。
原理推导
协方差矩阵
首先考虑数据的协方差矩阵。对于有 $m$ 个特征(变量)的数据集$X$($n$...