生信入门-单细胞分析 A-3:数据的初步分析
#生信 #细胞 #单细胞分析 #预处理 #文库 #测序 #数据库 #数据分析 #作图
一、初级描述性统计分析
- RNA-Seq Data 计算每种基因表达的均值中位数标准差等,看看整体上的基因表达水平分布情况
- Clinical Data 计算各种临床变量的基本统计量
二、初级可视化探索性分析
1. 箱形图
- 用箱型图表示一下基因的分布情况,看看有没有异常值和分布特征(比如长尾分布这种)(Boxplot)(33)
箱型图这样读
2. 直方图
- 用直方图表示基因表达值的频率分布,看看总体趋势和分布形态
这个应该都会
3. 散点图
- 用散点图矩阵观察基因表达和临床变量之间的联系关系,用自带的 pairs () 函数或者 GGally 包的 ggpairs () 函数也可以
散点图用来描述一种变量和其他变量之间的相互关系,大概能看一看这个变量变化的时候其他变量的变化趋势
- 散点图矩阵就是多种变量和多种变量的两两关系放一起,这张图将三种大的组合放在一张图里了右上角那些数值是皮尔逊相关系数,1 的时候正相关,-1 的时候负相关,0 的时候无关
[!NOTE]
- 使用 Pearson 相关性分析的时候要求数据正态分布(特别是小样本时),如果不满足的话可以使用 Spearman 相关性分析
- 另外,针对多个因素两两比较的情况,除了散点图,也可以使用热力图的形式加以观察