GraphPad Prism学术图表(全彩)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 常见统计分析方法

在学术图表中,除了将数据进行图形可视化展示,往往还需要对数据进行统计分析和判断,并将分析结果在图形上面标注出来,所以统计分析也是绘制学术图表时不可或缺的一部分。在大多数情况下,如果没有统计分析,再精美的图表也不符合投稿要求。所以,在很多绘图软件中,都会先使用统计分析软件(如SPSS、SAS、STATA等)进行统计分析,得到分析结果后再绘制图形。

而GraphPad Prism将统计分析和图表绘制合为一体,在绘图过程中可以完成常见的绝大多数统计分析,这种一体化分析给用户带来了极大的便利。但这对软件介绍和学习带来了麻烦,因为这时不可避免地要介绍统计学知识,对于整个篇章结构的安排就增加了难度。好在国内的理工科专业都开设了“统计学”的课程,很多读者基本都学过常见的统计方法。因此,本书并没有对统计学知识进行详细介绍,而是注重结合实例介绍常用统计方法在GraphPad Prism中的应用目的和实现过程,将其完全融合在绘图过程中。如果读者完全没有相关统计学知识,只是想要绘图,则可以直接跳过统计分析相关的步骤。

单击工具栏中的图标,进入Analyze Data(分析数据)界面,可以看到GraphPad Prism内置的统计分析方法共有11类,还有1类是Recently used(最近使用),便于快速选择统计分析方法,如图2-2-1所示。在这11类统计分析方法中,有8类是与8种数据表相对应的,是整个软件进行数据分析的重点,另外还有Transform, Normalize(变换,归一化)、Generate curve(生成曲线)和Simulate data(模拟数据)3类,可以进行常见的数据变换或辅助使用。

图2-2-1 GraphPad Prism内置的统计分析方法

1. Transform, Normalize(变换,归一化)

Transform, Normalize主要针对数据变换和归一化,其下的统计分析方法如表2-2-1所示,变换结果将在左侧导航栏的Results部分以绿色网格线的新表格表示。如果用户能够熟练使用Excel进行数据预处理,则基本可以在Excel中完成这里的功能,而且Excel使用函数进行数据变换的功能更加强大。但是,在这里进行数据变换的过程会更加简单,绝大多数常见函数只需要简单单击就能完成数据变换。

表2-2-1 Transform,Normalize下的统计分析方法

图2-2-2 数据变换和对基线行列进行计算

2. XY analyses(XY表分析)

XY表展示的是XY两个变量的关系。而变量间常见的关系有平行关系和因果关系两种。平行关系是指两个或两个以上变量之间共同受到其他因素的影响,如男/女性身高和体重之间的关系,一般使用相关性分析(Correlation)进行研究。因果关系是指一个变量的变化受到另一个或几个变量的制约,如细胞的生长速度受到温度、CO2浓度、生长因子等因素的影响,一般使用回归分析进行研究。

根据平行关系和因果关系涉及的变量数量,相应的研究方法有很多,如图2-2-3所示。XY表只涉及两个变量,图2-2-3中蓝色部分的研究方法,包括简单相关(Pearson系数)、秩相关(Spearman系数)简单线性回归(Simple linear regression)、非线性回归(Nonlinear regression)、简单Logistic回归(Simple logistic regression)都可以在XY analyses下完成。

图2-2-3 变量关系研究方法

图2-2-3中的多元线性回归(Multiple linear regression)、多元Logistic回归(Multiple logistic regression)等则需要在多变量数据表下完成。具体而言,XY表统计分析方法如表2-2-2所示。

表2-2-2 XY表统计分析方法

3. Column analyses(纵列表分析)

Column(纵列表)又称为一维分组表,以列的形式安排一个分组因素。根据分组后的样本数量,可将样本为单样本、两样本和多样本,分别对应不同的统计分析方法,常见的有单样本t检验、成组t检验、配对t检验、单因素方差分析及对应的非参数检验方法。纵列表涉及的统计分析是整个统计学的基础部分,在学术图表绘制中使用频率较高,而且在不同前提条件下使用的检验方法也不同,显得特别繁杂。如图2-2-4所示,总结了对连续变量进行差异分析时,在不同前提条件下GraphPad Prism所使用的方法。

图2-2-4 差异分析方法

纵列表统计分析方法如表2-2-3所示。

表2-2-3 纵列表统计分析方法

4. Grouped analyses(行列分组表分析)

Grouped(行列分组表)又称为二维分组表,以行和列结合的形式安排2个或3个分组因素。以行列分组表安排2个或3个分组因素对应的统计分析方法主要是二因素方差分析(Two-way ANOVA)和三因素方差分析(Three-way ANOVA)(见图2-2-4)。此外,如果试验过程中对同一受试对象进了多次观察和测量,则还需要使用重复度量的方差分析,GraphPad Prism也支持此类分析。Grouped analyses下具体的统计分析方法除了Two-way ANOVA(二因素方差分析)、Three-way ANOVA(三因素方差分析)和Row means with SD or SEM(带SD或SEM的行平均值),还有Multiple t tests-one per row(每行之间的多重t检验)。

5. Contingency table analyses(列联表分析)

Contingency table analyses下的统计分析方法主要包括Chi-square(and Fisher’s exact)test(卡方(Fisher精确)检验),相关内容见6.2节;而Row means with SD or SEM(带SD或SEM的行平均值)在XY analyses、Column analyses、Grouped analyses下重复出现;Fraction of total(局部占总体比例)在Transform, Normalize和Parts of whole analyses下重复出现。

6. Survival analyses(生存表分析)

Survival(生存表)主要用于生存分析和生存曲线绘制,相关内容见第7章。

7. Parts of whole analyses(局部整体表分析)

Fraction of total(局部占总体比例)在Transform, Normalize和Contingency table analyses下重复出现。还有一种分析方法是Compare observed distribution with expected(比较观察分布和期望分布),用来推断两个总体率或构成比之间有无差别,相关内容见8.1节。

8. Multiple variable analyses(多变量表分析)

Multiple variable(多变量表)是GraphPad Prism 8新增的数据表,每一列代表一个变量,每一行代表一个个体或一次试验,常用于安置高级统计分析方法,如多元线性回归(Multiple linear regression)、多元Logistic回归(Multiple logistic regression)、泊松回归(Poisson regression)及相关性矩阵计算(Correlation matrix)。多变量表统计分析方法如表2-2-4所示。

表2-2-4 多变量表统计分析方法

9. Nested analyses(嵌套表分析)

Nested(嵌套表)主要用于解决嵌套数据的统计分析和图形绘制。因此,在该表中,数据格式和统计分析方法是配套专用的,其中同名的Descriptive statistics(描述性统计)等描述的都是子列的数据,所以表2-2-5里面的部分统计分析方法都加了“子列”二字以示区别。嵌套表适用于既有试验重复又有技术重复的数据结构,可以同时判断分组内部单元和分组之间是否存在统计学差异。

表2-2-5 嵌套表统计分析方法

10. Generate curve(生成曲线)

根据软件内置的函数模型和自行指定的参数生成曲线,如图2-2-5所示。

图2-2-5 生成曲线

11. Simulate data(模拟数据)

可以根据要求模拟数据,如模拟XY表、纵列表、列联表数据,主要用于研究软件的使用和统计分析方法,如表2-2-6所示。

表2-2-6 模拟数据统计分析方法