LEfSe分析即LDAEffectSize分析,是一种用于发现和解释高维度数据生物标识(基因、通路和分类单元等)的分析工具,可以进行两个或多个分组的比较,它强调统计意义和生物相关性,能够在组与组之间寻找具有统计学差异的生物标识(Biomarker)。
专门为宏基因组开发的组合统计和可视化方法,由哈佛大学Huttenhover课题组开发,发表于GenomeBiology,引用过千次。
LEFSe基本原理A.首先在多组样本中采用的非参数因子Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的物种;B.再利用Wilcoxon秩和检验检查在显著差异物种在分组亚组之间是否都趋同于同一分类(如果存在分组亚组时);C.最后用线性判别分析(LDA)对数据进行降维和评估差异显著的物种的影响力(即LDAscore)(也可以利用支持向量机分析)。
秩和检验
秩和检验是一种非参数检验法,它是一种用样本秩来代替样本值的检验法。根据样本分组的不同可分为两样本Wilcoxon秩和检验和多样本Kruskal-Wallis检验。
基本思想是:若检验假设成立,则两组的秩和不应相差太大。通过编秩,用秩次代替原始数据信息来进行检验。
原理就是不管样本中的数据到底是多少,将两样本数据混合后从小到大排序,然后按顺序赋秩,最小的赋为1,最大的赋为n1+n2,分别对两个样本求平均秩,如果两个样本的平均秩相差不大,则说明两个总体不存在显著差异;反之,若相差较大,先分别求出两个样本的秩和,再计算检验统计量(含量较小的样本秩和)和统计量(期望秩和,查T值表可知)的P值并作出决策。
线性判别分析LDA
线性判别分析LDA是一种supervisedlearning(有监督学习)。有些资料上也称为是Fisher’sLinearDiscriminant,由RonaldFisher发明自年,是在目前机器学习、数据挖掘领域经典且热门的一个算法。
线性判别分析LDA(LinearDiscriminantAnalysis)的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。简单来说就是一种投影,是将一个高维的点投影到一个低维空间,我们希望映射之后,不同类别之间的距离越远越好,同一类别之中的距离越近越好。
LEFSe在线分析LEfSe为Python包,现已支持Python3,可从