[编辑]
用于全基因组关联研究的统计显著子图
统计上可靠的数据挖掘研讨会论文集 (ECML/PKDD), PMLR 47:29-36, 2015.
摘要
全基因组关联研究 (GWAS) 已被广泛用于理解单核苷酸多态性 (SNP) 与疾病之间的关联。GWAS 数据通常与已知的生物网络结合,并使用图挖掘技术进行分析,以系统地理解 SNP 引起的生物变化。为了确定哪些子图与疾病相关,需要对每个子图进行统计检验。然而,由于多重检验校正导致校正后的显著性水平极小,因此没有发现统计上显著的结果。我们引入了一种名为 gLAMP 的方法,用于枚举与诊断具有统计显著关联的子图。gLAMP 将无限制项多重检验程序 (LAMP) 与一种名为 COmmon Itemset Network mining (COIN) 的图挖掘算法相结合。LAMP 为我们提供了最小可能的 Bonferroni 系数,而 COIN 则为我们提供了对可检验子图进行有效枚举的能力。它们组合的理论结果表明,有潜力枚举与疾病统计上显著相关的子图。