- 简介
- 目录大纲
- 最新文档
差异表达分析(limma & edgeR & DESeq2)
TCGA difference analysis generally does not directly use the T test (unless the downloaded FPKM data), but downloads the Counts data and then uses the limma package or the edge package for difference……
laihui126 - 2023年1月12日 17:49
下载分析TCGA数据库的数据
一、如何下载TCGA数据库的数据? 1、打开网页https://cancergenome.nih.gov/ 点击进入“Launch Data Portal”, 即GDC数据库的界面,可以看到分类很详细, 2、以下载open的MAF文件进行示例。按上图,点击“Repository”,进入数据下载界面。 maf格式的mutation记录文件在TCGA里面已经是level4的数据啦,所以是完全op……
laihui126 - 2023年1月12日 15:25
TCGA数据的规律【更新中】
长期积累TCGA数据中的规律。。。 TCGA条码(barcode)信息 TCGA条码 由一组标识符组成。每个都专门标识一个TCGA数据元素。有关元数据标识符如何组成条形码的说明,请参见下图: 用R语言解决一下TCGA的id中隐藏的分组信息 图中展示的是TCGA样本id,分组信息是在这个id的第14-15位,01-09是tumor,10-29是normal。我拿了一个示例数据,请在生信星球公众……
laihui126 - 2023年1月12日 14:57
突变数据
首先是数据下载。 TCGA突变数据的下载、整理和可视化 突变数据在TCGA数据库中存储为maf格式,需要将其读入R语言,有很好的R包可以一键展示数据特征,形如: 有哪些基因在较多样本中发生了突变,哪个样本突变的基因较多,所占的比例等等都可以一目了然。 还可以进行mutation signafiture分析 TCGA突变数据分析-mutation signafiture 得到如下的图: 展示了3……
laihui126 - 2023年1月10日 10:55
生存模型构建
课程中共使用了四种算法构建模型: cox(可做单因素和多因素) TCGA的cox模型构建和风险森林图 lasso回归 用lasso回归构建生存模型+ROC曲线绘制 随机森林 听起来很霸气用起来并不难的随机森林 支持向量机 听起来很霸气用起来并不难的 支持向量机 不管用了那种算法,核心都只是几句代码而已。一听就高大上的机器学习,开发很难,应用不难。得到的生存模型可用于另一数据集的预测,即根据构建……
laihui126 - 2023年1月10日 10:45