草庐IT

TCGA 更新后矩阵整理方式

爱吃西瓜的呆鹅 2023-03-28 原文

最近TCGA更新了,下载研究一下,我们从TCGA下载STAD的数据,选择其中的一个打开,发现了一个好消息那就是矩阵的整合难度降低了,而且提供TPM以及FPKM 还有校正的count 以及gene_name

其实整理起来比较简单,这里我没有使用python去写脚本,使用R硬刚,说实话头有点铁。

首先整理好你要的数据,下载步骤跟以前一样,当然不懂就去B站看新版TCGA介绍

image.png

首先下载metadata

image.png

接着从download 中下载cart

image.png

下载结束 之后解压随便打开一个文件,我们的目的是整合tsv文件到一个文件夹

image.png

技巧教授如何整合呢,windows下最简单的方式,右上角搜索.tsv结尾的文件

image.png

最后你就可以得到这个列表,然后复制到一个文件夹里面,最后有个MANIFEST.txt不要复制进去

image.png

最后整理成下面的样式,all文件夹是所有的tsv文件,metadta上面介绍已经下载好了放进去

image.png

整理metadata文件

rm(list = ls())
options(stringsAsFactors = F)

library("rjson")
result <- fromJSON(file = "./metadata.cart.2022-04-12.json")
metadata <- data.frame(t(sapply(result,function(x){
  id <-  x$associated_entities[[1]]$entity_submitter_id
  file_name <- x$file_name
  all <- cbind(id,file_name)
})))
metadata[,2]
rownames(metadata) <- metadata[,2]

得到样本文件对应的TCGA的ID号

image.png

生成矩阵

dir <- './all/'
samples=list.files(dir)
sampledir <- paste0(dir,samples)

mat <- do.call(cbind,lapply(sampledir, function(x){
  rt <- data.table::fread(x,data.table = F)
  rownames(rt) <- rt[,1]
  rt <- rt[,7]###后续方便不用再转换直接拿TPM
}))
image.png

这里需要读取一个单个tsv文件进行查看

可以看到我们上面代码中选择rt[ ,7] 是选择的tpm ,需要的话可以你可以选择count和FPKM

image.png

矩阵列名和行名的替换

###随便打开一个tsv文件即可
rt <- data.table::fread('./all/5c84144f-68b0-4f96-8b53-5a43a6f83847.rna_seq.augmented_star_gene_counts.tsv',data.table = F)###随便打开一个tsv文件即可
colnames(mat)=sapply(strsplit(sampledir,'/'),'[',3)###列名
rownames(mat) <- rt$gene_id ##行名 
mat1 <- t(mat)
same <- intersect(row.names(metadata),row.names(mat1))
data <- cbind(metadata[same,],mat1[same,])
rownames(data) <- data[,1]
tcga_stad <- t(data)
tcga_stad <-tcga_stad[-c(1:6),] 
rownames(rt) <- rt[,1]

最后那必须是如何ID的转换 ,根据自带的信息我们进行转换,这次的更新就是ID给了对照基因名,真好,还有类型,妈的TCGA良心一次更新

same2 <- intersect(row.names(rt),row.names(tcga_stad))
tcga <- cbind(rt[same2,],tcga_stad[same2,])
tcga <- tcga[-c(1,4:9)]

到此你们自己保存文件把,然后正常的基因去重问题,这个应该搜索一下

image.png
##要把上面的gene_type删除
rt = tcga[,-2]
rt=as.matrix(rt)
rownames(rt)=rt[,1]
exp=rt[,2:ncol(rt)]
dimnames=list(rownames(exp),colnames(exp))
data=matrix(as.numeric(as.matrix(exp)),nrow=nrow(exp),dimnames=dimnames)
data=avereps(data)
data=data[rowMeans(data)>0,]

到此你们应该得到都会处理的矩阵了把

有关TCGA 更新后矩阵整理方式的更多相关文章

  1. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  2. ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串? - 2

    我试图获取一个长度在1到10之间的字符串,并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符,然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123

  3. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  4. ruby-on-rails - 使用 rails 4 设计而不更新用户 - 2

    我将应用程序升级到Rails4,一切正常。我可以登录并转到我的编辑页面。也更新了观点。使用标准View时,用户会更新。但是当我添加例如字段:name时,它​​不会在表单中更新。使用devise3.1.1和gem'protected_attributes'我需要在设备或数据库上运行某种更新命令吗?我也搜索过这个地方,找到了许多不同的解决方案,但没有一个会更新我的用户字段。我没有添加任何自定义字段。 最佳答案 如果您想允许额外的参数,您可以在ApplicationController中使用beforefilter,因为Rails4将参数

  5. ruby-on-rails - 正确的 Rails 2.1 做事方式 - 2

    question的一些答案关于redirect_to让我想到了其他一些问题。基本上,我正在使用Rails2.1编写博客应用程序。我一直在尝试自己完成大部分工作(因为我对Rails有所了解),但在需要时会引用Internet上的教程和引用资料。我设法让一个简单的博客正常运行,然后我尝试添加评论。靠我自己,我设法让它进入了可以从script/console添加评论的阶段,但我无法让表单正常工作。我遵循的其中一个教程建议在帖子Controller中创建一个“评论”操作,以添加评论。我的问题是:这是“标准”方式吗?我的另一个问题的答案之一似乎暗示应该有一个CommentsController参

  6. 旋转矩阵的几何意义 - 2

    点向量坐标矩阵的几何意义介绍旋转矩阵的几何含义之前,先介绍一下点向量坐标矩阵的几何含义点:在一维空间下就是一个标量,如同一条直线上,以任意某一个位置为0点,以一定的尺度间隔为1,2,3...,相反方向为-1,-2,-3...;如此就形成了一维坐标系,这时候任何一个点都可以用一个数值表示,如点p1=5,即即从原点出发沿着x轴正方向移动5个尺度;点p2=-3,负方向移动3个尺度;     在一维坐标系上过原点做垂直于一维坐标系的直线,则形成了二维坐标系,此时描述一个点需要两个数值来表示点p3=(3,2),即从原点出发沿着x轴正方向移动3个尺度,在此基础上沿着y轴正方向移动两个尺度的位置就是点p3。

  7. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  8. objective-c - 在设置 Cocoa Pods 和安装 Ruby 更新时出错 - 2

    我正在尝试为我的iOS应用程序设置cocoapods但是当我执行命令时:sudogemupdate--system我收到错误消息:当前已安装最新版本。中止。当我进入cocoapods的下一步时:sudogeminstallcocoapods我在MacOS10.8.5上遇到错误:ERROR:Errorinstallingcocoapods:cocoapods-trunkrequiresRubyversion>=2.0.0.我在MacOS10.9.4上尝试了同样的操作,但出现错误:ERROR:Couldnotfindavalidgem'cocoapods'(>=0),hereiswhy:U

  9. ruby - 鸭子输入字符串、符号和数组的优雅方式? - 2

    这是针对我无法破坏的现有公共(public)API,但我确实希望对其进行扩展。目前,该方法采用字符串或符号或任何其他在作为第一个参数传递给send时有意义的内容我想添加发送字符串、符号等列表的功能。我可以只使用is_a吗?数组,但还有其他发送列表的方法,这不是很像ruby​​。我将调用列表中的map,所以第一个倾向是使用respond_to?:map。但是字符串也会响应:map,所以这行不通。 最佳答案 如何将它们全部视为数组?String的行为与仅包含String的Array相同:deffoo(obj,arg)[*arg].eac

  10. ruby-on-rails - Rails Associations 的更新方法是什么? - 2

    这太简单了,太荒谬了,我在任何地方都找不到关于它的任何信息,包括API文档和Rails源代码:我有一个:belongs_to关联,我开始理解当您没有关联时您在Controller中调用的正常模型方法与您有关联时调用的方法略有不同。例如,我的关联在创建Controller操作时运行良好:@user=current_user@building=Building.new(params[:building])respond_todo|format|if@user.buildings.create(params[:building])#etcetera但我找不到关于更新如何工作的文档:@user

随机推荐