草庐IT

基因组

全部标签

美因基因再次冲刺港股:9个月营收1.5亿 净利下降19%

雷递网雷建平2月18日报道美因基因日前再次向港交所递交招股书,准备在香港上市。9个月净利降19%据介绍,2006年,美年大健康董事长俞熔成立上海天亿资产管理有限公司,为美年做产业配套服务。俞熔当时认为,美年大健康要在预防、诊断、筛查等外围的新技术和新项目上提早布局,需要建立一套长效机制,其中必然需要那些前期长周期、外围培育的项目,而天亿集团则是这些项目的孵化平台。2016年在天亿平台孵化了一个以大众健康基因检测为核心的项目——美因基因。为了强化美因基因与公司之间的战略协同,2018年,美年健康实现对美因基因控股。招股书显示,美因基因2018年、2019年、2020年营收分别为1.96亿元、1.

爬虫抓取OncoKB数据库中肿瘤基因靶向药物信息

通过驱动浏览器爬取OncoKB数据库中"基因——肿瘤——靶向药物"等信息。1.安装Chrome浏览器,下载并配置ChromeDriver,将其加入到环境变量中。下图方框所示为需要提取的某个基因的相关信息。由于此页面经JavaScript动态渲染过,不适宜直接抓取,所以通过驱动浏览器抓取信息。2.准备需要抓取的基因集list文件gene_list.txt。每行一个GeneSymbol,内容如下:3.通过python的webdriver包驱动Chrome浏览器,通过BeautifulSoup包得到网页信息,然后提取需要的信息。代码如下:importtime,random,osfromqueueim

「基因组」JupiterPlot评估基因组

JupiterPlot下载地址:https://github.com/JustinChu/JupiterPlot一种基于Circos的工具,与参考基因组相比,可以可视化基因组组装的一致性。依赖软件circos,minimap2,samtools。JupiterPlot安装直接github下载,下载方式很多,下载解压即可。接着需要将minimap2加入当前环境:exportPATH=/share/nas2/genome/biosoft/minimap2/current/:$PATH参考命令如下:分析前,建议提取两个物种染色体序列进行比较画图。exportPATH=/share/nas2/geno

R语言biomart包获取小鼠的基因长度

接上回的故事,公司给了新一批的数据,但是批次效应比较重,需要去批次。去批次之后,fpkm出现了负值,但是counts在很多分析里不能直接用,所以需要counts转fpkm。目前网上关于人类基因组的已经比较多了,但是小鼠的我没咋找到,特别是biomart这个包我用的不熟练,绕了很多弯路,有点挠头。于是有了今天的文章,如何获取小鼠的基因长度。rm(list=ls())一键清空工作空间。listMarts()这个函数能够返回bioMRT可以连接的数据库列表,就是看看哪些数据库是能用的mart=useMart('ensembl')head(listDatasets(mart))dataset通过use

GeNets:发表在nature上的基因组分析网站平台工具

2018年6月NatureMethods上发表了一篇关于机器学习分析特定基因集内部关系工具的文章,简单来说就是,通常我们做了差异基因分析得到一个基因集合,然后会用GO/KEGG富集进行进一步分析,但是该工具给我们提供了另一种可能,通过对差异基因集进行机器学习训练最终得到部分关键的基因以及基因间相互作用。该工具以网站的形式方便大家使用,目前只支持人的基因集输入,笔者输入数据后的运行结果如下图所示,如果大家感兴趣,下面笔者对文章进行了简单的讲解和对网站平台的使用进行了说明。image.png文章名为:《GeNets:aunifiedwebplatformfornetwork-basedgenomi

易基因:群体分析揭示了DNA甲基化在番茄驯化和代谢多样性中的作用|组学研究

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。2023年3月23日,海南大学三亚南繁研究院/热带作物学院博士研究生郭昊等为第一作者、王守创教授为通讯作者在《ScienceChinaLifeSciences》杂志发表题为“PopulationanalysisrevealstherolesofDNAmethylationintomatodomesticationandmetabolicdiversity”的研究论文,该研究通过对野生品种、地方品种和栽培品种的番茄群体进行全基因组重亚硫酸盐测序(WGBS)、转录组测序(RNA-seq)和代谢组学等分析,解析了番茄群体代谢多样性与育种过

java codility 训练基因组范围查询

任务是:给出了一个非空的零索引字符串S。字符串S由大写英文字母A、C、G、T集合中的N个字符组成。这个字符串实际上代表一个DNA序列,大写字母代表单个核苷酸。你还得到了由M个整数组成的非空零索引数组P和Q。这些数组代表关于最小核苷酸的查询。我们将字符串S的字母表示为数组P和Q中的整数1、2、3、4,其中A=1、C=2、G=3、T=4,我们假设A查询K要求您从(P[K],Q[K])0≤P[i]≤Q[i]例如,考虑字符串S=GACACCATA和数组P、Q,这样:P[0]=0Q[0]=8P[1]=0Q[1]=2P[2]=4Q[2]=5P[3]=7Q[3]=7这些范围内的最少核苷酸如下:(0,

java codility 训练基因组范围查询

任务是:给出了一个非空的零索引字符串S。字符串S由大写英文字母A、C、G、T集合中的N个字符组成。这个字符串实际上代表一个DNA序列,大写字母代表单个核苷酸。你还得到了由M个整数组成的非空零索引数组P和Q。这些数组代表关于最小核苷酸的查询。我们将字符串S的字母表示为数组P和Q中的整数1、2、3、4,其中A=1、C=2、G=3、T=4,我们假设A查询K要求您从(P[K],Q[K])0≤P[i]≤Q[i]例如,考虑字符串S=GACACCATA和数组P、Q,这样:P[0]=0Q[0]=8P[1]=0Q[1]=2P[2]=4Q[2]=5P[3]=7Q[3]=7这些范围内的最少核苷酸如下:(0,

python - 在 Python 中有效地获取基因组序列?

如何使用Python高效地获取基因组序列?例如,从.fa文件或其他一些容易获得的格式?我基本上想要一个接口(interface)fetch_seq(chrom,strand,start,end)它将返回指定链上给定染色体上的序列[start,end]。类似地,是否有用于获取phastCons分数的编程python接口(interface)?谢谢。 最佳答案 从大型人类染色体文件中检索序列数据在内存方面可能效率低下,因此如果您正在寻找计算效率,您可以将序列数据格式化为打包的二进制字符串并根据字节位置进行查找。我在perl中编写了例程来

python - scikit-bio 从 gff3 文件中提取基因组特征

是否可以在scikit-bio中从基因组fasta文件中提取存储在gff3格式文件中的基因组特征?例子:基因组.fasta>sequence1ATGGAGAGAGAGAGAGAGAGGGGGCAGCATACGCATCGACATACGACATACATCAGATACGACATACTACTACTATGA注释.gff3#gff-version3sequence1sourcegene178.+.ID=gene1sequence1sourcemRNA178.+.ID=transcript1;parent=gene1sequence1sourceCDS16.+0ID=CDS1;parent=tran