草庐IT

泛基因组文献007~GenomeBiology 玉米泛基因组

小明的数据分析笔记本 2023-10-11 原文

论文

A pan-Zea genome map for enhancing maize improvement

https://link.springer.com/article/10.1186/s13059-022-02742-7#availability-of-data-and-materials

提供了数据处理流程

https://github.com/songtaogui/pan-Zea_construct/tree/v1.0.0

仔细看看论文,然后试着这个流程

首先是流程的安装

整个流程是shell写的,依赖软件

image.png

大部分都可以用conda安装

  • bbtools这个软件 conda安装的时候 是安装 bbmaps

  • popins这个软件是不能用conda装的

github主页 https://github.com/bkehr/popins

这个软件也有一些依赖的软件,大部分都可以用conda安装,但是那个seqan好像不行,seqan的帮助文档

https://seqan.readthedocs.io/en/master/Infrastructure/Use/Install.html#infra-use-install

安装需要用到root,课题组服务器我是没有root权限的,我就用我阿里云的服务器来安装

apt install libseqan2-dev

安装在目录 /usr/include/ 下

把seqan这个文件夹放到课题组服务器上

和popins放到一个目录下

然后再popins目录下运行 make

安装成功了,多了一个popins的可执行文件

这里运行pan04_popins_pipe.sh 是使用popins这个软件,这里会有报错会有报错,查了一下这个链接有讨论,这个链接的讨论是玉米泛基因组论文的作者

https://github.com/bkehr/popins/issues/4

这里seqan需要是2.2版本 下载链接

https://github.com/seqan/seqan/releases/tag/seqan-v2.2.0

安装命令

sudo apt install ./seqan-library-2.2.0.deb

重新安装popins

make clean
make
  • quast用conda也一直没有安装成功 ,可能是和其他软件的依赖软件有冲突

我在另外的conda环境中安装过quast,我用软连接把之前的安装可执行文件链接到当前的conda环境下

ln -s /mnt/shared/scratch/myan/apps/mingyan/Biotools/mambaforge/envs/genome_assembly/bin/quast /mnt/shared/scratch/myan/apps/mingyan/Biotools/mambaforge/envs/pan_zea/bin/

quast 需要把quast.py链接过来

把popins也用软连接链接到这个环境下

ln -s /mnt/shared/scratch/myan/private/pome_WGS/pan_zea/popins/popins /mnt/shared/scratch/myan/apps/mingyan/Biotools/mambaforge/envs/pan_zea/bin/

这样能行吗,不太确定,目前查看帮助文档内容反正是没有问题

运行命令

 blastdbcmd -db /mnt/shared/apps/databases/ncbi/nt -entry all -outfmt "%g,%l,%T" > nt_all_accession_length_taxid.csv

遇到报错

Error: [blastdbcmd] error while reading seqid

把blast从2.9更新到2.13就可以了

运行整个流程

PANZ_individual_pipe.sh

运行完第一步就会有报错,shell的内容大体能看懂,大概的错误就是因为路径的问题找不到第二步的输入文件,但是具体怎么改还是没有想明白,尝试着把每一步单独运行

bash pan-Zea_construct/src/pan00_IDBA_assembly.sh SRR1946554 01.clean.fq/SRR1946554_clean_1.fastq.gz 01.clean.fq/SRR1946554_clean_2.fastq.gz 500 8
bash pan-Zea_construct/src/pan01_quast_pre-unaln.sh SRR1945464 /home/myan/scratch/private/pome_WGS/pan_zea/Arabidopsis/SRR1945464/SRR1945464_idba/SRR1945464_scaftig500.fa.gz /home/myan/scratch/private/pome_WGS/pan_zea/Arabidopsis/ref/at.fa 150 500 8
bash pan-Zea_construct/src/pan02_blastNT_clean.sh SRR1945464 SRR1945464.unaligned.150bp.fa.gz SRR1945464/SRR1945464_idba/SRR1945464_scaftig500.fa.gz SRR1945464_quast/contigs_reports/contigs_report_SRR1945464_scaftig500.unaligned.info 8 /mnt/shared/apps/databases/ncbi/nt plant_nt_accession.txt 0.4 100 500
bash pan-Zea_construct/src/pan03_reMEM_filter.sh SRR1945464 SRR1945464_unrefseq_kept.fa.gz ref/at.fa 0.8 0.9 12
bash pan-Zea_construct/src/pan04_popins_pipe.sh SRR1945464 03.sorted.bam/SRR1945464.sorted.bam SRR1945464.unaligned.MEMfiltered.fa.gz ref/at.fa 101 100 16
bash pan-Zea_construct/src/pan05_pmrc_filter.sh SRR1945464 SRR1945464.unaligned.MEMfiltered.fa.gz pp_SRR1945464/SRR1945464/non_ref_new.bam 10 8
bash pan-Zea_construct/src/pan06_get_mmanchor.sh SRR1945464 SRR1945464.unaligned.pmrcfiltered.fa.gz SRR1945464_quast/contigs_reports/minimap_output/SRR1945464_scaftig500.coords.filtered 8
bash pan-Zea_construct/src/pan07_get_pploc_qrg_rd.bash SRR1945464 pp_SRR1945464/clean_nonrefseq_4_SRR1945464_locations.txt pp_SRR1945464/SRR1945464/non_ref_new.bam 10 8
bash pan-Zea_construct/src/pan08_combine_mm_pp.sh SRR1945464 SRR1945464_mmanchor_fmt.bed SRR1945464_pploc_qrg_rd_fmt.tsv 8
bash pan-Zea_construct/src/pan09_MMPPSR.sh SRR1945464 3 3 SRR1945464/SRR1945464_vcf_header.txt pp_SRR1945464/clean_nonrefseq_4_SRR1945464_insertions.vcf SRR1945464_anchor_combine_mm_pp.tsv 8

其中有一步用到samtools会遇到报错 samtools sort: couldn't allocate memory for bam_mem
这一步不要用太多核心,增加需要的内存,(我最开始用了16个G,换到64G后就没有报错了)

这里相当于是运行了一个样本,第一步idba和第三步blast比对NT数据库需要的时间很长

我这里用到的数据是拟南芥的数据

所有样本运行完 还要运行 PANZ_cluster_pipe.sh,等运行完所有样本再来记录这个过程

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

有关泛基因组文献007~GenomeBiology 玉米泛基因组的更多相关文章

  1. ruby-on-rails - 如何解决#<Book::ActiveRecord_Relation:0x007fb709a6a8c0> 的未定义方法 `to_key'? - 2

    我遇到了未定义方法`to_key'的问题这是我的books_controller.rbclassBooksController和我的索引页如下。index.html.erb......现在当我要访问索引页面时出现如下错误。undefinedmethod`to_key'for# 最佳答案 index通常返回一个集合。事实上,您的Controller符合要求。但是,您的View试图为其定义一个表单。正如您所发现的,这不会成功。表单适用于实体,而不适用于集合。该错误在您看来以及您希望如何处理index。

  2. ruby-on-rails - #<ProjectsController :0x007faead1853e0> 的未定义方法 `user_signed_in?' - 2

    我想用RubyonRails进行身份验证,每个用户都有自己的帐户。但是现在我得到了这个错误:undefinedmethoduser_signed_in?for#有人能帮帮我吗?代码如下:完整跟踪:app/controllers/projects_controller.rb:69:in`require_login'activesupport(3.2.3)lib/active_support/callbacks.rb:418:in`_run__2505248868868045404__process_action__114470166732456289__callbacks'actives

  3. 文献管理软件zotero|电脑和平板文献管理实现同步 - 2

    高效管理文献——实现PC和ipad同步作为一个科研打工人,读论文是我们每个人基本天天都要做的事,但论文越来越多如何实现论文高效管理?利用文献管理软件zotero,能实现高效管理文献。之前也用过,mendeley软件也用过,但zotero更简介,而且添加插件(常用插件)后可实现看论文就能看期刊分区和影响因子。zotero能实现电脑和平板同步,在平板阅读记录笔记,就能自动更新到电脑里。更有利于我们随时随地拿着平板看文献。下面详细介绍如何配置电脑和平板实现文献同步在电脑和ipad都下载zotero(pc版下载地址)配置电脑和ipad的zotero,这时需要借助坚果云,注册账号后,每个月可免费使用上传

  4. xml - 在引用文献中突出显示某个作者 - 2

    我正在尝试使用jekyll和jekyll-scholar创建引用列表。有没有办法在CSL样式文件中突出显示(粗体)某个作者的名字?有没有更好的方法在不触及CSL样式文件的情况下达到同样的效果?例如(来自here),这是可取的:ZelleR.M.、E.deHulster、W.Kloezen、J.T.Pronk和A.J.A.范马里斯。2010.在工程酿酒酵母菌株的生物react器分批培养中生产C4-二羧酸的关键工艺条件。申请环境。微生物学。76:744-750。AbbottD.A.、ZelleR.M.、J.T.Pronk和A.J.A.范马里斯。2009.用于生产羧酸的酿酒酵母的代谢工程:现

  5. c++ - 延迟加载 DLL : "Exception 0xC06D007E: Module not found" when application started multiple times - 2

    我的应用程序在使用延迟加载DLL时出现间歇性崩溃。我们在几个不同的调用堆栈中看到了崩溃,但在__delayLoadHelper2中引发0xC06D007E:Modulenotfound时它总是崩溃。连续(串联)多次调用流程时引发异常。这是一个示例调用堆栈:KERNELBASE.dll!RaiseException()+0x3dbytesMYDLL.dll!__delayLoadHelper2(constImgDelayDescr*pidd=0x000000000012f650,__int64(void)**ppfnIATEntry=0x000000000012f570)Line331C

  6. 文献检索与应用 - 2

    1.在收集文献信息时必须处理好()。A、新颖性、系统性、积累性、计划性和预见性之间的关系B、针对性、可靠性、积累性、计划性和预见性之间的关系C、针对性、系统性、可用性、计划性和预见性之间的关系D、针对性、系统性、积累性、计划性和预见性之间的关系参考答案C2.《中图法》共分为五个基本部类,()个大类。A、二十五B、二十二C、二十八D、三十参考答案B3.20世纪()万维网(WorldWideWeb)的发展,使得网络资源更加易于获取。A、80年代初B、80年代末C、90年代初D、90年代末参考答案C4.关于情报、知识、信息的基本概念及其之间的关系,以下描述错误的是()。A、知识是人类对信息本质的认识

  7. c# - 你应该在什么时候理解引用文献? - 2

    我在一个入门级程序员的面试中问了这样一个问题:varinstance1=newMyObject{Value="hello"}varinstance2=instance1;instance1.Value="bye";Console.WriteLine(instance1.Value);Console.WriteLine(instance2.Value);应聘者回复“你好”、“再见”作为输出。我的一些同事说“指针”不再那么重要,或者这个问题不是真正的能力判断。他们是对的吗?编辑:指出MyObject可能是一个结构。这是一个好点。但是,我没有发布我给受访者的完整问题。完整的问题有一个类显然是

  8. 【国家参考文献标准GB/T 7714—2015】 - 2

    GB/T7714—20152.1参考文献著录方法几种主要类型的参考文献(专著、专著中的析出文献、连续出版物、连续出版物中的析出文献、专利文献、电子文献等)的著录项目与格式要求如下:2.1.1专著(图书)[M]指以单行本或多卷册形式,在限定期限内出版的非连续出版物。包括以各种载体形式出版的普通图书、古籍、学位论文、技术报告、会议文集、汇编、多卷书、丛书等。其著录格式为:[序号]著者.题名:其他题名信息[M].其他责任者.版本项.出版地:出版者,出版年:页码.例:[1]陈登原.国史旧闻:第1卷[M].北京:中华书局,2000:29.[2]徐光宪,王祥云.物质结构[M].2版.北京:科学出版社,20

  9. php - PHP 是如何工作的 - 文献 - 2

    我对描述PHP内部工作原理、陷阱和一些高级功能的文献(互联网上的文章、杂志、书籍、播客-我真的不介意任何东西)很感兴趣。那里有这样的东西吗?我试着在谷歌上搜索,但大多数文章都是关于从PHP及其基本功能开始的。任何输入都非常受欢迎,因为我正在努力从内部理解这门语言-我厌倦了在不理解其本质的情况下盲目输入代码。 最佳答案 PHP手册中有一节名为PHPattheCore:AHackers'GuidetotheZendEnginehttp://www.php.net/manual/en/internals2.php

  10. 文献阅读 - 01 Zotero基础(陆续更新) - 2

    Zotero文献管理1准备工作1.1安装Zotero1.2注册Zotero账号2使用云端储存附件2.1Onedrive教育2.2Zotero+Onedrive设置3Zotero+sci-hub4Zotero+word4.1导入参考文献4.2word中插入文献5Zotero实用插件5.1插件安装5.2常用的插件链接【文献阅读】是分享我文献阅读、管理以及检索的学习过程,主要是基于zotero文献管理软件。之前用的endnote,最近换了一个文献管理器,觉得比endnote好用,这里简单介绍一下zotero的基础,供大家学习。1准备工作1.1安装Zotero首先安装Zotero,步骤较为简单不赘述,

随机推荐