用mecat2组装基因组

卖萌哥 2023-10-20 原文

背景介绍

mecat2可以说是比较早的一批可以用于三代测序平台的基因组组装软件了，2017年刚上硕士的时候就有接触到过。当然还有WTDBG2也是差不多同时期的软件。

软件安装

这次没法无脑conda了，得从源码开始编译。就当忆苦思甜吧，见识一下如果没有conda加持，软件安装是一个什么样的过程。不过mecat2的安装已经是比较新手友好型的了。

git clone https://github.com/xiaochuanle/MECAT2.git
cd MECAT2
make

记得把MECAT/Linux-amd64/bin的路径加入环境变量以便全局调用哦。

软件运行

1. 生成输入文件

把多个测序文件的存储路径写入fastq.list

ls /path/to/rawData/pacbio/*.gz > fastq.list

2. 生成config文件

再用mecat2.pl生成一个config文件

mecat.pl config > test.config

有的时候你会遇到软件输出这么一句：

Smartmatch is experimental at /path/to/MECAT2/Linux-amd64/bin/Plgd/Project.pm line 232.

这只是一个warning，不用管他。它实际上说的内容也不过是告诉你一下Project.pm这个程序的232行所使用的Smartmatch这个功能是一个实验性功能。没了。你就当无事发生过就好。
接下来根据你的需求去修改config文件即可。

PROJECT=test
RAWREADS=/path/to/04mecat2/fastq.list
GENOME_SIZE=xxxxxxxxx
THREADS=80
MIN_READ_LENGTH=2000
CNS_OVLP_OPTIONS="-kmer_size 13"
CNS_PCAN_OPTIONS="-p 100000 -k 100"
CNS_OPTIONS=""
CNS_OUTPUT_COVERAGE=30
TRIM_OVLP_OPTIONS="-skip_overhang"
TRIM_PM4_OPTIONS="-p 100000 -k 100"
TRIM_LCR_OPTIONS=""
TRIM_SR_OPTIONS=""
ASM_OVLP_OPTIONS="-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400"
FSA_OL_FILTER_OPTIONS="--max_overhang=-1 --min_identity=-1"
FSA_ASSEMBLE_OPTIONS=""
CLEANUP=0
USE_GRID=true

注意这里的GENOME_SIZE只能识别bp为单位的数字大小，所以不要设置成3.2g之类的，软件识别不了。
其他参数就根据GitHub上的介绍或者我下面列出的洲更学长的帖子去设置就可以了。

3. 运行

直接nohup挂后台运行就可以了。

nohup mecat.pl assemble turtle.config &

参考资料

GitHub地址：https://github.com/xiaochuanle/MECAT2#S-input-format

洲更学长的教程贴：https://zhuanlan.zhihu.com/p/81172953

文章：https://www.nature.com/articles/nmeth.4432

萌哥碎碎念

基本这篇就是基因组组装软件的最后一篇了，下个阶段开始更新用10x genomics数据辅助scaffolding的内容。
如果你手上的是ONT的数据，那么可以试试necat（https://github.com/xiaochuanle/NECAT）同样是肖老师组开发的，专为ONT数据设计，国内的一些测序公司指定使用的ONT数据组装软件，你值得try try。
最近刷扣扣群看到未来组的胡江博士提到肖老师组又开发了一个新的组装软件叫pecat（https://github.com/lemene/PECAT）现在还处在活跃地开发中。

PECAT is a phased error correction and assembly tool for long reads. It includes a haplotype-aware correction method and an efficient diploid assembly method.

这个软件的目标是组装出单倍体级别的基因组，在necat和mecat的技术积累上，基因组组装软件也朝着更精细更准确更完善的方向发展着。真好啊。

我本来想测试一下看看效果，但是挂在了第一步的软件安装上。不过看起来作者们有在积极地更新，期待最终成果。

pecat的文章：https://www.biorxiv.org/content/10.1101/2022.09.25.509436v1

有关用mecat2组装基因组的更多相关文章

xml - 如何从其内部子组件正确组装一个有效的 xlsx 文件？ - 2
我正在尝试在iOS上以编程方式创建一个xlsx文件。由于xlsx文件的内部数据基本上存储在单独的xml文件中，我尝试重新创建xlsx结构及其所有文件和子目录，将它们压缩成一个zip文件并将其扩展名设置为xlsx。我使用GDataXML解析器/编写器来创建所有必需的xml文件。但是，我得到的文件不能作为xlsx文件打开。即使我从有效的xlsx文件中提取所有数据，通过从原始xml文件复制数据并手动压缩它们来手动创建所有xml文件，我也无法重新创建有效的xlsx文件。问题是:xlsx真的只是一个包含xml文件的存档吗？如果我不能将xml文件压缩成zip文件并将其扩展名设置为xlsx，我该如何
c++ - 如何组装一串宽字符，中间插入一些空字符？ - 2
让我们从背景说起。我需要为ODBC命令设置一串属性:SQLConfigDataSource(hwndParent,ODBC_ADD_DSN,sDriver,wcAttrs);属性必须以严格的方式格式化才能工作:LPCWSTRwcAttrs=L"DSN=NiceDB\0DBQ=C:\\Users\\who\\AppData\\Local\\NiceApp\\niceDB.accdb\0";以这种方式进行硬编码是可行的，但实际上我需要动态设置accdb文件(DBQ)的路径。问题是分隔字符串中的属性所需的空字符，而我主要使用wcscat_s的string-fu技能失败了，因为空字符会使它后面
windows - 在 Windows 上组装 - 2
我有兴趣在Windows上进行最少的汇编编程。没有GUI，只有一个普通的旧.exe程序，它将向控制台打印一些字符。为了查看是否可以在Windows上简单地编译和运行程序集，我尝试了以下操作:测试.s:ret命令行:gcctest.s我得到了以下错误:Infunction'main':undefinedreferenceto'WinMain'所以问题是我如何将一个简单的无用汇编程序编译为Windows可执行文件？我需要在每个程序中定义WinMain吗？它是gcc的标志吗？我真的不在乎我使用哪个汇编器，但是如果有人知道这对于gcc(gas)是否相同或不同，masm和其他汇编程序，那也很好。
c# - 无法加载或组装或其依赖项之一 - 2
我正在使用Aforge.net框架来进行图像处理工作。我添加了“AForge.Video.FFMPEG.dll”作为我项目的引用。我正在使用VS2012和32位构建目标。构建时我得到System.IO.FileNotFoundExceptionwasunhandledHResult=-2147024770Message=Couldnotloadfileorassembly'AForge.Video.FFMPEG.dll'oroneofitsdependencies.Thespecifiedmodulecouldnotbefound.Source=VideoReadereFileName
c# - 将 lambda 作为 IL 流传递给辅助 AppDomain，然后使用 DynamicMethod 将其组装回去 - 2
是否可以将lambda表达式作为IL字节流传递给辅助AppDomain，然后使用DynamicMethod将其组装回去以便调用它？一开始我不太确定这是正确的方法，所以这是我问这个问题的(详细)原因...在我的应用程序中，有很多情况需要加载几个程序集进行反射，这样我才能确定接下来要对它们做什么。问题部分是我需要能够在完成反射后卸载程序集。这意味着我需要使用另一个AppDomain加载它们.现在，我的大多数案例都有点相似，只是不完全相似。例如，有时我需要返回一个简单的确认，有时我需要从程序集中序列化资源流，有时我需要进行一两次回调。所以我最终写了同样的半复杂的临时文件AppDomain一遍
3000元组装电脑配置推荐2023 3000元台式电脑配置清单2023 - 2
CPUAMDRyzen55600G主板映泰B550M-SILVER内存玖合忆界32GB（2×16GB）DDR432001固态硬盘铭瑄电竞之心M.2（1TB）机箱积至黑骑士(标准版)电源积至权利游戏460WS散热器利民AX120RSE组装电脑怎么搭配更合适这些点很重要看过你就懂了http://www.adiannao.cn/duCPUIntel酷睿i39100F1主板梅捷SY-狂龙B360M内存金士顿骇客神条FURY8GBDDR42400（HX424C15FB/8）硬盘西部数据蓝盘1TB7200转64MBSATA3（WD10EZEX）固态硬盘台电极光A800（480GB）显卡影驰GeForceG
java - Spring Boot 2.1.5 Java 11 模块，组装 JAR : Could not create modular JAR file. 时出错 JDK jar 工具退出 1 -> [帮助 1] - 2
运行命令-mvnclean-Dmaven.test.skip=truepackage-X我收到以下错误。[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-jar-plugin:3.1.2:jar(default-jar)onprojectmy-module-one:ErrorassemblingJAR:CouldnotcreatemodularJARfile.TheJDKjartoolexitedwith1->[Help1]org.apache.maven.lifecycle.LifecycleExecutionExcep
用于基因组拼图的 Java 正则表达式 - 2
当给定一串字母A、C、G或T时，我被分配了一个查找基因的问题，例如ATGCTCCTCTTGATTTTTTTATGTGTAGCCATGCACACACACACATAAGA。一个基因以ATG开始，以TAA、TAG或TGA结束(该基因不包括两个端点)。该基因由字母的三联体组成，因此它的长度是三的倍数，并且这些三联体都不能是上面列出的开始/结束三联体。因此，对于上面的字符串，其中的基因是CTCTCT和CACACACACACA。事实上，我的正则表达式适用于该特定字符串。到目前为止，这是我所拥有的(我对自己能走到这一步感到非常满意):(?但是，如果在另一个结果中存在ATG和末端三元组，并且未与该结果
java - Gradle:将多个源集组装到一个 jar 中 - 2
我在这里问了一个相关问题JOOQclassgenerationandgradle在那个问题中，我试图找到进行多阶段构建的最佳方法，包括在中间步骤中生成类。我已经采用了选项二的方法，现在发现自己陷入了僵局。我有以下build.gradle文件applyplugin:'java'applyplugin:'eclipse'sourceSets{bootstrapgenerated{compileClasspath+=bootstrap.output}main{compileClasspath+=bootstrap.outputcompileClasspath+=generated.outpu
你想要的宏基因组-微生物组知识全在这(2023.4) - 2
欢迎点击上方蓝色”宏基因组”关注我们！宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强宏基因组学技术和成果交流传播，推动全球华人微生物组领域发展，中科院青年科研人员创立“宏基因组”公众号，联合海内外同行共同打造本领域纯干货技术及思想交流平台。公众号每日推送，工作日分享宏基因组领域最新成果、科研思路、实验和分析技术，理论过硬实战强；周末科普和生活专栏，轻松读文看片涨姿势。目前分享3100+篇原创文章，15万+小伙伴在这里一起交流学习，累计阅读超3500万+。公众号合作创办了宏基因组学、微生物组和生物信息高起点新刊“iMeta”，由威立、肠菌分会和本领域数百位华人科学家合作出版的开放获