mecat2可以说是比较早的一批可以用于三代测序平台的基因组组装软件了,2017年刚上硕士的时候就有接触到过。当然还有WTDBG2也是差不多同时期的软件。
这次没法无脑conda了,得从源码开始编译。就当忆苦思甜吧,见识一下如果没有conda加持,软件安装是一个什么样的过程。不过mecat2的安装已经是比较新手友好型的了。
git clone https://github.com/xiaochuanle/MECAT2.git
cd MECAT2
make
记得把MECAT/Linux-amd64/bin的路径加入环境变量以便全局调用哦。
把多个测序文件的存储路径写入fastq.list
ls /path/to/rawData/pacbio/*.gz > fastq.list
再用mecat2.pl生成一个config文件
mecat.pl config > test.config
有的时候你会遇到软件输出这么一句:
Smartmatch is experimental at /path/to/MECAT2/Linux-amd64/bin/Plgd/Project.pm line 232.
这只是一个warning,不用管他。它实际上说的内容也不过是告诉你一下Project.pm这个程序的232行所使用的Smartmatch这个功能是一个实验性功能。没了。你就当无事发生过就好。
接下来根据你的需求去修改config文件即可。
PROJECT=test
RAWREADS=/path/to/04mecat2/fastq.list
GENOME_SIZE=xxxxxxxxx
THREADS=80
MIN_READ_LENGTH=2000
CNS_OVLP_OPTIONS="-kmer_size 13"
CNS_PCAN_OPTIONS="-p 100000 -k 100"
CNS_OPTIONS=""
CNS_OUTPUT_COVERAGE=30
TRIM_OVLP_OPTIONS="-skip_overhang"
TRIM_PM4_OPTIONS="-p 100000 -k 100"
TRIM_LCR_OPTIONS=""
TRIM_SR_OPTIONS=""
ASM_OVLP_OPTIONS="-n 100 -z 10 -b 2000 -e 0.5 -j 1 -u 0 -a 400"
FSA_OL_FILTER_OPTIONS="--max_overhang=-1 --min_identity=-1"
FSA_ASSEMBLE_OPTIONS=""
CLEANUP=0
USE_GRID=true
注意这里的GENOME_SIZE只能识别bp为单位的数字大小,所以不要设置成3.2g之类的,软件识别不了。
其他参数就根据GitHub上的介绍或者我下面列出的洲更学长的帖子去设置就可以了。
直接nohup挂后台运行就可以了。
nohup mecat.pl assemble turtle.config &
GitHub地址:
https://github.com/xiaochuanle/MECAT2#S-input-format洲更学长的教程贴:
https://zhuanlan.zhihu.com/p/81172953文章:
https://www.nature.com/articles/nmeth.4432
necat(https://github.com/xiaochuanle/NECAT)同样是肖老师组开发的,专为ONT数据设计,国内的一些测序公司指定使用的ONT数据组装软件,你值得try try。pecat(https://github.com/lemene/PECAT)现在还处在活跃地开发中。
PECATis a phased error correction and assembly tool for long reads. It includes a haplotype-aware correction method and an efficient diploid assembly method.
这个软件的目标是组装出单倍体级别的基因组,在necat和mecat的技术积累上,基因组组装软件也朝着更精细更准确更完善的方向发展着。真好啊。
我本来想测试一下看看效果,但是挂在了第一步的软件安装上。不过看起来作者们有在积极地更新,期待最终成果。
pecat的文章:https://www.biorxiv.org/content/10.1101/2022.09.25.509436v1
我正在尝试在iOS上以编程方式创建一个xlsx文件。由于xlsx文件的内部数据基本上存储在单独的xml文件中,我尝试重新创建xlsx结构及其所有文件和子目录,将它们压缩成一个zip文件并将其扩展名设置为xlsx。我使用GDataXML解析器/编写器来创建所有必需的xml文件。但是,我得到的文件不能作为xlsx文件打开。即使我从有效的xlsx文件中提取所有数据,通过从原始xml文件复制数据并手动压缩它们来手动创建所有xml文件,我也无法重新创建有效的xlsx文件。问题是:xlsx真的只是一个包含xml文件的存档吗?如果我不能将xml文件压缩成zip文件并将其扩展名设置为xlsx,我该如何
让我们从背景说起。我需要为ODBC命令设置一串属性:SQLConfigDataSource(hwndParent,ODBC_ADD_DSN,sDriver,wcAttrs);属性必须以严格的方式格式化才能工作:LPCWSTRwcAttrs=L"DSN=NiceDB\0DBQ=C:\\Users\\who\\AppData\\Local\\NiceApp\\niceDB.accdb\0";以这种方式进行硬编码是可行的,但实际上我需要动态设置accdb文件(DBQ)的路径。问题是分隔字符串中的属性所需的空字符,而我主要使用wcscat_s的string-fu技能失败了,因为空字符会使它后面
我有兴趣在Windows上进行最少的汇编编程。没有GUI,只有一个普通的旧.exe程序,它将向控制台打印一些字符。为了查看是否可以在Windows上简单地编译和运行程序集,我尝试了以下操作:测试.s:ret命令行:gcctest.s我得到了以下错误:Infunction'main':undefinedreferenceto'WinMain'所以问题是我如何将一个简单的无用汇编程序编译为Windows可执行文件?我需要在每个程序中定义WinMain吗?它是gcc的标志吗?我真的不在乎我使用哪个汇编器,但是如果有人知道这对于gcc(gas)是否相同或不同,masm和其他汇编程序,那也很好。
我正在使用Aforge.net框架来进行图像处理工作。我添加了“AForge.Video.FFMPEG.dll”作为我项目的引用。我正在使用VS2012和32位构建目标。构建时我得到System.IO.FileNotFoundExceptionwasunhandledHResult=-2147024770Message=Couldnotloadfileorassembly'AForge.Video.FFMPEG.dll'oroneofitsdependencies.Thespecifiedmodulecouldnotbefound.Source=VideoReadereFileName
是否可以将lambda表达式作为IL字节流传递给辅助AppDomain,然后使用DynamicMethod将其组装回去以便调用它?一开始我不太确定这是正确的方法,所以这是我问这个问题的(详细)原因...在我的应用程序中,有很多情况需要加载几个程序集进行反射,这样我才能确定接下来要对它们做什么。问题部分是我需要能够在完成反射后卸载程序集。这意味着我需要使用另一个AppDomain加载它们.现在,我的大多数案例都有点相似,只是不完全相似。例如,有时我需要返回一个简单的确认,有时我需要从程序集中序列化资源流,有时我需要进行一两次回调。所以我最终写了同样的半复杂的临时文件AppDomain一遍
CPUAMDRyzen55600G主板映泰B550M-SILVER内存玖合忆界32GB(2×16GB)DDR432001固态硬盘铭瑄电竞之心M.2(1TB)机箱积至黑骑士(标准版)电源积至权利游戏460WS散热器利民AX120RSE组装电脑怎么搭配更合适这些点很重要看过你就懂了http://www.adiannao.cn/duCPUIntel酷睿i39100F1主板梅捷SY-狂龙B360M内存金士顿骇客神条FURY8GBDDR42400(HX424C15FB/8)硬盘西部数据蓝盘1TB7200转64MBSATA3(WD10EZEX)固态硬盘台电极光A800(480GB)显卡影驰GeForceG
运行命令-mvnclean-Dmaven.test.skip=truepackage-X我收到以下错误。[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-jar-plugin:3.1.2:jar(default-jar)onprojectmy-module-one:ErrorassemblingJAR:CouldnotcreatemodularJARfile.TheJDKjartoolexitedwith1->[Help1]org.apache.maven.lifecycle.LifecycleExecutionExcep
当给定一串字母A、C、G或T时,我被分配了一个查找基因的问题,例如ATGCTCCTCTTGATTTTTTTATGTGTAGCCATGCACACACACACATAAGA。一个基因以ATG开始,以TAA、TAG或TGA结束(该基因不包括两个端点)。该基因由字母的三联体组成,因此它的长度是三的倍数,并且这些三联体都不能是上面列出的开始/结束三联体。因此,对于上面的字符串,其中的基因是CTCTCT和CACACACACACA。事实上,我的正则表达式适用于该特定字符串。到目前为止,这是我所拥有的(我对自己能走到这一步感到非常满意):(?但是,如果在另一个结果中存在ATG和末端三元组,并且未与该结果
我在这里问了一个相关问题JOOQclassgenerationandgradle在那个问题中,我试图找到进行多阶段构建的最佳方法,包括在中间步骤中生成类。我已经采用了选项二的方法,现在发现自己陷入了僵局。我有以下build.gradle文件applyplugin:'java'applyplugin:'eclipse'sourceSets{bootstrapgenerated{compileClasspath+=bootstrap.output}main{compileClasspath+=bootstrap.outputcompileClasspath+=generated.outpu
欢迎点击上方蓝色”宏基因组”关注我们!宏基因组/微生物组是当今世界科研最热门的研究领域之一,为加强宏基因组学技术和成果交流传播,推动全球华人微生物组领域发展,中科院青年科研人员创立“宏基因组”公众号,联合海内外同行共同打造本领域纯干货技术及思想交流平台。公众号每日推送,工作日分享宏基因组领域最新成果、科研思路、实验和分析技术,理论过硬实战强;周末科普和生活专栏,轻松读文看片涨姿势。目前分享3100+篇原创文章,15万+小伙伴在这里一起交流学习,累计阅读超3500万+。公众号合作创办了宏基因组学、微生物组和生物信息高起点新刊“iMeta”,由威立、肠菌分会和本领域数百位华人科学家合作出版的开放获