bioinformatics

ruby - 正则表达式蛋白质消化

所以，我正在用一种enzyme(出于好奇，Asp-N)消化蛋白质序列，这种enzyme在单字母编码序列中由B或D编码的蛋白质之前切割。我的实际分析使用String#scan进行捕获。我试图弄清楚为什么以下正则表达式不能正确消化它...(\w*?)(?=[BD])|(.*\b)前提(.*\b)存在以捕获序列的末尾。对于:MTMDKPSQYDKIEAELQDICNDVLELLDSKGDYFRYLSEVASGDN这应该给出如下内容:[MTM,DKPSQY,DKIEAELQ,DICN,DVLELL,DSKG,...]但会遗漏序列中的每个D。我一直在使用http://www.rubular.co

蛋白 ruby code section 34 regex bioinformatics

python - 生物格式-Python 错误 : 'ascii' codec can't encode character u'\xb5' when using OMEXML()

我正在尝试使用Python中的生物格式来读取显微镜图像(.lsm、.czi、.lif，随便你怎么说)，打印出元数据，然后显示图像。ome=bf.OMEXML(md)给我一个错误(如下)。我认为它是在谈论存储在md中的信息。它不喜欢md中的信息不全是ASCII。但是我该如何克服这个问题呢？这是我写的:importTkinterasTk,tkFileDialogimportosimportjavabridgeasjvimportbioformatsasbfimportmatplotlib.pyplotaspltimportnumpyasnpjv.start_vm(class_path=bf

amp 39 code file_full_path path python xml ascii bioinformatics biopython

python - 使用 DOM 从纯文本中提取信息并写入 XML

目前，我正在设计一些糖生物学领域的格式转换工具。格式转换涉及从文本文件到该领域标准的XML文件。大多数时候，我们获得的数据包含如下纯文本文件中的感兴趣信息。实际文件在一行中包含所有这些内容。阅读和拆分此文本以获取信息是微不足道的(可能不直观)，但XML才是问题所在。[][b-D-GlcpNAc]{[(4+1)][b-D-GlcpNAc]{[(4+1)][b-D-Manp]{[(3+1)][a-D-Manp]{[(2+1)][a-D-Manp]{}}[(6+1)][a-D-Manp]{[(3+1)][a-D-Manp]{}[(6+1)][a-D-Manp]{}}}}如何解释:所有w-w-

python DOM 34 residue residue_link xml bioinformatics

windows - blastdbcmd - 太多位置参数 <1>，违规值 : %f

我正在尝试使用blastdbcmd-当我在cmd上键入以下内容时blastdbcmd-dbdatabaseBLAST-entry_batch-outfmt"%f"-outtest_query.txt弹出如下错误:Error:Toomanypositionalarguments,theoffendingvalue:%f我输入了%f以使其成为Fasta格式，即使在互联网上花了很多时间来弄清楚，我仍然不知道如何解决这个错误。你能帮帮我吗？最佳答案也许有点晚了，但我认为这可能是UTF-8与ISO-latin找到惹恼方法的又一案例:我在使

blastdbcmd 违规 section code windows cmd bioinformatics fasta blast

java - 在 MATLAB 中更改 seqlogo 图形的 x 轴

我正在制作大量seqlogos以编程方式。它们有数百列宽，因此运行seqlogo通常会创建太细而看不见的字母。我注意到我只关心其中的一些列(不一定是连续的列)......大多数是噪音，但有些是高度保守的。我使用类似这样的片段:wide_seqs=cell2mat(arrayfun(@randseq,repmat(200,[5001]),'uniformoutput',false));wide_seqs(:,[17,30,55,70,130])=repmat(['ATCGG'],[5001])conserve_cell=seqlogo(wide_seqs,'displaylogo',fa

seqlogo MATLAB 39 code java plot bioinformatics

java - 查询 DNS 服务记录以查找主机名和 TCP/IP

在一篇关于生命科学标识符(参见LSIDTester,atoolfortestingLifeScienceIdentifierresolutionservices)的论文中，RodericDMPage博士写道:给定LSIDurn:lsid**:ubio.org**:namebank:11815，向DNS查询_lsid._tcp的SRV记录。ubio.org返回animalia.ubio.org:80作为ubio.orgLSID服务的位置。我了解到我可以在unix上使用host命令将_lsid._tcp.ubio.org链接到animalia.ubio.org:80:host-tsrv_l

java DNS section ubio strong host bioinformatics

java - 人类细胞的有丝 split

我正在为我的项目用Java编写遗传过程，我想模拟人体细胞的有丝split。一个人体细胞含有23对染色体。有丝split基本上是一种细胞split或繁殖，其中一个细胞产生两个基因相同的子细胞。您可以在此处找到有关它的图片(向下滚动页面一点):Mitosis我认为这种有丝split就像类“Cell”中的java方法一样。所以我用它自己的方法制作了一个类Chromosome来表示单个染色体，并制作了一个包含23对染色体的类“Cell”。我计划将方法mitosis放在Cell类中，但问题是此方法应返回2个相同的单元格，我认为不可能在此类中创建返回2个单元格的方法。我考虑过制作一个方法来返回一个

split java Cell section mitosis bioinformatics

hadoop - 下载 Hadoopizer 的问题

我想使用框架hadoopizer但我找不到hadoopizer.jar，你能告诉我在哪里可以找到它吗这里是github站点:https://github.com/genouest/hadoopizer/tree/v1.0他们告诉我从这里下载hadoopizerhttps://github.com/genouest/hadoopizer/downloads但是找不到hadoopizerbin 最佳答案正如上面BinaryNerd所建议的，链接已损坏，但您可以克隆源代码并构建jar。我能够使用git和ant通过以下步骤完成此操作。我知

Hadoopizer hadoop code section bioinformatics

windows - 如何在 Cygwin 上安装袖扣

我正在尝试使用Cygwin在我的Windows7系统上安装cufflinks2.0.1。我已经完成了Make命令之前的所有安装步骤，但是该make命令由于某种原因一直失败。我想知道是否有人可以告诉我为什么。我正在使用Boost版本1.50首先，这是我运行配置文件时发生的情况:BenjaminS@BenjaminS-HP/cygdrive/c/analysistools/cufflinks-2.0.1$./configure--prefix=/cygdrive/c/analysistools/cufflinks--with-boost=/cygdrive/c/AnalysisTools/

何在 windows checking differential include boost makefile cygwin bioinformatics

MongoDB:存储染色体/位置最有效的方法是什么

我想使用MongoDB存储一些基因组位置(染色体、位置)。类似于:{chrom:"chr2",position:100,name:"rs25"}我希望能够快速找到给定段(chrom，[posStart-posEnd])中的所有记录。最好使用什么key/_id？一个chrom，位置对象？db.snps.save({_id:{chrom:"chr2",position:100},name:"rs25"})填充字符串?db.snps.save({_id:"chr02:00000000100",chrom:"chr2",position:100,name:"rs25"})在chrom和位置上带

MongoDB 存储 strong section code indexing position bioinformatics database

12 3 4