「干活」基因组组装之前要做的：Genome Survey

陈有朴 2023-09-21 原文

基因组组装之前，有一些问题还是需要注意的，

genome size是多少？
评估得到的genome heterozygosity是多少？
重复序列的占比是多少？

可以系统性地称为genome survey，这是一个非常简单的分析，但是其实有一些问题是值得注意的

Genome Survey一般基于Illumina short reads进行分析，因为二代测序便宜，先测出来试试水，

再判断三代的数据量，这应该算是一个非常经济实惠的做法。

分析流程

1）fastp、Trimmomatic等软件挑一个过滤低质量序列

2）Jellyfish 2.3.0、KMC3

我个人其实比较喜欢KMC，因为可以直接读取.gz文件（绝对不是因为之前KMC作者帮助我愉快地解决了一个Bug），但是解决jellyfish脚本的过程中也让我对Shell Kernel有了一个更深刻的理解。

3）Genome Scope 2.0、GCE等软件，挑一个进行genome size、heterozygosity等指标的估计

我个人比较熟悉的还是Genome Scope 2.0，因为这个软件可以用于判断auto-tetraploid和allo-tetraploid，

同时作者Michael C. Schatz的实验室还开发了FALCON~

fastp

vim fastp.sh
sh fastp.sh 2>fastp.err.log &

Shell script:

#!/bin/bash
# Preset
dir=<specicy_path_of_your_rawdata>
echo "The raw dataset is placed at $dir"
echo "Now running Quality control"
thread=24    # set 24 threads
quality=20   # set quality cutoff to 20 based on Phred33 
# 
fastp -w $thread -q $quality -i $dir/sample1.fq.gz -I $dir/sample2.fq.gz -o ./sample_clean_1.fq.gz -O ./sample_clean_2.fq.gz

Jellyfish: count k-mer

vim jellyfish.sh
chmod 777 jellyfish.sh  # key step, otherwise the script below will report syntax error
./jellyfish.sh 2>jellyfish.err.log &

“哼男人，嘴上说着喜欢KMC，但是却用Jellyfish”，

Shell script:

# Preset
dir=<specicy_path_of_your_cleandata>
echo "The clean dataset is placed at $dir"
echo "Now running Jellyfish Kmercount"

# 17mer
echo "Now running 17mer counting"
content1="jellyfish count -C -m 17 -o ./sample.17mer.jf -s 10G -t 24 <(pigz -dc $dir/sample_clean_1.fq.gz) <(pigz -dc $dir/sample_clean_2.fq.gz)"
echo "The command is $content1"

jellyfish count \
-C \
-m 17 \
<( pigz -dc $dir/sample_clean_1.fq.gz ) <( pigz -dc $dir/sample_clean_2.fq.gz ) \
-o ./sample.17mer.jf -s 10G -t 24


# 21mer: recommanded by author
echo "Now running 21mer counting"
content2="jellyfish count -C -m 21 -o ./sample.21mer.jf -s 10G -t 24 <(pigz -dc $dir/sample_clean_1.fq.gz) <(pigz -dc $dir/sample_clean_2.fq.gz)"
echo "The command is $content2"

jellyfish count \
-C \
-m 21 \
<( pigz -dc $dir/sample_clean_1.fq.gz ) <( pigz -dc $dir/sample_clean_2.fq.gz ) \
-o ./sample.21mer.jf -s 10G -t 24

注意点：为什么要用chmod 777？
答：未经777赋予可执行权限的脚本，仍为shell脚本，需要指定bash或者sh来运行程序，即不可从jellyfish直接开始运行程序，

就好比原本的运行方式为bash <script_name>.sh，现在要修改成为./<script_name>.sh的运行方式，不然就会出现syntax errror

Jellyfish: k-mer spectrum generation

jellyfish histo -t 24 -l 1 -h 500000 sample.17mer.jf > sample.17mer.histo &
jellyfish histo -t 24 -l 1 -h 500000 sample.21mer.jf > sample.21mer.histo &

注意点：upper limitation的修改。

Genome Scope 2.0的分析需要将k-mer spectrum的upper limit设置得高一些，不然后续genome size估计塌缩比例会特别大。

Genome Scope 2.0 + Smudeplot

1）The estimation of genome size, heterozygosity, etc.

vim genomescope.sh
chmod 777 genomescope.sh
./genomescope.sh 2>genomescope.err.log &

Shell script:

script=<path_to_your_genomescope_repo>/genomescope.R
dir=<where_kmerspectrum_deposited>
Rscript $script -i <input_histo> -o ./ -n <outputname> -p <ploidy_level> -k <kmer_used>

2）Kmer-pair plot

这部分官网其实给出了比较好的流程，我就只是简单概括走一下，

dir=<specify_your_kmercount_database>
L=$(smudgeplot.py cutoff <histo_from_kmc> L)
U=$(smudgeplot.py cutoff <histo_from_kmc> U)
echo $L $U # these need to be sane values
# conda activate genomesurvey
kmc_tools transform $dir/<kmc_db> -ci"$L" -cx"$U" dump -s smudgeplot_kmc_db/<kmc_db>.kmc_L"$L"_U"$U".dump
# conda activate smudgeplot
smudgeplot.py hetkmers -o smudgeplot_kmercounts/<kmc_db>.kmc_L"$L"_U"$U" < smudgeplot_kmc_db/<kmc_db>.kmc_L"$L"_U"$U".dump

# Plot
smudgeplot.py plot <kmc_db>._L"$L"_U"$U"_coverages.tsv

结果示意图如下，Smudgeplot给出了最有可能的kmer pair情况，从而来判定倍性

image.png

基因组大小估计需要注意的点，

0）三代数据不适合用于Kmer分析，因为测序错误率高了很多，会对分析结果产生非常大的影响，

但是HiFi reads以及canu和falcon产生的corrected reads可以很好的适用于Genome Scope分析

1）jellyfish histo输出时指定的maximum kmer-freq，会极大地影响到genome size的估计，因此需要根据自己的数据进行调整，一般100000再往上也可

2）genonomescope.R的-p以及--kcov的设置，都会影响到genome size的估计

比如在genomescope2.0 model下，如果在输入数据和模型都已经定下来的基础上，将--kcov设置为原本的一倍，则genome size的大小估计会减半（此处感兴趣的，我建议还是自行搜索下基于kmer计算genome size的公式）

3）结果中的transformed_linear_plot和linear_plot有什么区别？

前者的observed曲线经过了一个转换，越往后的peak其峰值越大，即在原始的kmer freq上乘了一个n（n代表第n个peak），

后者的observed曲线为实际观测到的一个数值，没有经过上述转换

transformed linear：

image.png

linear plot：

image.png

4）Genome Scope 2.0分析时，如果将过多的kmer判定为了error，最终的genome size就会小了特别多（基于genome size的计算公式）

背后的原理

首先需要明确的一个点是：Genome Scope 是基于diploid进行编写的。

关于二倍体物种的基因组大小估计，如何理解。我想要举一个非常简单的例子来理解：

给个用kmer将genome给“划分”开的示意，

                kmer:   ---A--
                         --A---
                          -A----
                           A-----
                genome: ---A-----------------------------------------------

假设当前的基因组非常纯合（-> homozygous, not -> heterozygous），kmer会在某一个频数上呈现一个峰值，
但是如果当前的基因组杂合度上升了，也就是我们一般在文献中看到的heterozygosity，kmer在另一个频数较小的区域，也会呈现一个峰值，也就是Genome Survey中提到的杂合峰

就比如下图中的T，是A对应的allele。该种情况的存在，会导致kmer出现另一种情况，从而降低了纯合峰的高度，比如下图的例子就表示了对应位置kmer的频数，从4降低到了2，

即可以将diploid的kmer topology理解为：aa，ab

                kmer:   ---A--
                         --A---
                genome: ---A-----------------------------------------------
                           T
                        ---T--
                         --T---

所以，为了满足polyploid的产生，Genome Scope 2.0被开发 —— 基于负二项分布的Kmer模型，用于估计genome size、heterozygosity等。

三倍体的kmer topolygy：aaa（3种haplotype均一致），aab（有1种haplotype和另外2个haplotype存在区别），abc（3种haplotype各不相同）

四倍体的kmer topology：aaaa，aaab，aabb，abcd

参考资料

[1] https://github.com/schatzlab/genomescope/issues/32

[2] https://github.com/schatzlab/genomescope/issues/43

[3] https://github.com/schatzlab/genomescope/issues/48

[4] https://github.com/schatzlab/genomescope

[5] https://github.com/KamilSJaron/smudgeplot

干活基因 code section sample

有关「干活」基因组组装之前要做的：Genome Survey的更多相关文章

ruby - 如何在 Rails 4 中使用表单对象之前的验证回调？ - 2
我有一个服务模型/表及其注册表。在表单中，我几乎拥有服务的所有字段，但我想在验证服务对象之前自动设置其中一些值。示例:--服务Controller#创建Action:defcreate@service=Service.new@service_form=ServiceFormObject.new(@service)@service_form.validate(params[:service_form_object])and@service_form.saverespond_with(@service_form,location:admin_services_path)end在验证@ser
ruby-on-rails - 如何处理 Grape 中特定操作的过滤器之前？ - 2
我正在我的Rails项目中安装Grape以构建RESTfulAPI。现在一些端点的操作需要身份验证，而另一些则不需要身份验证。例如，我有users端点，看起来像这样:moduleBackendmoduleV1classUsers现在如您所见，除了password/forget之外的所有操作都需要用户登录/验证。创建一个新的端点也没有意义，比如passwords并且只是删除password/forget从逻辑上讲，这个端点应该与用户资源。问题是Grapebefore过滤器没有像except,only这样的选项，我可以在其中说对某些操作应用过滤器。您通常如何干净利落地处理这种情况？
ruby-on-rails - 在 Ruby on Rails 中发送响应之前如何等待多个异步操作完成？ - 2
在我做的一些网络开发中，我有多个操作开始，比如对外部API的GET请求，我希望它们同时开始，因为一个不依赖另一个的结果。我希望事情能够在后台运行。我找到了concurrent-rubylibrary这似乎运作良好。通过将其混合到您创建的类中，该类的方法具有在后台线程上运行的异步版本。这导致我编写如下代码，其中FirstAsyncWorker和SecondAsyncWorker是我编写的类，我在其中混合了Concurrent::Async模块，并编写了一个名为“work”的方法来发送HTTP请求:defindexop1_result=FirstAsyncWorker.new.async.
ruby-on-rails - 在所有延迟的作业之前 Hook - 2
是否可以在所有delayed_job任务之前运行一个方法？基本上，我们试图确保每个运行delayed_job的服务器都有我们代码的最新实例，所以我们想运行一个方法来在每个作业运行之前检查它。(我们已经有了“check”方法并在别处使用它。问题只是关于如何从delayed_job中调用它。) 最佳答案现在有一种官方方法可以通过插件来做到这一点。这篇博文通过示例清楚地描述了如何执行此操作http://www.salsify.com/blog/delayed-jobs-callbacks-and-hooks-in-rails(本文中描述
ruby-on-rails - define_method 在调用方法之前不使用变量？ - 2
我无法从for循环中获取变量。似乎i(var)是稍后计算的，而不是我完全需要的类定义。ree-1.8.7-2010.02>classPatree-1.8.7-2010.02?>foriin39..47ree-1.8.7-2010.02?>define_method("a#{i}".to_sym)doree-1.8.7-2010.02>putsiree-1.8.7-2010.02?>endree-1.8.7-2010.02?>endree-1.8.7-2010.02?>end#=>39..47ree-1.8.7-2010.02>p=Pat.new#=>#ree-1.8.7-2010.02
ruby-on-rails - ActiveRecord:除非另有说明，否则在保存之前使所有文本字段都调用 strip - 2
多年来，我在各种网站上遇到过各种问题，用户在字符串和文本字段的开头/结尾放置空格。有时这些会导致格式/布局问题，有时会导致搜索问题(即搜索顺序看起来不对，但实际上并非如此)，有时它们实际上会使应用程序崩溃。我认为这会很有用，而不是像我过去所做的那样放入一堆before_save回调，向ActiveRecord添加一些功能以在保存之前自动调用任何字符串/文本字段上的.strip，除非我告诉它不是，例如do_not_strip:field_x,:field_y或类定义顶部的类似内容。在我去弄清楚如何做到这一点之前，有没有人看到更好的解决方案？明确一点，我已经知道我可以做到这一点:befor
ruby-on-rails - 如何在 Rails 3 中保存到数据库之前格式化值 - 2
我有一个带有利润字段的用户模型。利润字段是DECIMAL(11,0)类型。我在表单上有一个屏蔽输入，允许用户输入1,000美元之类的内容。我想格式化该值并从中删除除数字以外的所有内容，这样我将保存1000。这是我到目前为止所拥有的:classUser但它一直在数据库中保存0。看起来它在我的格式化函数之前将其转换为十进制。最佳答案试试这个:defprofit=(new_profit)self[:profit]=new_profit.gsub(/[^0-9]/,'')end 关于ruby
ruby-on-rails - Ruby on Rails - 我可以在调用之前修改属性的值吗？ - 2
假设我有一个名为Product的模型，其中有一个名为brand的字段。假设brand的值以this_is_a_brand格式存储。我可以在模型(或其他任何地方)中定义一个方法，允许我在调用brand之前修改它的值吗？例如，如果我调用@product.brand，我想得到ThisisaBrand，而不是this_is_a_brand。最佳答案我建议使用方括号语法([]和[]=)而不是read_attribute和write_attribute。方括号语法更短并且designedtowraptheprotectedread/writ
ruby-on-rails - 在 Rails 中，如何在特定的 Rspec 测试之前加载所有代码？ - 2
我有一些Rspec测试有时会因错误而失败:自动加载常量时检测到循环依赖。这些测试是多线程的(rufus-scheduler测试)，这显然是自动加载代码的已知问题(http://route.github.io/2013/11/13/rails-autoloading.html)。如果我在config/environments/test.rb中设置config.eager_load=true，我可以使测试始终如一地工作。但是，我担心当它变大时，这会真正减慢我的测试套件的其余部分。有什么方法可以仅为我的多线程测试设置这个预加载选项吗？rails4.1.4 最佳答案
ruby-on-rails - 我可以在 :all with capybara? 之前使用吗 - 2
我有一个这样的描述block:describe"Documents"dosubject{page}let(:course){FactoryGirl.create(:course)}describe"new"dobeforedovisitnew_course_document_path(course)fill_in"Name",with:"TestDocument"attach_file"Originaldocument","#{Rails.root}/spec/fixtures/03_GUI_concurrency.pdf"endit{shouldhave_selector('titl

「干活」基因组组装之前要做的：Genome Survey

分析流程

fastp

Jellyfish: count k-mer

Jellyfish: k-mer spectrum generation

Genome Scope 2.0 + Smudeplot

背后的原理

参考资料

有关「干活」基因组组装之前要做的：Genome Survey的更多相关文章

随机推荐