草庐IT

生信Linux常用命令(更新中)

Shift_shift 2023-03-28 原文

一、压缩和解压缩

1.“.tar.gz”结尾的文件: tar

    tar -cf newfile.tar file1 file2#将file1,file2文件打包到newfile.tar

    tar-zcvf/GSE66507tar.gz#解压文件

    tar -xzvf test.tar.gz#将test.tar.gz文件解压并提取里边的文件

2.“.zip”结尾的文件: zip

    zip newfile.zip file1 file2#将file1,file2进行压缩到newfile.zip内

    unzip newfile.zip#解压

3.“.gz”结尾的文件: gzip

#将file压缩为file.gz

    gzip file

#解压

    gunzip file.gz

4.“.bz2”结尾的文件: bzip2

#将file压缩为file.bz2并删除源文件

    bzip2 file

#解压

    bunzip2file.bz2

二、数据统计和处理

1.sort 将文本文件内容进行排序

参 数: -n/-g 将文件按数值大小从小到大排序(默认按ascii码从小到大排序)

             -k按第num列内容对文件排序(默认按第一列)

             -r 反向排序

    sort file#对file文件按第一列内容ascii码值从小到大排序并输出。

    sort -n -k 3 file#对file文件按第3列内容数值大小从小到大排序。

    sort -nr -k1,2 file#对file文件按数值大小反向排序,优先考虑第一列,再考虑第二列

2.uniq 合并文件中相邻的相同的行

参 数:-c 在每行第一列显示该行重复次数

            -d 仅显示有重复的行

    uniq -c file#合并相同的行,并统计每行重复次数,输出到屏幕

    uniq -d file outfile#合并相同的行,并显示file中有重复出现的行,输出到outfile文件中

#########

3.wc 统计文件中字节数

参 数:-c 只统计字节数/Bytes数

            -w 只统计字数(单词数)

            -l 只统计行数

    wc file#显示文件file的字节数,字数,行数

    wc -l file#显示文件file的行数

4.grep 查找文件中符合条件的行

参 数:-v 不匹配,显示文件中不匹配string的行

    grep world file#查找文件中含有“world”的行

    grep -v world file#查找文件中不含有“world”的行

5.awk 对特定的行中特定的列进行操作

参 数:-F 指定列的分割符,可以使任意字符,默认按空白分割

    awk -F “:” ‘{print $1}’#按“:”来分割并打印出第一列

    awk ‘($1 > 100){print $0}’#对第一列大于100的行整行输出

    awk ‘($1 > 100){print $1”\t”$2}’#对第一列大于100的行输出第一列和第二列的结果并以“\t”分割

    awk ‘($3~/world/){ x+= $1}END{print x}’#对第三列匹配“world”的行的第一列求和,全部处理完之后输出结果x的值

6.sed 文本处理并可对文件进行编辑

参 数:-i 直接在原文件中修改(默认修改后屏幕输出,原文件不变)

    sed -i ‘s/test/new_word/’ file#将file文件中的test字符替换为new_word

    sed -i ‘/pattern/ s/test/new_word/’ file#将file文件中匹配pattern字串的行进行替换操作

    sed -i ‘/^$/ d’ file#将文件file中的空白行删除(d)

7.du 显示目录或文件的大小

参 数:-a 显示目录中个别文件大小

            -s 只显示总计

            -h 以“K” ,“M” ,“G”为单位显示

    du -sh ./#显示当前目录的大小

    du -ah --max-depth=1 dir#显示dir目录下所有文件大小,不包括下一级目录

8.列出目录内容:ls

    ls-I grep"^-"|wc-l#当前文件夹文件数目

9.查看文件内容:less

参 数:-S 每行不显示长于屏幕宽度的字符(默认显示在下一行)

            -N 显示行号

            -e 显示结束后自动离开 

            -f  强制打开文件

            -i    忽略搜索时的大小写 

    less -SN file

10.显示文件每行指定范围的字符:cut

    cut -c 1-10 file#显示文件file每行开头的10个字符

    cut -f 1-10 file#显示文件file每行开头10列(以“\t”分割)

    cut -d “ ” -f 2#显示文件file第二列(以空格分割)

11.man(查看指定的使用方法)

12.quota- uvs shift#当前存储空间

13.后台执行

    nohup sh XXX.sh 2>&1 &

    screen

14.后台命令查看及杀死

    Isof +D HA sort

    kill-9进程号

15.删除文件

rm:无法刪除"":目录非空

16.文件获取

paste、cat文件内容展示拼接

    cat 1.txt 2.txt #将不同文件按照先后顺序接起来

    cat -n 1.txt #显示行号cat-A1.txt #显示文件所有信息,包括换行符$ 回车符^M(需特别注意win系统会多出回车符

    paste 1.txt 2.txt #可将不同个文件中的内容按照文件顺序从左往右排起来

    paste -d ':'#指定":"为文件间的分隔符

    cat 1.txt | paste - - - #将文件内容从左往右排为3大列

17.ps显示当前进程的状态

pstree 该命令列出进程的树状关系图

参数: -A # 列出所有进程,按照进程ID排序

            -a/e# 显示终端所有进程,包括其他用户进程

            -l #长格式输出类似top结果

            -u  用户名# 显示指定用户名进程     

            -x # 显示无控制的终端的进程

             -g  组名 # 显示一个组的使用情况

            -H# 列出树状结构,表示程序间相互关系

            -f# 显示完整格式

            -ef #显示所有进程信息,连同命令行

            常用组合: -aux            -lax        -fx          -ef

    ps 与grep 常用组合用法,查找特定用户进程命令:

    ps -ef | grep  gu   

    jobs -l#可以查看当前终端生效的进程

    ps -ef | grep#进程关键字#查找指定进程格式

    ps -u root #显示root进程用户信息

18.文件比较diff cmp ,若三个以上则用diff3命令

    diff 1.fa 2.fa# 比较两个文件差异 ,

    diff  1.fa 2.fa  -c# 显示成上下文比较的格式,!表示发生变化

    diff  1.fa 2.fa  -u# 显示合并比较的格式,—表示1文件删除行,+表示2文件新增行

    cmp  1.fa 2.fa# 标示出两个文件第一个不同之处的字符和列数编号

三、对文件名的处理操作小技巧

1.只将fq文件的文件名输出而去除文件路径,若echo $i则会带有路径

    ls ~/wk/fq/clean/*fq | while read id ; do echo $(basename $id); done

2.只将fq文件的文件名输出 , 删除.sam的后缀

    ls ~/wk/fq/clean/*fq | while read id ; do echo $(basename $id '.sam' ); done

3.%删除文件名 . 之后的所有后缀, (如果是${id%.*}则删除最后一个.后的后缀)

    ls raw/fq/* | while read id ; do echo $(basename ${id%%.*});done

4.##删除文件名 _ 之前的所有前缀 , (如果是${id#*_}则删除第一个_前的前缀)

        ls raw/fq/* | while read id ; do echo$(basename ${id##*_});done

四、文件处理

1.命令协作管道 |

| 可将上条指令的结果输入到下条指令进行操作

echo -n "123456789" | wc -m #去除换行符后统计123456789字符数

ps -aux | less# 将ps结果放在less中查看

head -5 a | tail -2#显示a文件4、5行

五、命令行界面的一些常用快捷操作

    history 列出1000条历史命令,再用!数字 执行历史中对应数字的命令

    !S# 重新执行前面以S开头的命令

    ;# 可按顺序从左向右完成多个命令操作,如cd  ../ ; ls         

    Ctrl + C# 终止当前操作,重新开命令行   

    Ctrl + L# 进行清屏操作

    Ctrl + Z#挂起命令(使用 bg 命令让其在后台继续运行;使用 fg 命令恢复到前台)

    Ctrl + 左右键#在单词之间跳转

    Ctrl + A#跳到本行的行首

    Ctrl + E# 跳到行尾

    Ctrl + U# 删除当前光标前面的所有文字(还有剪切功能)

    Ctrl + K#删除当前光标后面的所有文字(还有剪切功能)

    Ctrl + Y# 粘贴Ctrl + U或Ctrl + K剪切的内容

    Ctrl + W和Alt + D# 对于当前的单词进行删除操作,W删除光标前面的单词的字符,D则删除后面的字符

    Alt + Backsapce#删除当前光标后面的单词

    \#代码太长时利用  \ 可以将代码分成多段       

    bc#自带计算器,输入scale=4则保留4位小数

六、单、双引号区别

单引号:可以说是所见即所得:即将单引号内的内容原样输出,或者描述为单引号里面看到的是什么就会输出什么。单引号''是全引用,被单引号括起的内容不管是常量还是变量者不会发生替换。

双引号:把双引号内的内容输出出来;如果内容中有命令、变量等,会先把变量、命令解析出结果,然后在输出最终内容来。双引号""是部分引用,被双引号括起的内容常量还是常量,变量则会发生替换,替换成变量内容。

不加引号:不会将含有空格的字符串视为一个整体输出, 如果内容中有命令、变量等,会先把变量、命令解析出结果,然后在输出最终内容来,如果字符串中带有空格等特殊字符,则不能完整的输出,需要改加双引号,一般连续的字符串,数字,路径等可以用。

使用规则:一般常量用单引号''括起即可,如果含有变量则用双引号""括起,无变量无空格无特殊字符的连续字符串可不加引号

最大不同:单引号与双引号的最大不同在于双引号仍然可以保有变数的内容,但单引号内仅能是一般字符,而不会有特殊符号

grep ">" a.txt | wc -l #搜索文件中含有'>'的行,并统计行数

grep -c ">" a.txt # 统计有'>'的行数, 等价于同上

grep -w "chr1" a.txt # 搜索全词精确匹配'chr1'的行,-w表示整个word都匹配上

grep -n "chr1" a.txt #搜索含有字符'chr1'的行并列出行号

grep -vc "chr" a.txt #统计不含'chr'的行数的个数

grep 'chr' a.txt | grep -v 'chrX'# 搜索文本中含有Chromosome的行并排除有Annotation 行     

grep -e "chrX" -e "chrY" a.txt # 参数-e进行多项操作(指定多个匹配模式,只要符合一个都会被输出)

grep -w "chr1" a.txt -A 2# 搜索全词精确匹配'chr1'的行行并列出下面两行。 -A表示after

grep -w "chr1" a.txt -B 2# 使用grep的-B选项,显示匹配内容及其前n行。-B表示before。

grep -w "chr1" a.txt -C 2# 使用grep的-C选项,显示匹配内容及其前n行和后n行。

ls /usr/bin/ | grep "\.py" #搜索特定目录下名字包含'.py'的文件('.'需要转义'./')

ls /usr/bin/ | grep "\.py\b"  或  "\.py$"# 搜索特定目录中以'.py'结尾的文件( '\b'或'$'表示结尾)

ls /usr/bin/ | grep "^ht"#搜索特定目录中以'ht'开头的文件

grep 1[1-9]  a.txt # 应用正则表达式搜索包含'11'-'19'的行

grep -vP "^\s*$" 1.txt # 去除空白行

grep -P "^\d{11}$" 1.txt# 匹配含11位数字的行

七、sed (stream editor,流编辑器) (以每行为单位编辑)

注意sed结果默认为屏幕输出,并不改变原来文件内容,常用>重定向保存修改文件

参数: -e 默认模式,一般用于多项修改,之后常用>重定向保存修改文件

            -i 在原文件上直接进行修改

            -n 安静模式,仅显示处理后的结果,常与p连用,只输出发生更改的特定行

            -f 接脚本文件

sed   's/NC/nc/g'   1.txt>2.txt# 对文件中的NC替换成nc并另存为,s表示替换,g表示全局,命令一般用' '括起来

sed   's/A/a/2'   1.txt# 对文件中的每行第2个A替换成a

sed   's/b/B/g;s/a/A/g'   1.txt# 替换b和a为大写,同时进行多项操作可用`;`分隔开

sed   '1,5s/:/?/g'   2.txt# 只对文件的1至5行内容进行替换':'为'?'

sed   '1,5!s/:/?/g'   2.txt# 只对文件的1至5行内容不进行替换,!表示非

sed   '/>/!s/A/a/g'   gene.fasta# 对含有>的行不进行操作,其他行进行替换

sed   '/beat/,/ggle/s/o/O/g'   1.txt# 将含有'beat'和'ggle'字符行的中间行的'o'替换成'O',选择条件之间用`/`和`,`隔开# 

sed常用的应用: 将fastq格式转化为fasta格式zcatA.1.fq.gz|sed'0~4d'|sed'0~3d'|sed's/^@/>/1'|less

有关生信Linux常用命令(更新中)的更多相关文章

  1. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  2. ruby-on-rails - 使用 rails 4 设计而不更新用户 - 2

    我将应用程序升级到Rails4,一切正常。我可以登录并转到我的编辑页面。也更新了观点。使用标准View时,用户会更新。但是当我添加例如字段:name时,它​​不会在表单中更新。使用devise3.1.1和gem'protected_attributes'我需要在设备或数据库上运行某种更新命令吗?我也搜索过这个地方,找到了许多不同的解决方案,但没有一个会更新我的用户字段。我没有添加任何自定义字段。 最佳答案 如果您想允许额外的参数,您可以在ApplicationController中使用beforefilter,因为Rails4将参数

  3. 华为常用命令 - 2

    system-view进入系统视图quit退到系统视图sysname交换机命名vlan20创建vlan(进入vlan20)displayvlan显示vlanundovlan20删除vlan20displayvlan20显示vlan里的端口20Interfacee1/0/24进入端口24portlink-typeaccessvlan20把当前端口放入vlan20undoporte1/0/10删除当前VLAN端口10displaycurrent-configuration显示当前配置02配置交换机支持TELNETinterfacevlan1进入VLAN1ipaddress192.168.3.100

  4. objective-c - 在设置 Cocoa Pods 和安装 Ruby 更新时出错 - 2

    我正在尝试为我的iOS应用程序设置cocoapods但是当我执行命令时:sudogemupdate--system我收到错误消息:当前已安装最新版本。中止。当我进入cocoapods的下一步时:sudogeminstallcocoapods我在MacOS10.8.5上遇到错误:ERROR:Errorinstallingcocoapods:cocoapods-trunkrequiresRubyversion>=2.0.0.我在MacOS10.9.4上尝试了同样的操作,但出现错误:ERROR:Couldnotfindavalidgem'cocoapods'(>=0),hereiswhy:U

  5. ruby-on-rails - Rails Associations 的更新方法是什么? - 2

    这太简单了,太荒谬了,我在任何地方都找不到关于它的任何信息,包括API文档和Rails源代码:我有一个:belongs_to关联,我开始理解当您没有关联时您在Controller中调用的正常模型方法与您有关联时调用的方法略有不同。例如,我的关联在创建Controller操作时运行良好:@user=current_user@building=Building.new(params[:building])respond_todo|format|if@user.buildings.create(params[:building])#etcetera但我找不到关于更新如何工作的文档:@user

  6. ruby-on-rails - OSX Yosemite 更新破坏了 pow.cx - 2

    升级到OSXYosemite后,我现有的pow.cx安装不起作用。升级到最新的pow.cx无效。通过事件监视器重新启动它也没有成功。 最佳答案 卸载(!)并重新安装解决了这个问题。curlget.pow.cx/uninstall.sh|shcurlget.pow.cx|sh 关于ruby-on-rails-OSXYosemite更新破坏了pow.cx,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/q

  7. ruby - 将 Gitlab 从 9.3.7 更新到 9.3.8 安装 re2 时出错 - 2

    我们在Ubuntu14.04和Gitlab9.3.7上运行,运行良好。我们正在尝试更新到Gitlabv9.3.8的最新安全补丁,但它给我们这个错误:Gem::Ext::BuildError:ERROR:Failedtobuildgemnativeextension.currentdirectory:/home/git/gitlab/vendor/bundle/ruby/2.3.0/gems/re2-1.0.0/ext/re2/usr/local/bin/ruby-r./siteconf20170720-19622-15i0edf.rbextconf.rbcheckingformain(

  8. ruby-on-rails - Rails 更新属性 - 2

    我遇到了以下问题。我有一个名为user的模型,它有一个名为activated的列。我试图通过激活的方法更新该值?但它给我错误:验证失败:密码不能为空,密码太短(最少6个字符)这对我来说没有意义,因为我没有接触密码字段!我只想更新激活的列。我把我认为相关的代码放在这里,但如果你认为你需要更多,请问:)非常感谢您!型号:attr_accessor:passwordattr_accessible:name,:email,:password,:password_confirmation,:activatedhas_many:sucu_votesemail_regex=/\A[\w+\-.]+@

  9. ruby-on-rails - 如果存在则更新,否则什么也不做? - 2

    当且仅当模型存在时,我才尝试更新模型的值。如果没有,我什么都不做。搜索似乎只返回更新或创建问题/答案,但我不想创建。我知道我可以用一个简单的方法来做到这一点:found=Model.find_by_id(id)iffoundupdatestuffend但是,我觉得有一种方法可以在一次调用中完成此操作,而无需分配任何临时本地值或执行if。如果记录不存在,我该如何编写一个Rails调用来更新记录而不出现嘈杂错误?最新的Rails3.x 最佳答案 您可以使用try在对find_by_id或where的结果调用update_attribut

  10. ruby-on-rails - 如何在记录更新期间从验证中排除密码字段? ( rails 3.0.4, ruby 1.9.2) - 2

    我有一个允许更新用户记录的表单。它包含:password和:password_confirmation字段,但我不希望在数据库中已存储加密密码时对它们运行验证。View文件中的字段:'ConfirmPassword'%>在互联网上搜索时,我发现了这段代码,我认为它是针对以前版本的Ruby/Rails的。(我会把它放在我的用户模型中。)validates_presence_of:password,:on=>create由于我的用户模型中密码验证的语法不同(如下),我对我需要的语法感到困惑。validates:password,:presence=>true,:confirmation=>

随机推荐