草庐IT

git - 从 Git 历史记录中删除二进制文件后,为什么我的存储库仍然很大?

coder 2023-06-24 原文

所以让我先说这个问题,我知道之前关于 Stackoverflow 主题的问题。事实上,我已经尝试了我能找到的所有解决方案,但我的仓库中有一个二进制文件拒绝删除并继续大大增加我的仓库大小。

我试过的方法,

  • David Underhill's script
  • Github's Howto

  • 两者都是由 Darhuuk 对 Remove files from git repo completely 的回答推荐的

    但是,在尝试了这两种解决方案后,script to find large files in git仍然找到有问题的二进制文件。但是来自 this answer 的脚本不再找到二进制文件的提交。这两个脚本都是由 this answer 建议的.

    尝试删除后,repo 仍然是 44mb,这对于相对较小的源来说太大了。哪些建议大文件脚本正确地完成它的工作。我试过推到 github (我做了一个 fork 以防万一)然后做一个新的克隆来查看 repo 大小是否减少,但它仍然是相同的大小。

    有人可以解释我做错了什么或提出替代方法吗?

    我应该注意,我不仅对从本地存储库中修剪文件感兴趣,还希望能够在 Github 上修复远程存储库。

    最佳答案

    2017 年编辑:您可能应该查看 BFG Repo-Cleaner如果你正在阅读这篇文章。

    令人尴尬的是,我的本地存储库没有缩小的原因是因为我在过滤器分支中使用了错误的文件路径。因此,虽然我感谢 J-16 SDiZ 和 CodeGnome 的回答,但我的问题是在椅子和键盘之间。

    为了让这个问题不再是我愚蠢的纪念碑,并且对人们真正有用,我花时间写下了在修剪 repo 后必须经历的步骤,以便在 Github 上恢复 repo .希望这可以帮助某人解决问题。

    删除违规文件

    要删除有问题的文件,请运行下面的 shell 脚本,基于 Github remove sensitive data howto

    #!/usr/bin/env bash
    git filter-branch --index-filter 'git rm -r -q --cached --ignore-unmatch '$1'' --prune-empty --tag-name-filter cat -- --all
    
    rm -rf .git/refs/original/
    git reflog expire --expire=now --all
    git gc --prune=now
    git gc --aggressive --prune=now
    

    我浏览了本地存储库中的每个分支并执行了此操作,但老实说我不确定是否需要这样做,(您不需要在每个分支上都执行此操作)但是下一步需要每个本地分支,所以记在脑子里。完成后,您应该会看到本地存储库的大小减少。您还应该能够在 CodeGnome 的答案中运行 blob 脚本并查看有问题的 blob 删除。如果没有,请仔细检查文件名和路径并确保它们是正确的。

    什么 git filter-branch这里实际上是在 repo 中的每个提交中运行引号中列出的命令。

    脚本的其余部分只是清除旧数据的任何缓存版本。

    push 修剪后的 repo

    现在本地存储库处于状态,您需要它的诀窍是将其备份到 Github 上。不幸的是,据我所知,无法从 Github 存储库中完全删除二进制数据,这里引用了 Github sensitive data howto

    Be warned that force-pushing does not erase commits on the remote repo, it simply introduces new ones and moves the branch pointer to point to them. If you are worried about users accessing the bad commits directly via SHA1, you will have to delete the repo and recreate it.



    您需要重新创建 Github 存储库很糟糕,但好消息是重新创建存储库实际上非常容易。痛苦的是,您还必须重新创建问题和 wiki 中的数据,我将在下面进行介绍。

    我推荐的是在 github 中创建一个新的 repo,然后当你准备好时用你的旧 repo 将它切换出来。这可以通过将旧的重命名为“repo name old”,然后将新创建的 repo 的名称更改为“repo name”来完成。确保在创建新存储库时使用 README 取消选中初始化,否则您将不会处理干净的石板。

    如果你完成了最后一步,你应该清理你的仓库并准备好。现在需要更改 Remote 以匹配新的 Github 存储库位置。我通过直接编辑 .git/config 文件来做到这一点,尽管我确信有人会告诉我这不是正确的做法。

    在进行推送之前,请确保您在本地存储库中拥有要推送的所有分支和标签。准备好后,使用以下命令推送所有分支
    git push --all
    git push --tags
    

    现在你应该有一个远程仓库来匹配你修剪过的本地仓库。仔细检查所有数据以防万一。

    现在,如果您不必担心问题或 wiki,您就大功告成了。如果你继续阅读。

    在维基上移动

    Github wiki 只是与您的主存储库相关联的另一个存储库。因此,要开始在某处克隆您的旧 wiki 存储库。然后下一部分有点棘手,据我所知,您需要单击新存储库的 wiki 选项卡才能创建 wiki,但它会为新创建的 wiki 植入一个初始文件。所以我所做的,我不确定是否有更好的方法,是将 Remote 更改为新创建的 wiki 存储库并使用推送到新位置
    git push --all --force
    

    这里需要强制,否则 git 会提示当前分支的尖端不匹配。我认为这可能会使 git repo 中的初始页面处于分离状态,但它对 repo 大小的影响应该可以忽略不计。

    转移问题

    this answer对此给出了建议。 .但是看着the script在答案中链接它看起来相当不完整,有一个用于评论导入的 TODO,我不知道它是否会带来问题的状态。

    因此,鉴于我有一个相当小的未解决问题队列,而且我不介意丢失已解决的问题,我选择手动提交。请注意,在评论中适本地归因于其他人是不可能做到这一点的。因此,我认为对于一个更成熟的大型项目,您需要编写一个更强大的脚本来完成所有工作,但对于我的特定情况,这不是必需的。

    关于git - 从 Git 历史记录中删除二进制文件后,为什么我的存储库仍然很大?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11255802/

    有关git - 从 Git 历史记录中删除二进制文件后,为什么我的存储库仍然很大?的更多相关文章

    1. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

      类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

    2. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

      我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

    3. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

      我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

    4. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

      我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

    5. ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996?但是 4.2%2==0.2 - 2

      为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返

    6. ruby - ruby 中的 TOPLEVEL_BINDING 是什么? - 2

      它不等于主线程的binding,这个toplevel作用域是什么?此作用域与主线程中的binding有何不同?>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案 事实是,TOPLEVEL_BINDING始终引用Binding的预定义全局实例,而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层,它们都包含相同的绑定(bind),但它们不是同一个对象,您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput

    7. ruby - Infinity 和 NaN 的类型是什么? - 2

      我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN?它们是对象、关键字还是其他东西? 最佳答案 您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串

    8. ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象,为什么它会起作用? - 2

      如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象

    9. ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串? - 2

      关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?

    10. ruby - 当使用::指定模块时,为什么 Ruby 不在更高范围内查找类? - 2

      我刚刚被困在这个问题上一段时间了。以这个基地为例:moduleTopclassTestendmoduleFooendend稍后,我可以通过这样做在Foo中定义扩展Test的类:moduleTopmoduleFooclassSomeTest但是,如果我尝试通过使用::指定模块来最小化缩进:moduleTop::FooclassFailure这失败了:NameError:uninitializedconstantTop::Foo::Test这是一个错误,还是仅仅是Ruby解析变量名的方式的逻辑结果? 最佳答案 Isthisabug,or

    随机推荐