hadoop - 清洁 AWS EMR 以允许重用

coder 2024-01-08 原文

我有几项任务要在不共享数据的 AWS EMR 上执行，我想使用同一个 EMR 一个接一个地执行它们。有没有办法将正在运行的 EMR 清理回其初始状态(删除配置单元表，清理所有 HDFS 文件等)避免数据冲突？

我想重用 EMR 有几个原因:

创建新的 EMR 可能需要 5-10 分钟。
我的任务是相对较短的时间，20-25 分钟。
一旦创建了 EMR，您就已经为整个小时付费了。

最佳答案

我们没有找到“快速而干净”的 API 来实现此行为。相反，我们巩固了一种简单的工作方法，以保证我们可以清理所有数据。

我们使用特定的数据库而不是默认的数据库。
我们将所有内部数据文件放在 HDFS 中的特定位置。

因此每次启动任务时，它首先删除这个特定的数据库(如果存在)并重新创建它并递归删除 HDFS 中特定位置下的所有数据。

关于hadoop - 清洁 AWS EMR 以允许重用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31411380/

有关hadoop - 清洁 AWS EMR 以允许重用的更多相关文章

ruby-on-rails - RSpec:避免使用允许接收的任何实例 - 2
我正在处理旧代码的一部分。beforedoallow_any_instance_of(SportRateManager).toreceive(:create).and_return(true)endRubocop错误如下:Avoidstubbingusing'allow_any_instance_of'我读到了RuboCop::RSpec:AnyInstance我试着像下面那样改变它。由此beforedoallow_any_instance_of(SportRateManager).toreceive(:create).and_return(true)end对此:let(:sport_
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby - 允许主机名包含下划线的 URI.parse 的替代方法 - 2
我正在使用DMOZ的listofurltopics，其中包含一些具有包含下划线的主机名的url。例如:608609TheOuterHeaven610InformationandimagegalleryofMcFarlane'sactionfiguresforTrigun,Akira,TenchiMuyoandotherJapaneseSci-Fianimations.611Top/Arts/Animation/Anime/Collectibles/Models_and_Figures/Action_Figures612虽然此url可以在网络浏览器中使用(或者至少在我的浏览器中可以使用:
ruby - 为什么允许在 Ruby 类之外定义全局方法？ - 2
我读过这个:Let’sstartwithasimpleRubyprogram.We’llwriteamethodthatreturnsacheery,personalizedgreeting.defsay_goodnight(name)result="Goodnight,"+namereturnresultend我的理解是，方法是定义在类中的函数或子程序，可以关联到类(类方法)或对象(实例方法)。那么，如果它不是在类中定义的，怎么可能是方法呢？最佳答案当你在Ruby中以这种方式在全局范围内定义一个函数时，它在技术上变成了Obje
ruby - 为什么 ruby 中的变量前缀允许在方法调用中省略括号？ - 2
在DavidFlanagan的TheRubyProgrammingLanguage中；松本幸弘theystatethatthevariableprefixes($,@,@@)areonepricewepayforbeingabletoomitparenthesesaroundmethodinvocations.谁可以给我解释一下这个？最佳答案这是我不成熟的意见。如果我错了，请纠正我。假设实例变量没有@前缀，那么我们如何声明一个实例变量？classMyClassdefinitialize#Herefooisaninstanceva
ruby-on-rails - 在 Rails 中分配和重用变量 - 设计模式 - 2
我一直在使用相同的模式来返回json代码(参见下面的示例)。我正在收集照片并将其存储在变量中。如果存在标记参数，我将获得一个更具体的集合并将其重新分配给同一个变量。然后将其作为json返回。什么是更好的设计模式来实现同样的事情？photos=collection_of_photosifparams[:tag]photos=photos.find_all{|photo|somecondition}endrenderjson:photos 最佳答案如果照片是ActiveRecord对象，您应该使用scope为您需要的确切数据生成适当的
ruby-on-rails - 允许管理员激活或停用用户--Rails - 2
我已经设法制作了一个仅用于注册和登录的应用程序。目前，我允许用户通过邮件帐户激活(按照本教程:https://www.railstutorial.org/book/account_activation_password_reset和“railsgeneratecontrollerAccountActivations--no-test-framework')但我希望管理员能够激活或停用用户。在我的用户模型中，我设法定义了两种方法:defactivate_account!update_attribute:is_active,trueenddefdeactivate_account!upda
ruby-on-rails - 允许用户只输入特定的标签 - 2
我正在制作一个应用程序，我需要用户使用所见即所得的编辑器输入描述。我不能信任用户输入，所以我只需要允许a、em、ul、li标签。我如何轻松剥离其他的？最佳答案 https://github.com/rgrove/sanitize/ 关于ruby-on-rails-允许用户只输入特定的标签，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/7390075/
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和
ruby-on-rails - 在多个 Rails 模型中重用方法 - 2
此处为初学者ruby/rails问题。我有一个方法，我目前正在我的“用户”模型中使用。defgenerate_token(列)开始self[列]=SecureRandom.urlsafe_base64在User.exists时结束？(列=>self[列])结束我想在不同的模型中重复使用相同的方法，比如我的帐户模型。在哪里放置这样的代码以便在模型之间共享是个好地方？另外，为了获得调用类，我是否只使用“self.class”？谢谢最佳答案 Rails4关注点就是为了完成这项工作。http://api.rubyonrails.org

hadoop - 清洁 AWS EMR 以允许重用

有关hadoop - 清洁 AWS EMR 以允许重用的更多相关文章

随机推荐