xml - 在 Hadoop 中创建许多小的 XML 文件

coder 2024-01-10 原文

我在 Hadoop 中有一个大型数据集，其中包含许多不同客户的数据。

在此数据集中，每个客户都可以有许多订单商品，每天的订单数量从几百到几百万不等。

数据集有大约 50,000 个客户。

我需要做的是为每个客户创建一份每日 XML 报告，其中每个客户的数据都在其自己的文件中。这意味着一些文件会很小，但其他文件会很大(XML 表示非常冗长并且有很多字段)。

编写 Map Reduce 代码来生成 XML 是微不足道的，我解决这个问题的第一个方法是使用 Hadoop Multiple Outputs 在 reducer 中为每个客户编写一个文件。虽然这可行，但所有这些小文件都会给 Namenode 带来很大压力。此外，我需要将所有这些文件从 Hadoop 集群中导出，并将它们放在 Web 应用程序将为它们提供服务的标准文件系统中，因此像这样导出大量文件也可能会出现问题。

我想到的另一个想法是创建一个单独的序列文件，键等于客户，值包含单个交易的 XML，按照构成 XML 报告的顺序预先排序。然后我可以导出单个序列文件并编写一个简单的独立 Java 程序来读取序列文件并为每个客户写出一个文件。我已经在一个小数据集上对此进行了测试，希望性能可以。

有没有其他人遇到过这样的 Hadoop 问题并且对如何解决这个问题有任何其他想法？

序列文件方法听起来像是一种明智的处理方式吗？

最佳答案

据我所知，使用 MapFile因为存储可能会很好地解决您的问题。 MapFile 是一个排序的 SequenceFile，它另外维护一个索引文件，该文件将用于更快地从 map 中寻找键。

您可以从您的工作中组合一个 MapFile，其中键可以是客户 ID，值可以是 xml 内容，在后台 MapFile 创建一个索引文件，该文件将维护客户 ID 键的偏移量。

通过这种方式，您所有客户的 xml 文件都将组成一个 Mapfile，从而消除了小文件问题，这样您的 namenode 就可以轻松呼吸了:)。

在此之后您可以将 Mapfile 导出到任何应用程序，您将不需要将 MapFile 的内容写入磁盘，其中您可以很好地重用 MapFile 本身通过查找客户从中检索客户 xml 内容id 和 MapFile 将支持在索引文件的帮助下进行快速查找。请引用，

http://www.codeproject.com/Articles/887028/Implementing-Joins-in-Hadoop-Map-Reduce-using-MapF

BloomMapFile MapFile 的变体声称可以提供更快的 key 查找，这可能会更好地帮助您。希望这会有所帮助。

关于xml - 在 Hadoop 中创建许多小的 XML 文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30220460/

中创许多 MapFile section Hadoop xml

有关xml - 在 Hadoop 中创建许多小的 XML 文件的更多相关文章

ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby - 使用 Vim Rails，您可以创建一个新的迁移文件并一次性打开它吗？ - 2
使用带有Rails插件的vim，您可以创建一个迁移文件，然后一次性打开该文件吗？textmate也可以这样吗？最佳答案你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件，这正是您想要的。我不能代表textmate。关于ruby-使用VimRails，您可以创建一个新的迁移文件并一次性打开它吗？，我们在StackOverflow上找到一个类似的问题： https://sta
ruby-on-rails - 如何从 format.xml 中删除 <hash></hash> - 2
我有一个对象has_many应呈现为xml的子对象。这不是问题。我的问题是我创建了一个Hash包含此数据，就像解析器需要它一样。但是rails自动将整个文件包含在.........我需要摆脱type="array"和我该如何处理？我没有在文档中找到任何内容。最佳答案我遇到了同样的问题；这是我的XML:我在用这个:entries.to_xml将散列数据转换为XML，但这会将条目的数据包装到中所以我修改了:entries.to_xml(root:"Contacts")但这仍然将转换后的XML包装在“联系人”中，将我的XML代码修改为
Ruby 写入和读取对象到文件 - 2
好的，所以我的目标是轻松地将一些数据保存到磁盘以备后用。您如何简单地写入然后读取一个对象？所以如果我有一个简单的类classCattr_accessor:a,:bdefinitialize(a,b)@a,@b=a,bendend所以如果我从中非常快地制作一个objobj=C.new("foo","bar")#justgaveitsomerandomvalues然后我可以把它变成一个kindaidstring=obj.to_s#whichreturns""我终于可以将此字符串打印到文件或其他内容中。我的问题是，我该如何再次将这个id变回一个对象？我知道我可以自己挑选信息并制作一个接受该信
ruby - 如何使用 Ruby aws/s3 Gem 生成安全 URL 以从 s3 下载文件 - 2
我正在编写一个小脚本来定位aws存储桶中的特定文件，并创建一个临时验证的url以发送给同事。(理想情况下，这将创建类似于在控制台上右键单击存储桶中的文件并复制链接地址的结果)。我研究过回形针，它似乎不符合这个标准，但我可能只是不知道它的全部功能。我尝试了以下方法:defauthenticated_url(file_name,bucket)AWS::S3::S3Object.url_for(file_name,bucket,:secure=>true,:expires=>20*60)end产生这种类型的结果:...-1.amazonaws.com/file_path/file.zip.A

xml - 在 Hadoop 中创建许多小的 XML 文件

有关xml - 在 Hadoop 中创建许多小的 XML 文件的更多相关文章

随机推荐