我最近一直在研究如何使用 Hadoop、Hive 和 Pig 进行一些数据转换。作为其中的一部分,我注意到数据文件的架构似乎根本没有附加到文件。数据文件只是平面文件(除非使用类似 SequenceFile 的文件)。每个想要使用这些文件的应用程序都有自己的方式来表示这些文件的架构。
例如,我将一个文件加载到HDFS,并想用Pig 对其进行转换。为了有效地使用它,我需要在加载数据时指定文件的架构:
EMP = LOAD 'myfile' using PigStorage() as { first_name: string, last_name: string, deptno: int};
现在,我知道当使用 PigStorage 存储文件时,可以选择将模式与它一起写出,但是为了首先将文件放入 Pig 中,您似乎需要指定一个模式。
如果我想在 Hive 中使用同一个文件,我需要创建一个表并指定模式:
CREATE EXTERNAL TABLE EMP ( first_name string
, last_name string
, empno int)
LOCATION 'myfile';
在我看来,这是非常脆弱的。如果文件格式发生轻微变化,则必须在每个应用程序中手动更新架构。我敢肯定我很天真,但是将架构与数据文件一起存储是否有意义?这样数据就可以在应用程序之间移植,并且使用其他工具的障碍会降低,因为您不需要为每个应用程序重新编码架构。
所以问题是:有没有一种方法可以在 Hadoop/HDFS 中指定数据文件的模式,或者我是否需要在每个应用程序中指定数据文件的模式?
最佳答案
看起来你在找Apache Avro .使用 Avro,您的模式嵌入到您的数据中,因此您可以阅读它而不必担心模式问题,它使模式演变变得非常容易。
Avro 的伟大之处在于它完全集成在 Hadoop 中,您可以将它与许多 Hadoop 子项目(如 Pig 和 Hive)一起使用。
例如,对于 Pig,您可以执行以下操作:
EMP = LOAD 'myfile.avro' using AvroStorage();
我建议查看 the documentation for AvroStorage了解更多详情。
您还可以按照描述将 Avro 与 Hive 一起使用 here但我没有亲自使用过它,但它应该以相同的方式工作。
关于hadoop - 在 Hadoop 中是否有一个通用的地方来存储数据模式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16842741/
给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta
我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何
我想要做的是有2个不同的Controller,client和test_client。客户端Controller已经构建,我想创建一个test_clientController,我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集,然后呈现客户端Controller的索引View,以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>
这个问题在这里已经有了答案:Checktoseeifanarrayisalreadysorted?(8个答案)关闭9年前。我只是想知道是否有办法检查数组是否在增加?这是我的解决方案,但我正在寻找更漂亮的方法:n=-1@arr.flatten.each{|e|returnfalseife
如果您尝试在Ruby中的nil对象上调用方法,则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而,有一个tryRails中的方法,如果它被发送到一个nil对象,它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常? 最佳答案 像Ruby中的所有其他对象
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串?SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复?
我有一个包含多个键的散列和一个字符串,该字符串不包含散列中的任何键或包含一个键。h={"k1"=>"v1","k2"=>"v2","k3"=>"v3"}s="thisisanexamplestringthatmightoccurwithakeysomewhereinthestringk1(withspecialcharacterslike(^&*$#@!^&&*))"检查s是否包含h中的任何键的最佳方法是什么,如果包含,则返回它包含的键的值?例如,对于上面的h和s的例子,输出应该是v1。编辑:只有字符串是用户定义的。哈希将始终相同。 最佳答案
我需要检查DateTime是否采用有效的ISO8601格式。喜欢:#iso8601?我检查了ruby是否有特定方法,但没有找到。目前我正在使用date.iso8601==date来检查这个。有什么好的方法吗?编辑解释我的环境,并改变问题的范围。因此,我的项目将使用jsapiFullCalendar,这就是我需要iso8601字符串格式的原因。我想知道更好或正确的方法是什么,以正确的格式将日期保存在数据库中,或者让ActiveRecord完成它们的工作并在我需要时间信息时对其进行操作。 最佳答案 我不太明白你的问题。我假设您想检查