草庐IT

amazon-web-services - 无法从 S3 存储桶( Parquet 文件)将数据加载到 EMR 上的 pig 中

我想从EMR上的Pig中的s3存储桶中加载数据,我的源文件格式是parquet:下面是我用过的命令:A=LOAD's3://test-1/icted/emp_db/emp_tb'USINGparquet.pig.ParquetLoader(header__change_seq:chararray,header__change_oper:chararray,header__change_mask:chararray,header__stream_position:chararray,header__operation:chararray,header__transaction_id:ch

hadoop - 使用 bootstrap 替换 EMR 上的默认 jar

我在带有AMI3.0.4的EMR集群上。集群启动后,我ssh到master并手动执行以下操作:cd/home/hadoop/share/hadoop/common/lib/rmguava-11.0.2.jarwgethttp://central.maven.org/maven2/com/google/guava/guava/14.0.1/guava-14.0.1.jarchmod777guava-14.0.1.jar是否可以在引导操作中执行上述操作?谢谢! 最佳答案 在EMR4.0中,hadoop安装路径发生了变化。所以手动更新gu

hadoop - 自动缩放 EMR - 是否需要?我应该只使用 EC2 吗?我应该只使用 Qubole 吗?

为了减少配置时间,我们决定保留一个包含5个实例的专用EMR集群(我们预计大约需要5个)。如果我们需要更多,我们认为我们需要实现某种自动缩放。我对EMR一点都不熟悉-它支持自动缩放吗?我在文档中找到了这个:http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-manage-resize.html这是查找自动缩放的正确位置还是我误解了“调整大小”的含义。我读过EMR的一个好处是“按需处理”,我认为它在ec2实例之间分配负载而无需指定实例数量,所以这给我的印象是它自己进行ec2实例的扩展,这意味着我们不需要

hadoop - 无法在 EMR 中重启 Hue

我无法在AWSEMRHadoop集群中重启Hue。我已经修改了hue.ini文件并想重新启动hue以应用更改。当我运行“servicehuerestart”时,它给出“commandnotfound”错误。我可以理解这一定是因为hue没有添加到环境路径中。但是,当我运行bin/hue时,它​​不会将重启作为输入。有没有办法重新启动色调?我正在使用Hue3.7.1-amzn-7、emr-4.8.4和Amazon2.7.3Hadoop发行版。提前致谢。 最佳答案 重启过程取决于您使用的EMRAMI版本。在EMR4.x.x和5.x.xAM

hadoop - 403 拒绝访问 Amazon S3 删除 protected 文件夹

我在amazons3中有一个文件夹,我限制了删除任何文件夹的权限。但是,现在发生的事情是我无法使用配置单元脚本创建任何文件夹。此配置单元查询创建一个名为_tmp.customerlevel的临时文件夹。一旦它完成mapreduce作业,它就会尝试删除它。但是,由于删除配置单元查询的限制而失败。任何人都可以告诉我解决方法,以便我可以维护删除保护权限以及我可以使用配置单元脚本写入数据吗?Insertoverwritedirectory's3://logs/customerlevel'select*fromcustomer;REST.DELETE.OBJECTlogs/_tmp.custom

hadoop - 有人在不使用 EMR 的情况下使用 DynamoDB 和 Hive 吗?

我正在阅读以下使用Hive在DynamoDB上查询数据的集成。http://aws.typepad.com/aws/2012/01/aws-howto-using-amazon-elastic-mapreduce-with-dynamodb.html但是根据该链接,需要在EMR之上设置Hive。但我想知道我是否可以将此集成与我已有的独立Hadoop集群一起使用,而不是使用EMR。有没有人这样做过?与使用EMR相比,DynamoDB和HDFS中的数据之间是否会发生同步问题? 最佳答案 为了能够在您自己的集群上使用它,您需要为Dynam

hadoop - EMR集群如何连接JobTracker

我正在使用ElasticMapReduce集群。我尝试通过链接http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-ssh-tunnel.html连接作业跟踪器、任务跟踪器等Web界面我正在使用putty,但是我无法通过超时错误连接到master-public-dns:9100。如何连接到这些接口(interface)? 最佳答案 您的代理启用了吗?在您查询之后,我按照macosx的说明进行操作,并且能够让它正常工作。我在firefox中的foxy

Hadoop数据局部性,反直觉观察

任何人都可以帮助我理解以下与我对Hadoop数据局部性的理解相反的观察结果。具有3个节点的Hadoop集群:主人:10.28.75.146slave1:10.157.6.202slave2:10.31.130.224成功运行任务。从作业控制台:TaskAttempts:attempt_201304030122_0003_m_000000_0Machine:/default-rack/10.31.130.224Tasklog:INFO:consuminghdfs://10.28.75.146:9000/input/22.seq我们知道224节点正在处理/input/22.seq数据。通过

hadoop - EMR : how to include semicolon in regex argument of EXTRACT function 上的 pig

我正在处理Pig中的一些数据,其中包括感兴趣的字符串,可以选择用分号分隔并以随机顺序排列,例如test=12345;foo=bartest=12345foo=bar;test=12345以下代码应提取测试“键”的字符串值:blah=FOREACHdataGENERATEFLATTEN(EXTRACT(str_of_interest,'test=(\\S+);?'))AS(test:chararray);但是,在运行代码时,我遇到了以下错误:mismatchedcharacter''expecting'''2013-04-1604:46:05,245[main]ERRORorg.apac

hadoop - Amazon Elastic MapReduce 的模式匹配输入文件

我正在尝试运行MapReduce流作业,该作业从s3存储桶中与给定模式匹配的目录中获取输入文件。该模式类似于bucket-name/[date]/product/logs/[hour]/[logfilename]。示例日志稍后会像bucket-name/2013-05-02/product/logs/05/log123456789一样。我可以通过仅将文件名的小时部分作为通配符传递来使工作正常进行。例如:bucket-name/2013-05-02/product/logs/*/。这成功地从每个小时中挑选了每个日志文件,并将它们分别传递给映射器。问题是我也尝试使日期成为通配符,例如:bu