草庐IT

python - hbase 动物园管理员 : Which one come first on AWS environement?

我在我的AWS免费套餐上设置了一个Hadoop环境。它是运行hadoop2.7.1-Ubuntu14.04(不是EMR)的1master-3slaves。现在我想进入下一步,看起来HBase是一个很好的起点。进一步阅读后,我注意到Zookeeper正在出现......问题:设置好hadoop后,是先安装配置HBase多节点还是Zookeeper再安装HBase(sqoop、flume、pig...应该按照这一步完成)?奖励:我的目的是像可视化软件一样连接R、Tableau并运行一些python程序来与AWS一起玩,所以欢迎提出建议 最佳答案

amazon-web-services - 使用 NiFi 写入启用 MFA 的 AWS S3 Bucket

在MFA处于事件状态时,是否可以使用NiFi处理器PutS3Object将数据写入S3存储桶?如果没有,考虑将数据从hive/HDFS写入S3的替代方案是什么? 最佳答案 从1.8.0版开始,我认为ApacheNiFi*S3Object处理器(或AWSCredentialsProviderControllerService)不支持此功能。我建议在Jirasite上打开功能请求票.您可以使用以下选项之一立即完成此操作:使用ExecuteStreamCommand或ExecuteProcess调用终端命令或shell脚本使用AWSS3C

hadoop - AWS 上的 hive : convert S3 JSON to Columnar preserving partitions

我在S3中有包含多行JSON(以换行符分隔)的文件。我想将这些文件转换为柱状格式以供AWSAthena使用我正在关注ConvertingtoColumnarFormatsguide要做到这一点,但是当转换为ORC时,S3中的分区约定将丢失。在这个例子中,如何在转换为parquets3的文件夹结构中保留dt分区?当我运行示例时,它只输出s3://myBucket/pq/000000_0而不是s3://myBucket/pq/dt=2009-04-14-04-05/000000_0这是设置接口(interface)以将JSON导入Hive表的HQL:CREATEEXTERNALTABLEi

hadoop - AWS Datapipeline,运行配置单元脚本的 EmrActivity 步骤立即失败并显示 'No such file or directory'

我有一个简单的DataPipeline作业,它只有一个EmrActivity和一个尝试从我的s3存储桶执行配置单元脚本的步骤。EmrActivity的配置如下所示:{"name":"ExtractandTransform","id":"HiveActivity","type":"EmrActivity","runsOn":{"ref":"EmrCluster"},"step":["command-runner.jar,/usr/share/aws/emr/scripts/hive-script--run-hive-script--args-fs3://[bucket-name-remo

hadoop - aws 数据管道 : waiting for dependencies

我有一个数据管道卡住并进入挂起模式,每次“等待依赖项”。这里我使用的是“HiveActivity”,它需要输入和输出。就我而言,我所有的数据都在hadoop基础设施中,因此我真的不需要S3输入和S3输出。但是,没有办法删除它们,因为数据管道出错了。此外,尽管有S3节点“存在”的先决条件,管道仍会在此时卡住。每次运行此管道时,我都必须手动“标记完成”S3node,之后一切正常。{Name:@S3node1_2014-08-01T13:59:50[Viewinstancefields]Description:Status:WAITING_ON_DEPENDENCIESWaitingon:@

php - 如何在 AWS EMR 流式集群中包含 PHP 所需的库

我创建了一个将JSON格式转换为AVRO格式的PHP项目。原始项目需要PHP库,我不确定如何添加到EMR。这是EMR收到的stderr日志:PHPWarning:require_once(vendor/autoload.php):failedtoopenstream:Nosuchfileordirectoryin/mnt/var/lib/hadoop/tmp/nm-local-dir/usercache/hadoop/filecache/12/convert-json-to-avro.phponline3PHPFatalerror:require_once():Failedopenin

hadoop - 如何使用 Pig Latin 从 AWS S3 加载数据

我要使用PigLatin检索根据日期保存和组织的CSV文件。我想自动执行此过程并获取昨天的数据。代码如下:tempdate=CurrentTime();--P1D=periodof1dayinISOformatyesterday=foreachtempdategenerateSubtractDuration(tempdate,P1D);$date=ToString(yesterday,"YYYY-MM-dd");data=load's3://folder/folder/$date'as(a:tuple());dumpdata;但我一直收到这个错误:[main]错误org.apache.

java - 使用 AWS Java SDK 和 Hadoop 将项目放入 DynamoDB 时出错

我使用的是hadoop2.7、hadoop-core版本1.1.2和AWSJavaSDK1.10.50。当我尝试将项目放入dynamoDB时,出现以下错误:java.lang.NoSuchFieldError:INSTANCEatcom.amazonaws.http.conn.SdkConnectionKeepAliveStrategy.getKeepAliveDuration(SdkConnectionKeepAliveStrategy.java:48)我发现这个错误是由于AWSSDK和HttpCore版本冲突导致的。在我的代码中运行:ClassLoaderclassLoader=M

hadoop - 通过 Java 代码从本地计算机连接 AWS EMR 上的 HDFS

我想了解如何从我的本地机器连接到hdfs(在awsEMR上)我的示例程序publicclassEMRConnection{publicstaticvoidmain(String[]args)throwsIOException,URISyntaxException{Configurationconfig=newConfiguration();FileSystemhdfs=FileSystem.get(newURI("hdfs://***-**-**-***-***.compute-1.amazonaws.com:50070"),config);hdfs.mkdirs(newPath("/

amazon-web-services - AWS EMR 集群失败,因为磁盘已满

我在具有约10个节点的awsemr集群上运行一些Map-Reduce-Jobs。(emr4.7.11,m3.xlarge)当作业正在运行时,工作节点在约4小时后开始一个接一个地死亡。在日志中我发现了以下错误:“1/3本地目录错误:/mnt/yarn;1/1日志目录错误:/var/log/hadoop-yarn/containers”当节点出现故障时,工作节点上的磁盘使用率为96%。所以我假设节点上的磁盘达到100%,并且没有文件可以写入磁盘。所以我尝试为每个实例附加一个500GB的EBS卷。但是Hadoop只使用了/mnt,并没有使用额外的Volume(/mnt2)。如何配置AWSEM