草庐IT

amazon-dynamodb-local

全部标签

amazon-web-services - 如何让 EMR 持续运行

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Re-useAmazonElasticMapReduceinstance我能否让已启动的EMR集群保持运行并继续向其提交新作业直到我完成(比如几天后)然后关闭集群,或者我是否必须在EC2中启动我自己的集群才能这样做?

hadoop - 在 Amazon S3 中创建由 Avro 文件支持的 Hive 表时出现问题

我一直在尝试在S3中创建一个由Avro文件支持的Hive表。最初,我认为这可能相对简单,但我遇到了以下错误。这是创建表的命令:setfs.s3.awsAccessKeyId=ACCESS_KEY_ID;setfs.s3.awsSecretAccessKey=SECRET_ACCESS_KEY;usesome_database;CREATEEXTERNALTABLEexperiment_with_s3_backed_dataROWFORMATSERDE'org.apache.hadoop.hive.serde2.avro.AvroSerDe'WITHSERDEPROPERTIES('av

python - 在 Amazon EMR 上安装 PIG 0.14

我需要使用Hadoop2.x从PIG在AmazonEMR上运行Python流式UDF基于文档PIGworkswithHadoop2.xsinceversion0.14http://pig.apache.org/docs/r0.12.0/udf.html#python-udfshttp://pig.apache.org/docs/r0.14.0/udf.html#python-udfs我个人曾尝试过Python流式UDF在0.12上不起作用,并且根据0.14文档中缺少的注释,在我看来它应该在这个版本中起作用。在AmazonEMR文档中看到受支持的PIG版本,在我看来,只有低于0.12的受

r - 将 Hive 表从 HDFS 移动到 Amazon Redshift

我尝试将通过连接4-5个数据集创建的Hive表传输到Redshift。这个过程应该如何实现?我们在边缘节点上有可用的R。Hive表必须先传输到S3,然后从s3传输到Redshift。这是唯一的方法吗?是否可以使用R,即使用RHive包将我的数据集从HDFS移动到R,然后将该数据集从R移动到Redshift? 最佳答案 您可以使用RJDBC连接到Redshift(Redshift是pgsql)。因此,您可以使用从配置单元读取一行,并使用R中的RJDBC将其加载到Redshift。您创建1000个或更多的批处理并插入Redshift。如

hadoop - 动态加载文件时的 Spark Streaming 和 Data Locality

我正在运行一个spark流应用程序,它从Kafka接收HDFS上的文件路径,应该打开这些文件并对它们执行某种计算。问题是我无法享受数据局部性的好处,因为执行程序可能在任何节点上运行,而打开文件的执行程序不一定是持有文件的执行程序。有没有一种方法可以按照我介绍的方式动态打开文件,同时保持数据局部性?谢谢,丹尼尔 最佳答案 我不确定你打开文件的意思,如果你能分享一些代码会很有帮助,但如果你使用的是sc.textFile,那是一个RDD转换。转换被集群管理器安排为任务,因此不一定会从运行DStream转换的执行器节点执行。

hadoop - 从 Pig UDF Java 类中的分布式缓存访问文件,Amazon EMR

我正在尝试访问UDF中的文件(sample.txt)。我想将该文件放在分布式缓存中并从那里使用它。我正在使用亚马逊EMR来运行Pig作业。我在创建集群时使用EMRbootstrap-action将文件(sample.txt)复制到HDFS。bootstrap.sh(将文件从s3复制到hdfs)hadoopfs-copyToLocals3n://s3_path/sample.txt/mnt/sample.txtUsingSample.java(使用sample.txt的UDF)publicclassUsingSampleextendsEvalFunc{publicStringuseSam

hadoop - 无法让日志聚合在 Amazon-Hadoop 集群上工作

我尽我所能使日志聚合,但我做不到。所以我需要你的帮助来解决这个问题:我将其添加到yarn-site.xml并重新启动但没有任何乐趣。yarn.log-aggregation-enabletrueWheretoaggregatelogsto.yarn.nodemanager.remote-app-log-dir/tmp/logsyarn.log-aggregation.retain-seconds259200yarn.log-aggregation.retain-check-interval-seconds3600当我尝试通过以下方式进行聚合时:yarnlogs-applicationI

hadoop - 缺少 Hive 执行 Jar :/usr/local/apache-hive-2. 1.0-bin/lib/hive-exec-*.jar

运行hive时出现以下错误MissingHiveExecutionJar:/usr/local/apache-hive-2.1.0-bin/lib/hive-exec-*.jar查看所有相关帖子,例如MissingHiveExecutionJar:/usr/local/hadoop/hive/lib/hive-exec-*.jar但没有帮助..!!几乎什么都试过了按照这里的步骤安装http://www.bogotobogo.com/Hadoop/BigData_hadoop_Hive_Install_On_Ubuntu_16_04.php这是我的所有设置#HADOOPVARIABLES

hadoop - Data locality 概念是否也适用于 Reducers?

我的理解:数据局部性的概念仅适用于Mapper,因为它处理输入文件。Reducers在处理时是否也会使用Datalocality概念?数据局部性:数据局部性是指通过对数据进行计算而不是从其位置请求数据来处理数据所在的位置。在计算数据时,Mappers和Reducers会工作。映射器在计算数据时使用数据局部性。Reducers将输入作为Mappers的输出。假设Mappers输出(中间数据)存储在不同的数据节点。Reducers在计算时是否使用数据局部性? 最佳答案 不,数据局部性概念仅适用于MAPPERS。Reducer是根据par

amazon-web-services - 如何使用 "s3a://"方案让 Hive 2.2.1 成功与 AWS S3 集成

我遵循了各种已发布的文档,了解如何使用s3a://方案将ApacheHive2.1.1与AWSS3集成,配置fs.s3a.access.key和fs.s3a.secret.key用于hadoop/etc/hadoop/core-site.xml和hive/conf/hive-site.xml.我现在可以让hdfsdfs-lss3a://[bucket-name]/正常工作(它返回那个桶的s3ls)。所以我知道我的信用、存储桶访问和整体Hadoop设置是有效的。hdfsdfs-lss3a://[bucket-name]/drwxrwxrwx-hdfshdfs02017-06-2722:4