aws-cli

macos - 极慢的 Hadoop CLI

我在OSX10.12.3上通过brew安装了hadoop。一切看起来都很棒，而且Hadoop似乎正在运行。我有一个问题:每当我运行hadoopCLI命令时，大约需要50秒才能完成。这是正常的吗？问题是什么，我该如何纠正？例子: 最佳答案试试这个示例命令:exportHADOOP_ROOT_LOGGER=DEBUG,consolehdfsdfs-ls而且您应该能够看到它卡在了哪个步骤(可能是组解析或DNS之类的东西)。如果输出太多，您可以将其重定向到一个文件。关于macos-极慢的Ha

java - AWS 使用 Hadoop API 增加映射和缩减器

我在AWS服务器上运行WordCount示例。我想测试我的输出并分析它们。我想增加编号。映射器和没有。reducer也没有。block。我怎样才能达到同样的效果？我必须设置否吗？创建工作时的映射器/reducer？或者我必须添加一些代码？我正在使用java。最佳答案您可以在使用JobConf的conf.setNumMapTasks(intnum)和conf.setNumRedTasks(int)启动MapReduce作业的Java程序的主要函数中设置映射器和缩减器的数量num)，分别。对于映射器，请注意api:中的以下内容“这只

缩减 Hadoop 射器 section code java amazon-ec2 amazon-web-services mapreduce

hadoop - 将文件从 AWS EMR 集群中的映射器上传到 S3

我有一个现有的mapreduce作业在AWSEMR上运行，它处理数十亿行日志并进行一些计算以从映射器形成(键，值)对。这些计算非常耗时，我需要在其他一些mapreduce作业中使用这些计算的某些中间步骤的输出。所以，我想利用计算的输出并上传到s3，而不影响现有的工作(即不改变当前的映射器或缩减器)。在上传之前，我首先将这些行收集到一个本地临时文件中，一旦文件变得足够大，我将把这个文件上传到s3。问题是-与reducer不同，Mapper不能根据键对数据进行排序。我如何为s3设计唯一的文件名以从不同的映射器上传数据，这样就不会有任何文件名冲突？我正在使用Java。如果有办法获取映射器集群

射器传到 section 34 hadoop amazon-s3 amazon-emr

hadoop - AWS 访问 key ID 在 hadoop fs -cp 命令上失败

我试图运行hadoopfs-cp命令但收到以下错误消息:-cp:AWS访问keyID和secret访问key必须指定为s3URL的用户名或密码(分别)，或者通过设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey属性(分别)我是hadoop和s3的新手，所以任何人都可以就我应该做什么提供建议吗？谢谢! 最佳答案请refer.去cd${HADOOP_HOME}/conf/hadoop-site.xml并添加/更新fs.s3.awsAccessKeyIdYourAWSACCESSKEYfs.s

hadoop AWS section gt amazon-web-services

hadoop - Hive 不会写入 aws s3

我在hive中有一个外部表存储在我的hadoop集群上，我想将其内容移动到存储在Amazons3上的外部表中。所以我创建了一个s3支持的表，如下所示:CREATEEXTERNALTABLEIFNOTEXISTSexport.export_tableliketable_to_be_exportedROWFORMATSERDE...withSERDEPROPERTIES('fieldDelimiter'='|')STOREDASTEXTFILELOCATION's3a://bucket/folder';然后我运行:INSERTINTOexport.export_tableSELECT*FR

hadoop Hive java apache amazon-web-services amazon-s3

hadoop - 清洁 AWS EMR 以允许重用

我有几项任务要在不共享数据的AWSEMR上执行，我想使用同一个EMR一个接一个地执行它们。有没有办法将正在运行的EMR清理回其初始状态(删除配置单元表，清理所有HDFS文件等)避免数据冲突？我想重用EMR有几个原因:创建新的EMR可能需要5-10分钟。我的任务是相对较短的时间，20-25分钟。一旦创建了EMR，您就已经为整个小时付费了。最佳答案我们没有找到“快速而干净”的API来实现此行为。相反，我们巩固了一种简单的工作方法，以保证我们可以清理所有数据。我们使用特定的数据库而不是默认的数据库。我们将所有内部数据文件放在HDFS中

重用 hadoop section EMR li amazon-web-services

amazon-web-services - 如何使用 "s3a://"方案让 Hive 2.2.1 成功与 AWS S3 集成

我遵循了各种已发布的文档，了解如何使用s3a://方案将ApacheHive2.1.1与AWSS3集成，配置fs.s3a.access.key和fs.s3a.secret.key用于hadoop/etc/hadoop/core-site.xml和hive/conf/hive-site.xml.我现在可以让hdfsdfs-lss3a://[bucket-name]/正常工作(它返回那个桶的s3ls)。所以我知道我的信用、存储桶访问和整体Hadoop设置是有效的。hdfsdfs-lss3a://[bucket-name]/drwxrwxrwx-hdfshdfs02017-06-2722:4

amazon-web-services amp code bucket-name s3a hadoop amazon-s3 hive

amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展

我正在hadoophive上运行一个实验。在这个实验中，我在2个不同的硬件设置上运行相同的配置单元作业。它托管在AWSEMR中。这是我运行的hive.sql脚本:DROPDATABASEIFEXISTSlabtest;CREATEDATABASElabtest;CREATETABLEIFNOTEXISTSlaborder(InserttsTIMESTAMP,ordernrSTRING,PatientnrSTRING,visitnrSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPE

配置单 amazon-web-services 34 STRING labspecimen hadoop hive amazon emr

exception - AWS EC2 上的 Spark 在开始我的工作时抛出 EOFException

我正在尝试在我使用他们提供的Spark-ec2脚本创建的Spark集群上运行我的Spark作业。我能够运行SparkPi示例，但每当我运行我的工作时，我都会收到此异常:Exceptioninthread"main"java.io.IOException:Calltoec2-XXXXXXXXXX.compute-1.amazonaws.com/10.XXX.YYY.ZZZZ:9000failedonlocalexception:java.io.EOFExceptionatorg.apache.hadoop.ipc.Client.wrapException(Client.java:1107

EOFException exception java apache cloudera hadoop amazon-web-services apache-spark

java - 在 CLI 中打印 hadoop 属性

我正在使用Java使用Hadoop编写一个实用程序，我需要通过Jsch.我试过这个hadooporg.apache.hadoop.conf.Configuration但它只返回核心站点属性。是否有任何其他命令可用于在hive中打印所有属性，如set-v 最佳答案一个可能的解决方案是:packageconfig;importjava.util.Map.Entry;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.util.*;publicclassHadoopPropDum

hadoop java Configuration code strong

79 80 818283 84 85