amazon-athena_草庐IT

hadoop - Apache Spark history-server 如何引用 Amazon S3？

[版本]ApacheSpark2.2.0Hadoop2.7我想设置ApacheSpark历史服务器。位于AmazonS3中的Spark事件日志。我可以在S3中保存日志文件，但无法从历史服务器读取。ApacheSpark安装在/usr/local/spark所以，$SPARK_HOME是/usr/local/spark$cd/usr/local/spark/sbin$shstart-history-server.sh出现以下错误Exceptioninthread"main"java.lang.ClassNotFoundException:org.apache.hadoop.fs.s3a.

amazon-web-services - 无法将 AWS 主机注册到 Ambari 服务器

将主机注册到Ambari-server集群时，出现以下错误。“在1个未能注册的主机上跳过了主机检查。”我正在尝试在AWS实例上安装HDP2.5版本。我已尝试遵循Hortonworks的文档。https://docs.hortonworks.com/HDPDocuments/Ambari-2.5.0.3/bk_ambari-installation/content/set_the_hostname.html我已将公共(public)IP地址和公共(public)主机名添加到/etc/hosts文件，并更改服务器和主机上/etc/hostname文件中的主机名。重新启动两者，主机名已更改。

amazon-web-services services section Ambari code hadoop hortonworks-data-platform

amazon-ec2 - Hadoop 安全模式恢复 - 花费大量时间

我们在AmazonEC2上运行我们的集群。我们正在使用cloudera脚本来设置hadoop。在主节点上，我们启动以下服务。609$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartnamenode'610$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartsecondarynamenode'611$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartjobtracker'612613$AS_HADOOP'"$HADOOP_HOME"/bi

amazon-ec amazon 跟踪器 HADOOP section amazon-ec2 cloud hdfs

amazon-ec2 - EC2 上 Hadoop 集群中的按需从属生成

我计划在EC2上使用Hadoop。由于我们必须按实例使用量付费，因此拥有固定数量的实例而不是作业实际需要的数量是不好的。在我们的应用程序中，许多作业是并发执行的，我们始终不知道从属需求。是否可以用最少的从属启动hadoop集群，然后根据需求管理可用性？即按需创建/销毁奴隶子问题:hadoop集群能否同时管理多个作业？谢谢最佳答案 hadoop中使用的默认调度器是一个简单的FIFO调度器，您可以考虑使用FairScheduler，它为每个正在运行的作业分配一个集群份额，并具有广泛的配置来控制这些份额。就EC2而言-您可以轻松地从一些

从属 amazon-ec section 跟踪器 amazon-ec2 hadoop mapreduce

Hadoop 流和 AMAZON EMR

我一直在尝试使用AmazonEMR中的Hadoop流式处理对一堆文本文件进行简单的字数统计。为了掌握hadoop流和亚马逊的EMR，我也采用了一个非常简化的数据集。每个文本文件只有一行文本(该行可以包含任意多的单词)。映射器是一个R脚本，它将行拆分为单词并将其吐回流中。cat(wordList[i],"\t1\n")我决定使用LongValueSumAggregatereducer将计数相加，因此我必须在映射器输出前加上LongValueSumcat("LongValueSum:",wordList[i],"\t1\n")并指定reducer为“聚合”我现在的问题如下:mapper和r

Hadoop AMAZON blockquote reducer amazon-emr

amazon-s3 - 关于 Amazon EMR 上的流式作业流程的问题

我必须使用AmazonEC2+S3+RDS+EMR制作一个相当复杂的数据处理系统，我有一些一般性问题希望您能帮助我:我需要使用R，然后我必须使用StreamingJobFlow。这是否意味着我失去了Hive的功能并且我无法在EMR作业之上执行Hive查询来处理该数据？我可以运行多个作业流程并与之交互吗？如何使用从属作业？您能否在完成后重新运行作业？我不想做一次计算，我想根据数据进化。我可以将变量传递给乔布斯吗？自动执行此操作的正确方法是什么？最佳答案 IneedtouseR,thenIhavetouseStreamingJobFl

流式作业流程 blockquote section 工作流程 amazon-s3 hadoop hive amazon-emr

hadoop - Amazon Elastic Map Reduce 是否在每个实例中运行一个或多个映射器进程？

我的问题是:我应该自己关心映射器中的多重处理(从标准输入读取任务，然后将它们分配给工作进程，在主进程中组合结果并输出到标准输出)还是Hadoop会自动处理它？我在HadoopStreaming文档和AmazonElasticMapReduce常见问题解答中都没有找到答案。最佳答案 Hadoop有一个“槽”的概念。Slot是mapper进程运行的地方。您配置每个tasktracker节点的槽数。它是映射进程的理论最大值，它将在每个节点上并行运行。如果没有足够的输入数据的单独poprtions(称为FileSplits)，它可能会更少

中运射器 section Hadoop amazon-web-services mapreduce elastic-map-reduce hadoop-streaming

java - 我需要 Java 才能在 Amazon EC2 中运行 hadoop 吗？

我需要学习Java才能在AmazonEC2中运行hadoop吗？我是一名PHP/C++开发人员，没有Java经验。正计划在亚马逊云中设置hadoop集群。hive/pig是否足够或者我需要java？最佳答案鉴于Hadoop本身是用Java编写的，了解Java会有所帮助，但如果您只是简单地设置它并且可以通过使用HIVE或PIG来完成，那么您实际上并不需要了解Java编程。如果这只是为了熟悉Hadoop，那么该策略可能会奏效，但如果您想投入生产，那么您将需要对JVM的工作原理等有一定的了解。不过，您可能不需要使用Java编写代码。

中运 Amazon section Java php hadoop amazon-ec2 amazon-web-services

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库？

为了加快jar到s3的上传速度，我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法？最佳答案您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单，然后如果您从命令行启动EMR，请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者，如果您通过网络界面执行此操作，只需在相应字段中输入位置即可。

mapreduce elastic section hadoop stackoverflow amazon-ec2 elastic-map-reduce

hadoop - 在 amazon EMR 上运行 HBase 时，为什么/tmp 文件夹与实际数据相比很大？

我们在amazonEMR上有一个默认配置的hadoop+hbase集群，所以mapred.child.tmp和hbase.tmp.dir都指向/tmp。我们的集群已经运行了一段时间，现在/tmp为500Gb，而实际/hbase数据为70Gb。这种差异似乎太大了，我们是否应该定期删除一些/tmp数据？最佳答案经过一些调查，我发现我们的/tmp数据的最大部分是由Amazon将Hbase自动备份到S3期间失败的mapreduce任务创建的。我们成功的mapreduce任务不会在/tmp中留下太多数据。我们决定禁用Amazon的自动备份

hadoop amazon code section tmp hbase amazon-emr