草庐IT

xml - 当aws S3中存在成功文件时如何触发oozie作业

我正在使用oozie执行HDFS数据传输操作,要求是只要awsS3存储桶中有可用数据就触发oozie工作流作业。我正在考虑在我的S3存储桶中保留一个成功文件和数据文件,但我不确定如何让oozie协调器定期从S3读取以检查成功文件是否可用。如果有人可以提供相同的示例coordinator.xml,那就太好了。 最佳答案 你能试试下面的吗:-s3n://mybucket/a/b/${YEAR}/${MONTH}/${DAY}${coord:current(0)}fileDirectory${coord:dataIn('coorddata

amazon-web-services - 在 Hadoop 1.0.3 中从 AWS EMR 上的 HDFS 清除数据

出于各种原因,我正在使用AMI2.4.11/Hadoop1.0.3在EMR上运行一些作业。我正在尝试通过添加额外的EMR步骤来在我的作业之后运行HDFS清理。使用博托:step=JarStep('HDFScleanup','command-runner.jar',action_on_failure='CONTINUE',step_args=['hadoop','dfs','-rmr','-skipTrash','hdfs:/tmp'])emr_conn.add_jobflow_steps(cluster_id,[step])然而,它经常失败,EMR控制台中的stderr中没有任何内容。

json - AWS Data Pipeline - 在创建 EMR 期间设置 Hive 站点值

我们正在将我们的数据管道版本从3.3.2升级到5.8,因此旧AMI版本上的那些引导操作已更改为使用配置设置并在分类/属性定义下指定它们。所以我的Json如下所示{"enableDebugging":"true","taskInstanceBidPrice":"1","terminateAfter":"2Hours","name":"ExportCluster","taskInstanceType":"m1.xlarge","schedule":{"ref":"Default"},"emrLogUri":"s3://emr-script-logs/","coreInstanceType"

java.lang.IllegalAccessError 从 Java 读取 AWS S3 配置时出错

尝试从Java访问配置时出现以下错误。Exceptioninthread"main"java.lang.IllegalAccessError:triedtoaccessmethodorg.apache.hadoop.metrics2.lib.MutableCounterLong.(Lorg/apache/hadoop/metrics2/MetricsInfo;J)Vfromclassorg.apache.hadoop.fs.s3a.S3AInstrumentationatorg.apache.hadoop.fs.s3a.S3AInstrumentation.streamCounter(

java - Apache Spark 错误使用 hadoop 将数据卸载到 AWS S3

我正在使用ApacheSparkv2.3.1并尝试在处理后将数据卸载到AWSS3。类似的东西:data.write().parquet("s3a://"+bucketName+"/"+location);配置似乎没问题:Stringregion=System.getenv("AWS_REGION");StringaccessKeyId=System.getenv("AWS_ACCESS_KEY_ID");StringsecretAccessKey=System.getenv("AWS_SECRET_ACCESS_KEY");spark.sparkContext().hadoopConf

amazon-web-services - 无法将 AWS 主机注册到 Ambari 服务器

将主机注册到Ambari-server集群时,出现以下错误。“在1个未能注册的主机上跳过了主机检查。”我正在尝试在AWS实例上安装HDP2.5版本。我已尝试遵循Hortonworks的文档。https://docs.hortonworks.com/HDPDocuments/Ambari-2.5.0.3/bk_ambari-installation/content/set_the_hostname.html我已将公共(public)IP地址和公共(public)主机名添加到/etc/hosts文件,并更改服务器和主机上/etc/hostname文件中的主机名。重新启动两者,主机名已更改。

amazon-ec2 - Hadoop 安全模式恢复 - 花费大量时间

我们在AmazonEC2上运行我们的集群。我们正在使用cloudera脚本来设置hadoop。在主节点上,我们启动以下服务。609$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartnamenode'610$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartsecondarynamenode'611$AS_HADOOP'"$HADOOP_HOME"/bin/hadoop-daemon.shstartjobtracker'612613$AS_HADOOP'"$HADOOP_HOME"/bi

amazon-ec2 - EC2 上 Hadoop 集群中的按需从属生成

我计划在EC2上使用Hadoop。由于我们必须按实例使用量付费,因此拥有固定数量的实例而不是作业实际需要的数量是不好的。在我们的应用程序中,许多作业是并发执行的,我们始终不知道从属需求。是否可以用最少的从属启动hadoop集群,然后根据需求管理可用性?即按需创建/销毁奴隶子问题:hadoop集群能否同时管理多个作业?谢谢 最佳答案 hadoop中使用的默认调度器是一个简单的FIFO调度器,您可以考虑使用FairScheduler,它为每个正在运行的作业分配一个集群份额,并具有广泛的配置来控制这些份额。就EC2而言-您可以轻松地从一些

java - 我需要 Java 才能在 Amazon EC2 中运行 hadoop 吗?

我需要学习Java才能在AmazonEC2中运行hadoop吗?我是一名PHP/C++开发人员,没有Java经验。正计划在亚马逊云中设置hadoop集群。hive/pig是否足够或者我需要java? 最佳答案 鉴于Hadoop本身是用Java编写的,了解Java会有所帮助,但如果您只是简单地设置它并且可以通过使用HIVE或PIG来完成,那么您实际上并不需要了解Java编程。如果这只是为了熟悉Hadoop,那么该策略可能会奏效,但如果您想投入生产,那么您将需要对JVM的工作原理等有一定的了解。不过,您可能不需要使用Java编写代码。

linux - 如何在 AWS ec 虚拟机上使用 hadoop 1.0 配置高可用性

我已经在非VM设置上使用心跳和虚拟IP机制配置了此设置。我正在使用hadoop1.0.3并使用共享目录进行Namenode元数据共享。问题是,在亚马逊云上,没有什么能像虚拟Ip那样使用Linux-ha获得高可用性。有没有人能做到这一点。请让我知道所需的步骤? 最佳答案 现在我在hbase上使用Hbase复制WAL。0.92以后的Hbase支持这个。对于云上的hadoop集群,我会等待2.0版本稳定。使用了以下内容http://hbase.apache.org/apidocs/org/apache/hadoop/hbase/repli