amazon-ec

amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展

我正在hadoophive上运行一个实验。在这个实验中，我在2个不同的硬件设置上运行相同的配置单元作业。它托管在AWSEMR中。这是我运行的hive.sql脚本:DROPDATABASEIFEXISTSlabtest;CREATEDATABASElabtest;CREATETABLEIFNOTEXISTSlaborder(InserttsTIMESTAMP,ordernrSTRING,PatientnrSTRING,visitnrSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPE

配置单 amazon-web-services 34 STRING labspecimen hadoop hive amazon emr

exception - AWS EC2 上的 Spark 在开始我的工作时抛出 EOFException

我正在尝试在我使用他们提供的Spark-ec2脚本创建的Spark集群上运行我的Spark作业。我能够运行SparkPi示例，但每当我运行我的工作时，我都会收到此异常:Exceptioninthread"main"java.io.IOException:Calltoec2-XXXXXXXXXX.compute-1.amazonaws.com/10.XXX.YYY.ZZZZ:9000failedonlocalexception:java.io.EOFExceptionatorg.apache.hadoop.ipc.Client.wrapException(Client.java:1107

EOFException exception java apache cloudera hadoop amazon-web-services apache-spark

hadoop - 如何知道 Amazon EMR 实例的 MIN_CONTAINER_SIZE？

如何在AmazonEMR集群上获取MIN_CONTAINER_SIZE的默认设置？因为我想通过这个公式来计算EMR上每个节点的内存使用情况RAM-per-container=max(MIN_CONTAINER_SIZE,(TotalAvailableRAM)/containers))谢谢! 最佳答案在EMR4.x中，默认的最小容器大小为256M。但是上限将受到每个实例类型的节点管理器可用内存的限制(http://docs.aws.amazon.com/ElasticMapReduce/latest/ReleaseGuide/emr

MIN_CONTAINER_SIZE CONTAINER section hadoop amazon-web-services amazon-ec2 hadoop2 emr

hadoop - EC2 主机中 MapReduce 中的 SSH 错误

我已在AmazonEC2主机中安装了ApacheHadoopMapReduce2.6.1，并使用私有(private)IP地址配置了运行时。你可以在下面[2-5]查看我的配置。为了尝试轻松调试我的问题，我已允许安全组[6]中的所有入站流量。问题是，当我启动MapReduce时，我在SSHkey中得到Permissiondenied。我注意到我无法从同一主机sshEC主机。我该如何解决这个错误？ubuntu@ip-XXX-XX-XX-XX:sshubuntu@ip-XXX-XX-XX我想在EC2的不同站点上运行的HDFS实例之间复制数据。使用主机的私有(private)IP地址是否正确？

MapReduce hadoop ip-XXX-XX-XX-XX gt lt amazon-ec2

hadoop - 如何将 Amazon Glacier/S3 与 hadoop map reduce/spark 结合使用？

我需要使用Hadoop/EMR处理存储在AmazonS3和AmazonGlacier中的数据，并将输出数据保存在RDBMS中，例如。垂直我完全是大数据的菜鸟。我只看过一些关于mapreduce和sparx的在线类(class)和ppts。并创建了一些虚拟mapreduce代码用于学习目的。到目前为止，我只有一些命令可以让我将数据从S3导入AmazonEMR中的HDFC，并在处理后将它们存储在HDFS文件中。所以这是我的问题:在执行mapreduce之前是否真的必须先将数据从S3同步到HDFC，或者是否有直接使用S3的方法。`如何让hadoop访问AmazonGlacier数据`最后是如

hadoop Glacier section Amazon apache-spark amazon-s3 emr amazon-glacier

如何在AWS EC2而不是PPK文件中设置密码？

我已经在AWSEC2中创建了一个帐户，并通过PUTTY通过转换的PPK文件登录。现在，我想通过密码登录。在这里如何设置密码？任何人都可以逐步提供。提前致谢。请帮忙！！看答案您是在谈论通过SSH密码登录实例吗？如果是这样，请知道EC2实例仅允许默认情况下基于密钥的SSH身份验证。在订单中进行SSH密码身份验证，编辑配置文件（如DebianLinux），/etc/ssh/sshd_config编辑以下将其更改为Yes，PasswordAuthenticationyes重新启动SSH服务，sudoservicesshrestart然后尝试ssh，例如ssh@

中设密码 section code

amazon-web-services - spark aws S3a ARN(亚马逊资源名称)IAM 角色

我正在使用spark2.3.0和Hadoop2.7(但如果需要我可以升级)我想访问具有ARN(亚马逊资源名称)IAM角色的S3文件https://docs.aws.amazon.com/cli/latest/userguide/cli-multiple-profiles.html我已经看过这个Howtoaccesss3a://filesfromApacheSpark?但是没有关于IAM访问的问题publicclasstest{publicstaticvoidmain(String[]args){SparkSessionsc=newSparkSession.Builder().appNa

amazon-web-services services hadoop noreferrer noopener apache-spark amazon-s3 amazon-iam

hadoop - 在 Amazon EMR 上配置 Flink Rest API

我在Amazon的EMR上通过YARN运行一个Flink应用程序，有一个主机和一个从机。我正在尝试通过ssh进入主节点，然后访问FlinkRESTAPI，但无法让EMR静态使用相同的主机/端口。我已经尝试将此配置添加到EMR并从当前主节点的私有(private)DNS中获取主机。它运行的实际端口因每个yarn-session而异。[{"Classification":"flink-conf","Properties":{"rest.port":"44477","jobmanager.web.port":"44477","jobmanager.web.upload.dir":"/home

hadoop Amazon configuration code section hadoop-yarn apache-flink amazon-emr

hadoop - Amazon EMR 未使用所有节点

我正在使用4个核心节点..我正在使用配置单元对表运行查询。各种查询似乎都没有充分利用容量。我的表由8个整数字段和大约1000行组成。表单查询从表中选择avg(col1-col2)；从表中选择计数(*)；以及我尝试过的所有其他查询正在生产缩减器数量=1，映射器数量=1我试过使用setmapred.reduce.tasks=4;但它不起作用。最奇怪的是，当我使用mapred.job.tracker=local时，这意味着在本地节点本身上有一个map和一个reduce，任务完成速度快了一倍。除了一个之外，所有的reduce/mapslots都一直打开。为什么即使增加容量也不能稍微改善执行时间

有节 hadoop 射器 section stackoverflow hive emr

hadoop - Amazon EMR 上的引导操作是否有任何限制？

我正在使用shell脚本对我的数据进行一些操作。这需要1个多小时。但每次超过一小时限制。我的引导操作失败了。有没有人注意到这件事？最佳答案根据https://forums.aws.amazon.com/thread.jspa?threadID=64568的说法，引导任务有4500万的限制:“...引导的超时时间为45分钟，所有引导操作放在一起应该在这段时间内完成。” 关于hadoop-AmazonEMR上的引导操作是否有任何限制？，我们在StackOverflow上找到一个类似的问题

hadoop Amazon section https stackoverflow hive amazon-emr

45 46 474849 50 51