aws-documentdb-mongoapi

amazon-web-services - 我失去了从主服务器到从服务器(AWS EC2 Hadoop)的 ssh 连接能力

我最近失去了通过ssh将我的主人连接到我的奴隶和辅助名称节点的能力。我有4个EC2实例，上面有一个hadoop集群(一个NameNode、一个辅助nameNode和2个从节点)。我仍然可以用putty建立ssh连接，但是我无法实现如下的ssh连接:sshubuntu@instanceDns。我有以下错误:Permissiondenied(publickey).我确定我没有对ssh连接进行任何更改，所以我有点惊讶。这是一个详细的ssh连接试探性屏幕。我注意到我的.ssh文件中不再有id_rsa、id_rsa-cert和其他文件。我猜他们以前在这里，但我不知道他们会这样消失。为什么会这样？

amazon-web-services - 如何更改在 AWS 数据管道中运行的 Hive 事件的内存设置？

在使用AWSDataPipeline运行一个HiveActivity时，我的Hive事件失败并出现以下错误:Diagnostics:Container[pid=,containerID=]isrunningbeyondphysicalmemorylimits.Currentusage:1.0GBof1GBphysicalmemoryused;2.8GBof5GBvirtualmemoryused.Killingcontainer.当我运行由HiveActivity手动执行的Hive脚本时，我必须按如下所示执行它:hive\-hiveconftez.am.resource.memory.

中运 amazon-web-services hiveconf section code hadoop hive amazon-emr amazon-data-pipeline

hadoop - AWS EMR Hive 分区无法识别任何类型的分区

我正在尝试处理amazons3中存储桶中的一些日志文件。我创建表:CREATEEXTERNALTABLEapiReleaseData2(messageIdstring,hostNamestring,timestampstring,macAddressstringDISTINCT,apiKeystring,userAccountIdstring,userAccountEmailstring,numFilesstring)ROWFORMATserde'com.amazon.elasticmapreduce.JsonSerde'withserdeproperties('paths'='mes

hadoop Hive string 39 code amazon-web-services amazon-s3 hiveql

AWS EMR 中的 Hadoop : Will closing terminal kill hadoop job?

在不终止我的Hadoop作业的情况下关闭我的终端或关闭我的计算机是否安全？我正在通过AmazonElasticMapReduce上的集群运行Hadoop作业。我打开了我的终端，在那里我通过ssh进入了我的主节点。当我尝试关闭终端时，我收到一条警告，提示所有进程都将被终止。这也会扼杀我的Hadoop工作吗？或者我可以关闭我的计算机并稍后再次使用ssh吗？我是否需要特殊工具(如tmux)来执行此操作？如果重要的话，我在Ubuntu13.10中使用默认的(bin/bash)终端。我从Pig脚本开始这项工作。最佳答案不，你可以愉快地杀死

terminal closing section code Hadoop amazon-web-services ssh

hadoop - 为什么使用 c3.8xlarge 服务器的 AWS EMR 作业与使用 cc2.8xlarge 服务器的相同作业相比会严重滞后？

我怀疑这可能是AWS端的内部问题，但我想在这里发帖，因为我目前没有高级AWS支持(更新:已签名申请AWS支持，希望我能从他们那里得到答案)。我有一份经常性的EMR工作，最近我从使用cc2.8xlarge服务器切换到c3.8xlarge服务器。在我第一次使用新配置运行时，我的一个通常需要2-3分钟的map-reduce作业被卡住了，花费了超过9个小时将数据从映射器复制到唯一的reducer。我在9.5小时后终止了作业，重新尝试在新的EMR集群上启Action业，我在第一个小时内看到了相同的行为，因此再次终止了它。当我将工作切换回使用cc2.8xlarge服务器时，工作在2-3分钟内完成。

8xlarge xlarge section hadoop amazon-web-services emr

python - hbase 动物园管理员 : Which one come first on AWS environement?

我在我的AWS免费套餐上设置了一个Hadoop环境。它是运行hadoop2.7.1-Ubuntu14.04(不是EMR)的1master-3slaves。现在我想进入下一步，看起来HBase是一个很好的起点。进一步阅读后，我注意到Zookeeper正在出现......问题:设置好hadoop后，是先安装配置HBase多节点还是Zookeeper再安装HBase(sqoop、flume、pig...应该按照这一步完成)？奖励:我的目的是像可视化软件一样连接R、Tableau并运行一些python程序来与AWS一起玩，所以欢迎提出建议最佳答案

environement 动物 strong section HBase python hadoop amazon-web-services apache-zookeeper

amazon-web-services - 使用 NiFi 写入启用 MFA 的 AWS S3 Bucket

在MFA处于事件状态时，是否可以使用NiFi处理器PutS3Object将数据写入S3存储桶？如果没有，考虑将数据从hive/HDFS写入S3的替代方案是什么？最佳答案从1.8.0版开始，我认为ApacheNiFi*S3Object处理器(或AWSCredentialsProviderControllerService)不支持此功能。我建议在Jirasite上打开功能请求票.您可以使用以下选项之一立即完成此操作:使用ExecuteStreamCommand或ExecuteProcess调用终端命令或shell脚本使用AWSS3C

amazon-web-services services code section noreferrer hadoop amazon-s3 apache-nifi hortonworks-data-platform

hadoop - AWS 上的 hive : convert S3 JSON to Columnar preserving partitions

我在S3中有包含多行JSON(以换行符分隔)的文件。我想将这些文件转换为柱状格式以供AWSAthena使用我正在关注ConvertingtoColumnarFormatsguide要做到这一点，但是当转换为ORC时，S3中的分区约定将丢失。在这个例子中，如何在转换为parquets3的文件夹结构中保留dt分区？当我运行示例时，它只输出s3://myBucket/pq/000000_0而不是s3://myBucket/pq/dt=2009-04-14-04-05/000000_0这是设置接口(interface)以将JSON导入Hive表的HQL:CREATEEXTERNALTABLEi

preserving partitions string code impressions hadoop hive emr amazon-emr amazon-athena

hadoop - AWS Datapipeline，运行配置单元脚本的 EmrActivity 步骤立即失败并显示 'No such file or directory'

我有一个简单的DataPipeline作业，它只有一个EmrActivity和一个尝试从我的s3存储桶执行配置单元脚本的步骤。EmrActivity的配置如下所示:{"name":"ExtractandTransform","id":"HiveActivity","type":"EmrActivity","runsOn":{"ref":"EmrCluster"},"step":["command-runner.jar,/usr/share/aws/emr/scripts/hive-script--run-hive-script--args-fs3://[bucket-name-remo

配置单 Datapipeline 34 bucket-name-removed script hadoop amazon-web-services hive amazon-emr amazon-data-pipeline

hadoop - aws 数据管道 : waiting for dependencies

我有一个数据管道卡住并进入挂起模式，每次“等待依赖项”。这里我使用的是“HiveActivity”，它需要输入和输出。就我而言，我所有的数据都在hadoop基础设施中，因此我真的不需要S3输入和S3输出。但是，没有办法删除它们，因为数据管道出错了。此外，尽管有S3节点“存在”的先决条件，管道仍会在此时卡住。每次运行此管道时，我都必须手动“标记完成”S3node，之后一切正常。{Name:@S3node1_2014-08-01T13:59:50[Viewinstancefields]Description:Status:WAITING_ON_DEPENDENCIESWaitingon:@

dependencies waiting section 卡住 code hadoop amazon-web-services amazon-s3 amazon-data-pipeline

156 157 158159160 161 162