草庐IT

amazon-dynamodb-local

全部标签

hadoop - hadoop中local和yarn的区别

我一直在尝试按照here中的说明在单个节点上安装Hadoop.有两组指令,一组用于在本地运行MapReduce作业,另一组用于YARN。在本地运行MapReduce作业和在YARN上运行有什么区别? 最佳答案 如果您使用本地,则map和reduce任务在同一个jvm中运行。通常我们要调试代码的时候会用到这种模式。而如果我们使用MRV2中的yarn资源管理器,mappers和reducers将在不同的节点和不同的jvms中运行,并且在同一节点中运行(如果它是伪分布式模式)。 关于hadoo

amazon-web-services - 中等 Hadoop/Spark 集群管理

如果这个问题更适合不同的channel,请告诉我,但我想知道推荐的工具是什么,可以在大量远程服务器上安装、配置和部署hadoop/spark。我已经熟悉如何设置所有软件,但我正在尝试确定我应该开始使用什么,这将使我能够轻松地跨大量服务器进行部署。我已经开始研究配置管理工具(即chef、puppet、ansible),但想知道最好的和最用户友好的选项是什么。我也不想使用spark-ec2。我应该创建自己开发的脚本来遍历包含IP的主机文件吗?我应该使用pssh吗?PSCP?等。我希望能够根据需要与尽可能多的服务器进行ssh连接并安装所有软件。 最佳答案

java - 将文件存储到 S3 : local file vs HDFS

背景使用java将文件上传到s3的简单古老问题S3不支持流式传输(AFAIK),因此在上传之前需要将数据分组到一些适当大小的文件中。在创建上述这些临时文件时,就位置而言有一些选项本地一些指定目录本地在HDFS中(如果可能的话,我什至不知道Hadoop中的H)到hadoop集群中的HDFS问题哪个可能更快?与本地FS相比,使用HDFS(本地或集群)是否有优势,HDFS在本质上更接近S3格式?技术和基础设施EC2、Linux、Java 最佳答案 如果你本地有足够的磁盘空间,就在本地做吧。否则,您可以将数据合并到HDFS上您需要的存储中,

amazon-web-services - 我可以像在本地集群上一样在 EMR 上运行作业吗

我已经在我的笔记本电脑上构建了一个本地集群(伪模式)。我在哪里运行不同的mapreduce命令,例如hadoop-streaming-Dmapred.output.compress=true\-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec\-filesmy_mapper.py,my_reducer.py\-mappermy_mapper.py\-reducermy_reducer.py\-input/aws/input/input_warc.txt\-output/aws/output现

amazon-web-services - 有没有办法在运行时配置和更改 Yarn 调度程序?

目前我正在使用默认的Yarn调度器,但我想做一些类似的事情-RunYarnusingthedefaultschedulerIf(numberofjobsinqueue>X){ChangetheYarnschedulertoFIFO}这甚至可以通过代码实现吗?请注意,我正在使用Yarn作为RM在awsEMR集群上运行Spark作业。 最佳答案 好吧,这可以通过轮询器检查当前队列(使用RMAPI)并更新yarn-site.xml+可能重启RM来实现。但是,重新启动RM可能会影响您的队列,因为当前作业将被终止或关闭(并且可能稍后重试)。如

amazon-web-services - 如何使用 aws lambda (boto3) 检查 aws ec2 是否正在运行

我想知道我的实例是否处于运行状态,如果它处于运行状态,那么只有文件将从s3复制到我的ec2实例,然后文件将在该机器上运行。 最佳答案 可以查询instance"state"attribute.例如:instance.state['Name']这会返回一个状态字符串,例如stopped可能的状态是:0:pending16:running32:shutting-down48:terminated64:stopping80:stopped这里是Pythoncodeexample检索EC2实例信息。

hadoop - Hive 2.3.2 Local模式找不到Hadoop安装

根据我一直在阅读的内容,您可以在没有Hadoop或HDFS的情况下运行Hive(例如在使用Spark或Tez的情况下),即通过设置fs.default.name在本地模式下和hive.metastore.warehouse.dir到本地路径。但是,当我这样做时,出现错误:StartingHivemetastoreservice.Cannotfindhadoopinstallation:$HADOOP_HOMEor$HADOOP_PREFIXmustbesetorhadoopmustbeinthepath我的hive-site.xml文件:mapred.job.trackerlocalh

amazon-web-services - PIG 中的 DUMP 命令不起作用

我编写了一个简单的PIG程序,如下所示,用于分析AWS上的googlen-grams数据集的小型修改版本。数据看起来像这样:Iam193694290Iam19458115Iam19514712verycool192311810verycool1980320100verycool2012994302verycool20171820612并具有以下形式:n-gramTAByearTABoccurrencesTABbooksNEWLINE我编写了以下程序来计算每本书中ngram的出现次数:inp=LOADAS(ngram:chararray,year:int,occurences:int,b

amazon-web-services - 未设置 Pig 模式元组。不会生成代码

我在googlen-grams数据集上对pig运行了以下命令:inp=LOAD'linktofile'AS(ngram:chararray,year:int,occurences:float,books:float);filter_input=FILTERinpBY(occurences>=400)AND(books>=8);groupinp=GROUPfilter_inputBYngram;sum_occ=FOREACHgroupinpGENERATEFLATTEN(group)asngram,SUM(filter_input.occurences)/SUM(filter_input

apache-spark - 由于 java.io.FileNotFoundException :/hadoop/yarn/nm-local-dir/usercache/root/appcache/,Google Dataproc 上的 Spark 失败

几个月来,我一直在通过Zeppelin和Dataproc控制台在Dataproc上使用Spark/Hadoop,但最近我遇到了以下错误。Causedby:java.io.FileNotFoundException:/hadoop/yarn/nm-local-dir/usercache/root/appcache/application_1530998908050_0001/blockmgr-9d6a2308-0d52-40f5-8ef3-0abce2083a9c/21/temp_shuffle_3f65e1ca-ba48-4cb0-a2ae-7a81dcdcf466(Nosuchfil