草庐IT

output-directory

全部标签

hadoop - Spark : yarn cluster mode can't read hdfs path (No such file or directory)

我在yarn模式下使用spark提交,但我收到了这个错误:显然我的输入路径hdfs://缺少一个'/'我正在通过hdfs://master:8020/usr/jimmy/Test/,但是日志输出是日志文件中的hdfs:/master:8020/usr/jimmy/Test/Personal1(Personal1在我的代码中指定)缺少的'/'显然是问题所在我能做什么?请帮帮我我的命令:./bin/spark-submit--masteryarn-cluster--classMovie.Movies/usr/jimmy/Move.jarhdfs://master:8020/usr/jimm

java - MAP_OUTPUT_RECORDS 值在 reducer 类中不断变化

我正在尝试使用reducer类中的MAP_OUTPUT_RECORDS计数器来计算示例wordcount程序中的单词百分比。这里是reducer中setup()方法的代码:publicstaticclassIntSumReducerextendsReducer{privateFloatWritableresult=newFloatWritable();privatelongtotal=0;@Overridepublicvoidsetup(Contextcontext)throwsIOException,InterruptedException{total=context.getCoun

hadoop - pig 错误 0 : Scalar has more than one row in the output

我有两个文件,我试图在模式匹配的基础上加入这两个文件。File1:weather.bbc.co.uk,112ads.facebook.com,113ads.amazon.co.uk,114www.sky.com,115news.bbc.co.uk,116pics.facebook.com,117File2:facebook.com,facebookbbc.co.uk,bbcnetflix.com,netflixflipkart.com,flipkartoutput:weather.bbc.co.uk,112,bbc.co.uk,bbcads.facebook.com,113,faceb

bash - "-bash: cd: hadoop: Not a directory"是什么意思?

我正在尝试按照this运行“hadoopwordcountinpython”教程。在教程中,当我运行此命令/usr/local/hadoop/bin/hadoopfs-put~/count_of_monte_cristo.txt/input时,它显示-bash:cd:hadoop:不是目录。在教程中它说我们需要通过在HDFS中创建一个目录来放置文本文件。我的问题是,如果/bin/hadoop不可访问,我应该将文本文件放在哪里进行分析?有什么选择吗?或者,我在这里做错了什么吗? 最佳答案 假设你已经在/Users/JJ/hadoop-

hadoop - hdfs ls on directory 返回 No such file or directory 错误

HDFSls在以下两个目录上返回Nosuchfileordirectory错误。[mybox]$hdfsdfs-ls/data/tdc/dv1/corp/base/dpp/raw/load_date=2018-05-01/|grepTenantdrwxr-xr-x-tdcdv1rtdcdv1c02018-05-0118:28/data/tdc/dv1/corp/base/dpp/raw/load_date=2018-05-01/rtng_ky=Access.NBNOrder.Amend.Info.{Tenant}.Rejected.v2.eventdrwxr-xr-x-tdcdv1rt

hadoop - 配置单元 cli 中的 "Add <directory>"

我想要类似的东西$hive>ADDFILE;添加一个目录到hive的工作目录。我正在使用配置单元0.7。我需要这个来添加python包以供mapper/reducer脚本使用。我有哪些选择? 最佳答案 对于0.7.1,您可以使用shell转义符(!)来运行!hadoopfs-mkdir或“dfs”命令dfs-mkdir.查看cliwikipage获取更多信息。不确定这些是否在0.7中。 关于hadoop-配置单元cli中的"Add",我们在StackOverflow上找到一个类似的问题:

linux - Hadoop HDFS : DateNode directory on system partition?

我们用这种方式设置的Hadoop集群空间不足:1x1TBHDD/3个1.5TBHDD/data1/data2/data3系统分区几乎不用(97%空闲),不会用于与hadoop无关的任务。将系统分区作为HDFS数据目录添加到DataNode配置中是否安全?我担心Hadoop会填满分区并使系统无法使用。最好的方法可能是设置单独的lvm卷或重新分区磁盘。但我会避免走这条路。hadoop是否遵守unix配额?例如。如果我从系统分区添加一个目录并通过配额限制hadoop用户只能使用例如0.5TB会有帮助吗? 最佳答案 是的,Hadoop使用通

hadoop - PIG 拉丁语 : Output Path based on Field Value

我有一个日志文件,其中包含来自多个域的日志。现在我想对它们进行一些分析并将输出存储在一个名为域的目录中。我在日志中将域作为字段值:STOREoutputlogsINTO'testpath/DOMAIN/logsUSING....这可能吗?或者我只能将输出存储在硬编码文件路径中吗? 最佳答案 如果域的名称是outputlogs中的一个字段,那么您可以使用MultiStorage从存钱jar。像这样的东西:STOREoutputlogsINTO'testpath/DOMAIN/logs'USINGMultiStorage('testpa

bash - Hadoop 启动-all.sh 错误 :No such file or directory

我在成功创建名称节点后,在尝试启动名称节点时遇到了这个问题。对我来说,它似乎正在尝试登录到一个不存在的文件。我如何更改我的设置以将脚本日志定向到正确的目录?bash-3.2$start-all.shstartingnamenode,loggingto/usr/local/bin/../logs/hadoop-Yili-namenode-wifi169-116.bucknell.edu.outnice:/usr/local/bin/../bin/hadoop:Nosuchfileordirectorylocalhost:startingdatanode,loggingto/usr/loc

hadoop - 亚马逊弹性 map 减少 : Job flow fails because output file is not yet generated

我有一个执行三项任务的AmazonEMR作业流程,第一项的输出是后续两项的输入。第二个任务的输出被第三个任务DistributedCache使用。我已经完全在EMR网站(控制台)上创建了作业流,但集群立即失败,因为它找不到分布式缓存文件-因为它尚未在步骤#1中创建。我唯一的选择是通过boostrap操作从CLI创建这些步骤,并指定--wait-for-steps选项吗?我无法执行一个任务的输入依赖于另一个任务的输出的多步骤作业流,这似乎很奇怪。 最佳答案 最后,我通过创建一个自举但没有任何步骤的AmazonEMR集群解决了这个问题。