关于 scala:java.io.IOException: 无法在 Hadoop 二进制文件中找到可执行的 null\\bin\\winutils.exe。在 Windows 7 上触发 Eclipse

codeneng 2023-03-28 原文

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. spark Eclipse on windows 7

我无法在 Windows 7

上安装的 Scala IDE(Maven spark 项目)中运行简单的 spark 作业

已添加 Spark 核心依赖项。

1
2
3
4

val conf = new SparkConf().setAppName("DemoDF").setMaster("local")
val sc = new SparkContext(conf)
val logData = sc.textFile("File.txt")
logData.count()

错误：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28

16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13
16/02/26 18:29:34 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\\bin\\winutils.exe in the Hadoop binaries.
at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278)
at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300)
at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293)
at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76)
at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:362)
at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
at org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)
at org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)
at scala.Option.map(Option.scala:145)
at org.apache.spark.rdd.HadoopRDD.getJobConf(HadoopRDD.scala:176)
at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:195)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)
at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)
at scala.Option.getOrElse(Option.scala:120)
at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:1929)
at org.apache.spark.rdd.RDD.count(RDD.scala:1143)
at com.org.SparkDF.FrameDemo$.main(FrameDemo.scala:14)
at com.org.SparkDF.FrameDemo.main(FrameDemo.scala)

这里很好地解释了您对解决方案的问题。

从 http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe 下载 winutils.exe。

在操作系统级别或以编程方式设置您的 HADOOP_HOME 环境变量：

System.setProperty("hadoop.home.dir", "winutils文件夹的完整路径");

享受

我必须将 HADOOP_HOME 设置为 hadoop 文件夹而不是 bin 文件夹。
另外，请务必根据编译 spark 的 hadoop 版本下载正确的 winutils.exe(因此，不一定是上面的链接)。否则，痛苦等待:)
System.setProperty("hadoop.home.dir", "C:\\\\\\\\\\\\\\\\hadoop-2.7.1\\\\")
是的，正如@Stanley 所说。将 HADOOP_HOME 设置为 hadoop 文件夹而不是 bin 文件夹。
@NP3 你怎么知道那个版本的？我正在使用最新的 pyspark。谢谢，
要获得正确版本的 winutils.exe，请查看此 github 存储库。选择与您从官网下载的 Spark .tgz 时选择的包类型相同的版本。

下载 winutils.exe

创建文件夹，比如 C:\\winutils\\bin

将 winutils.exe 复制到 C:\\winutils\\bin 内

将环境变量 HADOOP_HOME 设置为 C:\\winutils

另外，如果您打开了 cmd 行，请重新启动它以使变量生效。

关注这个：

在任意目录中创建一个 bin 文件夹(用于步骤 3)。

下载winutils.exe，放到bin目录下。

现在在您的代码中添加 System.setProperty("hadoop.home.dir","PATH/TO/THE/DIR");。

非常感谢，正是我想要的
需要注意的是，要指向的路径不应包括\\'bin\\'目录。例如：如果 winutils.exe 的路径是 "D://Hadoop//bin//winutils.exe" ，那么 hadoop.home.dir 的路径应该是 "D://Hadoop"
嗨，我按照上述步骤操作，但得到了 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties (PS：我在 Pycharm 中使用 Pyspark 2.4.4)

1
2
3
4
5
6
7

1) Download winutils.exe from https://github.com/steveloughran/winutils
2) Create a directory In windows"C:\\winutils\\bin
3) Copy the winutils.exe inside the above bib folder .
4) Set the environmental property in the code
System.setProperty("hadoop.home.dir","file:///C:/winutils/");
5) Create a folder"file:///C:/temp" and give 777 permissions.
6) Add config property in spark Session".config("spark.sql.warehouse.dir","file:///C:/temp")"

在 Windows 10 上 - 您应该添加两个不同的参数。

(1) 在系统变量下添加新变量和值作为 - HADOOP_HOME 和路径(即 c:\\\\\\\\Hadoop)。

(2) 将新条目添加/附加到 "Path" 变量为 "C:\\\\\\\\Hadoop\\\\\\\\bin"。

以上对我有用。

您也可以从 GITHub 下载 winutils.exe:

https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin

用你想要的版本替换 hadoop-2.7.1 并将文件放在 D:\\hadoop\\bin

If you do not have access rights to the environment variable settings
on your machine, simply add the below line to your code:

1	System.setProperty("hadoop.home.dir","D:\\\\hadoop");

如果我们看到下面的问题

ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\\bin\\winutils.exe in the Hadoop binaries.

然后执行以下步骤

从 http://public-repo-1.hortonworks.com/hdp- 下载 winutils.exe
赢阿尔法/winutils.exe。

并将其保存在您创建的任何文件夹的 bin 文件夹下，例如C:\\\\\\\\Hadoop\\\\\\\\bin

并在程序中在创建 SparkContext 或 SparkConf 之前添加以下行
System.setProperty("hadoop.home.dir", "C:\\\\\\\\Hadoop");

我在运行单元测试时遇到了同样的问题。我找到了这个解决方法：

以下解决方法可以消除此消息：

1
2
3
4

File workaround = new File(".");
System.getProperties().put("hadoop.home.dir", workaround.getAbsolutePath());
new File("./bin").mkdirs();
new File("./bin/winutils.exe").createNewFile();

来自：https://issues.cloudera.org/browse/DISTRO-544

在系统属性中设置 Hadoop_Home 环境变量对我不起作用。但是这样做了：

在 Eclipse Run Configurations 环境选项卡中设置 Hadoop_Home。
从这里按照 \\'Windows 环境设置\\'

以下细节Java 1.8.0_121我也遇到过类似的问题，
Spark spark-1.6.1-bin-hadoop2.6、Windows 10 和 Eclipse Oxygen。当我使用 HADOOP_HOME 作为上一篇文章中提到的系统变量在 Eclipse 中运行 WordCount.java 时，它不起作用，什么对我有用是 -

System.setProperty("hadoop.home.dir", "PATH/TO/THE/DIR");

PATH/TO/THE/DIR/bin=winutils.exe 无论您是在 Eclipse 中作为 Java 应用程序运行，还是使用

从 cmd 通过 spark-submit 运行

spark-submit --class groupid.artifactid.classname --master local[2] /path 使用 maven 创建的 jar 文件 /path
到一个演示测试文件/路径到输出目录命令

示例：转到 Spark/home/location/bin 的 bin 位置并按照上述执行 spark-submit，

D:\\\\\\\\BigData\\\\\\\\spark-2.3.0-bin-hadoop2.7\\\\\\\\bin>spark-submit --class com.bigdata.abdus.sparkdemo.WordCount --master local [1] D:\\\\\\\\BigData\\\\\\\\spark-quickstart\\\\\\\\target\\\\\\\\spark-quickstart-0.0.1-SNAPSHOT.jar D:\\\\\\\\BigData\\\\\\\\spark-快速入门\\\\\\\\wordcount.txt

除了在windows中将HADOOP_HOME的环境变量称为C:\\winutils，你还需要确保你是机器的管理员。如果不是，并且添加环境变量会提示您输入管理员凭据(即使在 USER 变量下)，那么一旦您以管理员身份启动命令提示符，这些变量将适用。

这是一个棘手的问题...你的存储信一定是大写的。例如 "C:\\\\\\\\..."

有关关于 scala:java.io.IOException: 无法在 Hadoop 二进制文件中找到可执行的 null\\bin\\winutils.exe。在 Windows 7 上触发 Eclipse的更多相关文章

ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2
我的目标是转换表单输入，例如“100兆字节”或“1GB”，并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前，我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效，但前提是输入是倍数(“gigabytes”，而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以，功能正常，
ruby - 在 Ruby 程序执行时阻止 Windows 7 PC 进入休眠状态 - 2
我需要在客户计算机上运行Ruby应用程序。通常需要几天才能完成(复制大备份文件)。问题是如果启用sleep，它会中断应用程序。否则，计算机将持续运行数周，直到我下次访问为止。有什么方法可以防止执行期间休眠并让Windows在执行后休眠吗？欢迎任何疯狂的想法;-) 最佳答案 Here建议使用SetThreadExecutionStateWinAPI函数，使应用程序能够通知系统它正在使用中，从而防止系统在应用程序运行时进入休眠状态或关闭显示。像这样的东西:require'Win32API'ES_AWAYMODE_REQUIRED=0x0
ruby-on-rails - 由于 "wkhtmltopdf"，PDFKIT 显然无法正常工作 - 2
我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中，我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-openid:执行发现时未设置@socket - 2
我在使用omniauth/openid时遇到了一些麻烦。在尝试进行身份验证时，我在日志中发现了这一点:OpenID::FetchingError:Errorfetchinghttps://www.google.com/accounts/o8/.well-known/host-meta?hd=profiles.google.com%2Fmy_username:undefinedmethod`io'fornil:NilClass重要的是undefinedmethodio'fornil:NilClass来自openid/fetchers.rb，在下面的代码片段中:moduleNetclass
ruby - 将差异补丁应用于字符串/文件 - 2
对于具有离线功能的智能手机应用程序，我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2
我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚
ruby - 使用 Vim Rails，您可以创建一个新的迁移文件并一次性打开它吗？ - 2
使用带有Rails插件的vim，您可以创建一个迁移文件，然后一次性打开该文件吗？textmate也可以这样吗？最佳答案你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件，这正是您想要的。我不能代表textmate。关于ruby-使用VimRails，您可以创建一个新的迁移文件并一次性打开它吗？，我们在StackOverflow上找到一个类似的问题： https://sta

关于 scala:java.io.IOException: 无法在 Hadoop 二进制文件中找到可执行的 null\\bin\\winutils.exe。在 Windows 7 上触发 Eclipse

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. spark Eclipse on windows 7

有关关于 scala:java.io.IOException: 无法在 Hadoop 二进制文件中找到可执行的 null\\bin\\winutils.exe。在 Windows 7 上触发 Eclipse的更多相关文章

随机推荐