草庐IT

关于 scala:java.io.IOException: 无法在 Hadoop 二进制文件中找到可执行的 null\\bin\\winutils.exe。在 Windows 7 上触发 Eclipse

codeneng 2023-03-28 原文

java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. spark Eclipse on windows 7

我无法在 Windows 7

上安装的 Scala IDE(Maven spark 项目)中运行简单的 spark 作业

已添加 Spark 核心依赖项。

1
2
3
4
val conf = new SparkConf().setAppName("DemoDF").setMaster("local")
val sc = new SparkContext(conf)
val logData = sc.textFile("File.txt")
logData.count()

错误:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13
16/02/26 18:29:34 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path
java.io.IOException: Could not locate executable null\\bin\\winutils.exe in the Hadoop binaries.
    at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278)
    at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300)
    at org.apache.hadoop.util.Shell.<clinit>(Shell.java:293)
    at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76)
    at org.apache.hadoop.mapred.FileInputFormat.setInputPaths(FileInputFormat.java:362)
    at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
    at org.apache.spark.SparkContext$$anonfun$hadoopFile$1$$anonfun$33.apply(SparkContext.scala:1015)
    at org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)
    at org.apache.spark.rdd.HadoopRDD$$anonfun$getJobConf$6.apply(HadoopRDD.scala:176)
    at scala.Option.map(Option.scala:145)
    at org.apache.spark.rdd.HadoopRDD.getJobConf(HadoopRDD.scala:176)
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:195)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)
    at scala.Option.getOrElse(Option.scala:120)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239)
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237)
    at scala.Option.getOrElse(Option.scala:120)
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:237)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:1929)
    at org.apache.spark.rdd.RDD.count(RDD.scala:1143)
    at com.org.SparkDF.FrameDemo$.main(FrameDemo.scala:14)
    at com.org.SparkDF.FrameDemo.main(FrameDemo.scala)

这里很好地解释了您对解决方案的问题。

  • 从 http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe 下载 winutils.exe。
  • 在操作系统级别或以编程方式设置您的 HADOOP_HOME 环境变量:

    System.setProperty("hadoop.home.dir", "winutils文件夹的完整路径");

  • 享受

    • 我必须将 HADOOP_HOME 设置为 hadoop 文件夹而不是 bin 文件夹。
    • 另外,请务必根据编译 spark 的 hadoop 版本下载正确的 winutils.exe(因此,不一定是上面的链接)。否则,痛苦等待:)
    • System.setProperty("hadoop.home.dir", "C:\\\\\\\\\\\\\\\\hadoop-2.7.1\\\\")
    • 是的,正如@Stanley 所说。将 HADOOP_HOME 设置为 hadoop 文件夹而不是 bin 文件夹。
    • @NP3 你怎么知道那个版本的?我正在使用最新的 pyspark。谢谢,
    • 要获得正确版本的 winutils.exe,请查看此 github 存储库。选择与您从官网下载的 Spark .tgz 时选择的包类型相同的版本。


  • 下载 winutils.exe
  • 创建文件夹,比如 C:\\winutils\\bin
  • winutils.exe 复制到 C:\\winutils\\bin
  • 将环境变量 HADOOP_HOME 设置为 C:\\winutils
    • 另外,如果您打开了 cmd 行,请重新启动它以使变量生效。


    关注这个:

  • 在任意目录中创建一个 bin 文件夹(用于步骤 3)。

  • 下载winutils.exe,放到bin目录下。

  • 现在在您的代码中添加 System.setProperty("hadoop.home.dir","PATH/TO/THE/DIR");

    • 非常感谢,正是我想要的
    • 需要注意的是,要指向的路径不应包括\\'bin\\'目录。例如:如果 winutils.exe 的路径是 "D://Hadoop//bin//winutils.exe" ,那么 hadoop.home.dir 的路径应该是 "D://Hadoop"
    • 嗨,我按照上述步骤操作,但得到了 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties (PS:我在 Pycharm 中使用 Pyspark 2.4.4)


    1
    2
    3
    4
    5
    6
    7
    1) Download winutils.exe from https://github.com/steveloughran/winutils
    2) Create a directory In windows"C:\\winutils\\bin
    3) Copy the winutils.exe inside the above bib folder .
    4) Set the environmental property in the code
      System.setProperty("
    hadoop.home.dir","file:///C:/winutils/");
    5) Create a folder"file:///C:/temp" and give 777 permissions.
    6) Add config property in spark Session".config("spark.sql.warehouse.dir","file:///C:/temp")"

    在 Windows 10 上 - 您应该添加两个不同的参数。

    (1) 在系统变量下添加新变量和值作为 - HADOOP_HOME 和路径(即 c:\\\\\\\\Hadoop)。

    (2) 将新条目添加/附加到 "Path" 变量为 "C:\\\\\\\\Hadoop\\\\\\\\bin"。

    以上对我有用。


    您也可以从 GITHub 下载 winutils.exe:

    https://github.com/steveloughran/winutils/tree/master/hadoop-2.7.1/bin

    用你想要的版本替换 hadoop-2.7.1 并将文件放在 D:\\hadoop\\bin

    If you do not have access rights to the environment variable settings
    on your machine, simply add the below line to your code:

    1
    System.setProperty("hadoop.home.dir","D:\\\\hadoop");

    如果我们看到下面的问题

    ERROR Shell: Failed to locate the winutils binary in the hadoop binary path

    java.io.IOException: Could not locate executable null\\bin\\winutils.exe in the Hadoop binaries.

    然后执行以下步骤

  • 从 http://public-repo-1.hortonworks.com/hdp- 下载 winutils.exe
    赢阿尔法/winutils.exe。
  • 并将其保存在您创建的任何文件夹的 bin 文件夹下,例如C:\\\\\\\\Hadoop\\\\\\\\bin
  • 并在程序中在创建 SparkContext 或 SparkConf 之前添加以下行
    System.setProperty("hadoop.home.dir", "C:\\\\\\\\Hadoop");

  • 我在运行单元测试时遇到了同样的问题。我找到了这个解决方法:

    以下解决方法可以消除此消息:

    1
    2
    3
    4
        File workaround = new File(".");
        System.getProperties().put("hadoop.home.dir", workaround.getAbsolutePath());
        new File("./bin").mkdirs();
        new File("./bin/winutils.exe").createNewFile();

    来自:https://issues.cloudera.org/browse/DISTRO-544


    在系统属性中设置 Hadoop_Home 环境变量对我不起作用。但是这样做了:

    • 在 Eclipse Run Configurations 环境选项卡中设置 Hadoop_Home。
    • 从这里按照 \\'Windows 环境设置\\'

    以下细节Java 1.8.0_121我也遇到过类似的问题,
    Spark spark-1.6.1-bin-hadoop2.6、Windows 10 和 Eclipse Oxygen。当我使用 HADOOP_HOME 作为上一篇文章中提到的系统变量在 Eclipse 中运行 WordCount.java 时,它不起作用,什么对我有用是 -

    System.setProperty("hadoop.home.dir", "PATH/TO/THE/DIR");

    PATH/TO/THE/DIR/bin=winutils.exe 无论您是在 Eclipse 中作为 Java 应用程序运行,还是使用

    从 cmd 通过 spark-submit 运行

    spark-submit --class groupid.artifactid.classname --master local[2] /path 使用 maven 创建的 jar 文件 /path
    到一个演示测试文件/路径到输出目录命令

    示例:转到 Spark/home/location/bin 的 bin 位置并按照上述执行 spark-submit,

    D:\\\\\\\\BigData\\\\\\\\spark-2.3.0-bin-hadoop2.7\\\\\\\\bin>spark-submit --class com.bigdata.abdus.sparkdemo.WordCount --master local [1] D:\\\\\\\\BigData\\\\\\\\spark-quickstart\\\\\\\\target\\\\\\\\spark-quickstart-0.0.1-SNAPSHOT.jar D:\\\\\\\\BigData\\\\\\\\spark-快速入门\\\\\\\\wordcount.txt


    除了在windows中将HADOOP_HOME的环境变量称为C:\\winutils,你还需要确保你是机器的管理员。如果不是,并且添加环境变量会提示您输入管理员凭据(即使在 USER 变量下),那么一旦您以管理员身份启动命令提示符,这些变量将适用。


    这是一个棘手的问题...你的存储信一定是大写的。例如 "C:\\\\\\\\..."

    有关关于 scala:java.io.IOException: 无法在 Hadoop 二进制文件中找到可执行的 null\\bin\\winutils.exe。在 Windows 7 上触发 Eclipse的更多相关文章

    1. ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2

      我有一个Ruby程序,它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重,我想提高压缩级别,因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗?是否有另一个允许指定压缩级别的Ruby库? 最佳答案 这是我通过查看ruby​​zip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d

    2. ruby - 其他文件中的 Rake 任务 - 2

      我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

    3. ruby-on-rails - 在 Rails 中将文件大小字符串转换为等效千字节 - 2

      我的目标是转换表单输入,例如“100兆字节”或“1GB”,并将其转换为我可以存储在数据库中的文件大小(以千字节为单位)。目前,我有这个:defquota_convert@regex=/([0-9]+)(.*)s/@sizes=%w{kilobytemegabytegigabyte}m=self.quota.match(@regex)if@sizes.include?m[2]eval("self.quota=#{m[1]}.#{m[2]}")endend这有效,但前提是输入是倍数(“gigabytes”,而不是“gigabyte”)并且由于使用了eval看起来疯狂不安全。所以,功能正常,

    4. ruby - 在 Ruby 程序执行时阻止 Windows 7 PC 进入休眠状态 - 2

      我需要在客户计算机上运行Ruby应用程序。通常需要几天才能完成(复制大备份文件)。问题是如果启用sleep,它会中断应用程序。否则,计算机将持续运行数周,直到我下次访问为止。有什么方法可以防止执行期间休眠并让Windows在执行后休眠吗?欢迎任何疯狂的想法;-) 最佳答案 Here建议使用SetThreadExecutionStateWinAPI函数,使应用程序能够通知系统它正在使用中,从而防止系统在应用程序运行时进入休眠状态或关闭显示。像这样的东西:require'Win32API'ES_AWAYMODE_REQUIRED=0x0

    5. ruby-on-rails - 由于 "wkhtmltopdf",PDFKIT 显然无法正常工作 - 2

      我在从html页面生成PDF时遇到问题。我正在使用PDFkit。在安装它的过程中,我注意到我需要wkhtmltopdf。所以我也安装了它。我做了PDFkit的文档所说的一切......现在我在尝试加载PDF时遇到了这个错误。这里是错误:commandfailed:"/usr/local/bin/wkhtmltopdf""--margin-right""0.75in""--page-size""Letter""--margin-top""0.75in""--margin-bottom""0.75in""--encoding""UTF-8""--margin-left""0.75in""-

    6. ruby-on-rails - Rails 3 中的多个路由文件 - 2

      Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

    7. ruby-openid:执行发现时未设置@socket - 2

      我在使用omniauth/openid时遇到了一些麻烦。在尝试进行身份验证时,我在日志中发现了这一点:OpenID::FetchingError:Errorfetchinghttps://www.google.com/accounts/o8/.well-known/host-meta?hd=profiles.google.com%2Fmy_username:undefinedmethod`io'fornil:NilClass重要的是undefinedmethodio'fornil:NilClass来自openid/fetchers.rb,在下面的代码片段中:moduleNetclass

    8. ruby - 将差异补丁应用于字符串/文件 - 2

      对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

    9. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

      我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

    10. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

      使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

    随机推荐