草庐IT

shortest_path_length

全部标签

apache-spark - 错误 : path does not exist in spark submit with hadoop

我们正在使用命令/home/ubuntu/spark/bin/spark-submit--masteryarn--deploy-modecluster--class"SimpleApp"/home/ubuntu/spark/examples/src/main/scala/sbt/target/scala-2.11/teste_2.11-1.0.jar运行下面的脚本importorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql._importorg.apache.spark.sql.types._importorg.apac

hadoop - Hive 3.1.1安装问题: Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path

感谢有关tutorialspoint和stackoverflow的有用信息,我几乎完成了在OracleVirtualBox上的Ubuntu上安装Hive3.1.1和Hadoop3.0.3。我尝试从$HIVE_HOME运行“bin/hive”并收到以下错误:"Cannotfindhadoopinstallation:$HADOOP_HOMEor$HADOOP_PREFIXmustbesetorhadoopmustbeinthepath."我编辑了bashrc以包括:exportHADOOP_HOME=/usr/local/hadoop....exportPATH=$PATH:$HADOO

ubuntu - 安装hadoop时如何修复 "Error: Could not find or load main class ” -Djava.library.path=.usr.local.hadoop.lib”

我正在尝试在Ubuntu上安装Hadoop2.9.2。我在~/.bashrc和env.sh文件中设置了相同的JAVA_HOME路径。在hadoop_store下使用正确的路径为数据节点和名称节点创建了两个单独的目录。Java版本是“java-11-openjdk-amd64”。在hadoop文件系统中格式化namenode时,我仍然面临错误。请帮助我解决它。指向我一直遵循其说明的页面的链接。https://www.digitalvidya.com/blog/install-hadoop-on-ubuntu-and-run-your-first-mapreduce-program/这是错

hadoop - PIG 拉丁语 : Output Path based on Field Value

我有一个日志文件,其中包含来自多个域的日志。现在我想对它们进行一些分析并将输出存储在一个名为域的目录中。我在日志中将域作为字段值:STOREoutputlogsINTO'testpath/DOMAIN/logsUSING....这可能吗?或者我只能将输出存储在硬编码文件路径中吗? 最佳答案 如果域的名称是outputlogs中的一个字段,那么您可以使用MultiStorage从存钱jar。像这样的东西:STOREoutputlogsINTO'testpath/DOMAIN/logs'USINGMultiStorage('testpa

java - HiveServer2 无法识别 hive.aux.jars.path

我的hive-site.xml中列出了几个jar文件。我有一个使用特殊FileInputFormat的表格。当我运行hive时,我可以做类似的事情:describemy-table。工作正常。当我运行hiveServer2并从直线连接时。我可以看到表格,但是当我执行describemy-table时,我得到:Error:Errorwhileprocessingstatement:FAILED:RuntimeExceptionjava.lang.ClassNotFoundException:package.file.input.format.class.name(state=42000,

hadoop - Nutch 非法参数异常 : Row length 41221 is > 32767

我已经添加了一组种子以使用此命令进行抓取./bin/crawl/largeSeeds1http://localhost:8983/solr/ddcd4对于第一次迭代,所有命令(注入(inject)、生成、提取、解析、更新表、索引器和删除重复项。)都已成功执行。对于第二次迭代,“CrawlDBupdate”命令失败(请参阅错误日志以供引用),由于此命令失败,整个过程被终止。软件栈为nutch-branch-2.3.1、gora-hbase0.6.1Hadoop2.5.2、hbase-0.98.8-hadoop216/01/2002:45:19INFOparse.ParserJob:Par

python - HDFS IO 故障 "path is not a file"

我最近在hadoop上将我的h2o从3.6.0.8更新到3.10.0.9,并且我正在使用pythonapi。以前(使用3.6)我使用以下命令加载我保存的模型:model_to_load=h2o.load_model('hdfs://nameservice1/path/to/model/model_directory')我现在使用相同的命令(在3.10中)并得到以下错误:java.io.FileNotFoundException:Pathisnotafile:/path/to/model/model_directory我尝试降级回3.6.0.8,它工作正常,就像以前一样。在目录中,每棵树

hadoop - key 表文件 :/path/a. key 表不存在

我在本地目录路径中有key表文件。我正在尝试通过--keytab传递此key表和主体和--principalin在奥齐。但是我收到错误Keytabfile:/path/a.keytabdoesnotexist。但是该文件存在于路径目录中。可能是什么问题 最佳答案 使用oozie,您必须将key表放在存储在HDFS中的工作流的lib目录中。然后,您的spark操作应该能够读取它。 关于hadoop-key表文件:/path/a.key表不存在,我们在StackOverflow上找到一个类似

hadoop - 组织.apache.hadoop.ipc.RpcException : RPC response exceeds maximum data length

我已经在2台机器上设置了hadoop集群。一台机器同时有master和slave-1。第二台机器有slave-2。当我使用start-all.sh启动集群时,我在secondarynamenode的.out文件中遇到以下错误:java.io.IOException:Failedonlocalexception:org.apache.hadoop.ipc.RpcException:RPCresponseexceedsmaximumdatalength;HostDetails:localhostis:"ip-10-179-185-169/10.179.185.169";destinatio

java - 在 Hadoop 上运行 MapReduce 字数统计会给出异常消息 : The system cannot find the path specified

这是我的第一个StackOverflow问题。我已经在伪分布式模式下设置了我的hadoop(2.9.2)单节点集群。当我尝试运行hadoopjarC:/MapReduceClient.jarwordcount/input_dir/output_dir时,我得到以下错误日志19/01/1620:19:17INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803219/01/1620:19:18INFOinput.FileInputFormat:Totalinputfilestoprocess:119/01/1620:19:1