草庐IT

hadoop - 使用 Amazon S3 存储桶输入和输出在 Amazon EMR 上运行自定义 JAR 时出现错误(文件系统错误)

我正在尝试使用自定义JAR的输入和输出参数作为S3存储桶在AmazonEMR集群上运行自定义JAR(-inputs3n://s3_bucket_name/ldas/in-outputs3n://s3_bucket_name/ldas/out)当集群运行此自定义JAR时,会发生以下异常。Exceptioninthread"main"java.lang.IllegalArgumentException:**WrongFS:s3n://s3_bucket_name/ldas/out,expected:hdfs://10.214.245.187:9000**atorg.apache.hadoo

hadoop - HDInsight Hive 在 ADD JAR 语句中找不到 SerDe jar

我已经将json-serde-1.1.9.2.jar上传到路径为“/lib/”的blob存储并添加了ADDJAR/lib/json-serde-1.1.9.2.jar但是我得到了/lib/json-serde-1.1.9.2.jardoesnotexist我在没有路径的情况下进行了尝试,并且还向ADDJAR语句提供了完整的url,结果相同。非常感谢对此的一些帮助,谢谢! 最佳答案 如果您不包含该方案,那么Hive将在本地文件系统上查找(您可以查看thesource的第768行附近的代码)当您包含URI时,请确保使用完整形式:ADDJ

scala - Spark : how to include dependencies with build/sbt compile

我是spark的新手,但正在尝试进行一些开发。我正在遵循thesparkdeveloperpage中的“减少构建时间”说明.创建正常程序集后,我编写了一些依赖于一个特定jar的类。我在spark-shell中测试了我的包,通过定义SPARK_CLASSPATH,我已经能够在其中包含我的jar,但问题在于实际编译我的代码。我想要实现的是在编译我添加的包时包含那个jar(使用build/sbtcompile)。我可以通过在build/sbt文件或sbt-launch-lib.bash中添加我的jar路径来做到这一点吗?如果可以的话,怎么做?(旁注:我还不想将jar包含在程序集中,因为我对它

maven - 如何使用 Maven 构建 Hadoop 作业

我是maven和hadoop的新手,想知道更多关于如何设置maven环境的信息,以便我可以构建一个简单的hadoopwordcount作业。如果wordcount作业由map.java、reduce.java和驱动程序类wordcount.java组成,它们应该保存在哪里,以便maven可以将它们编译成.jar?我还有一个pom.xml。如果有人可以详细解释如何使用maven运行wordcount作业,我将不胜感激。我目前正在ubuntu终端上的单节点集群hadooptar上做所有事情。我发现这些链接给了我一些见解,但我并不完全理解整个路径目录方案。具体来说,groupid和artif

java - hadoop编译——在dfs文件中

我想用下面的命令编译hadoop的例子,但是出现了错误:$mkdirwordcount_classes$javac-classpath${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar-dwordcount_classesWordCount.java$jar-cvf/usr/joe/wordcount.jar-Cwordcount_classes/.Assumingthat:/usr/joe/wordcount/input-inputdirectoryinHDFS/usr/joe/wordcount/output-outputdirecto

java - 为 Pig 设置 eclipse

我正在尝试设置我的eclipse(火星)来编写一些PigUDF。我下载了4个不同的JAR,但我仍然遇到问题。以下是我添加为外部库的4个JAR。pig-0.8.3.jarpig-0.14.0.jarpig.0.11.1.jarpiggybank-0.11.0.jar我正在尝试为解码编写PigUDF。谁能指出我哪里出错了?提前致谢。 最佳答案 来自您的评论:Cannotfindtheclassfilefororg.apache.commons.logging.Log您需要添加公共(public)日志记录jar文件。可能还有很多其他人。您

hadoop - 如何在未安装的系统中使用 jar 文件运行 drill?

我正在使用Apachedrill1.8制作程序。我正在尝试在未安装drill的HDFS中运行该程序。我认为的方法是使用jar文件,drill包含的jar文件可以运行这个程序,因为它是在虚拟机中运行的。但我对这种方式没有信心。能行吗?如果这种方式可行,如何在jar文件中包含drill?如果不是,那是什么方式?还有一个问题,如何使用Java代码更改存储配置? 最佳答案 drill或hdfs是否在同一台机器上运行并不重要。为什么需要创建一个jar。如果您使用Maven作为构建工具,请添加DrillJDBC驱动程序依赖项:org.apach

hadoop - 无法从配置单元创建 hbase 表

这是我正在运行的查询,但出现异常。我将所有jar保存在hive/lib文件夹中,但我仍然面临这个问题。谁能给我建议如何解决这个问题。提前致谢。hive>CREATETABLEhbase_shipper(s_idint,s_namestring)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"=":key,cf1:val")TBLPROPERTIES("hbase.table.name"="hive_shipper");FAILED:E

java - 无法使用 JDBC 连接到 Phoenix

我有一个使用HBase和Phoenix设置的Hadoop集群,我正在尝试使用JDBC连接到Phoenix,但我有点无法成功连接。我想使用JDBC通过Python3.x进行连接,但为了简单的测试目的,我在Eclipse中使用Java设置了一个连接。我最初使用Python的第3方库(phoenixdb),但我开始使用这个库时出现超时(随着我的数据库的增长)。在此之后,我更改了我的hbase-site.xml设置中的一些变量,以避免超时,但出于某种原因,这并没有解决我使用这个第3方库的问题。所以我尝试转向JDBC和Java项目-至少是为了测试。我有以下Java代码:publicclassPh

hadoop - pig 注册jar,文件不存在报错

我正在使用Hortonworks沙盒并尝试运行一个简单的pig脚本。似乎有与“文件不存在”相关的恼人错误。脚本如下:REGISTER'/piggybank.jar';inp=load'/my.csv'USINGorg.apache.pig.piggybank.storage.CSVExcelStorage..ERROR2997:EncounteredIOException.Filedoesnotexist:hdfs://sandbox.hortonworks.com:8020/tmp/udfs/'/piggybank.jar'但是,我的jar位于根目录(/)中,并且我也给予了适当的许可