草庐IT

client_side_validations

全部标签

windows - Windows 上的 Hadoop : Not a valid DFS filename

我在Windows上配置了Hadoop2.7.2,我可以看到名称节点、数据节点、资源管理器和节点管理器正常运行,当我尝试运行作为示例提供的mapreduce程序之一时出现问题.请在下面找到我正在运行的命令c:\hdp\bin\yarnjarc:\hdp\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.7.2.jarwordcountc:\hdp\LICENSE.txt/out我可以看到所有文件都位于所需位置。请在堆栈跟踪下方找到:C:\WINDOWS\system32>c:\hdp\bin\yarnjarc:\hdp\share\h

python - 无法在 yarn-client 模式下运行 pyspark(pyspark standalone 正在运行)

我可以在输入以下命令时运行spark$pyspark和$pyspark--masterlocal[2]但当我运行这个时不是-$pyspark--masteryarn客户端它给了我一个巨大的堆栈跟踪,它在下面给出或更清楚地可用here$pyspark--masteryarn-clientPython2.7.6(default,Jun222015,17:58:13)[GCC4.8.2]onlinux2Type"help","copyright","credits"or"license"formoreinformation.Warning:Masteryarn-clientisdepreca

Eclipse MapReduce 插件错误 : Server IPC version 7 cannot cannot communicate with client version 3

当我尝试连接到MapReduce位置时,我的笔记本电脑(我有我的eclipse和mapreduce插件)是一个namenode和datanode的集群,我得到错误:服务器IPC版本7无法与客户端版本3通信。我试图在谷歌上找到一些信息,但找不到太多。是不是因为我的mapreduceeclipse插件使用旧版本的IPC而hadoop集群有更新的版本。所以只是我使用的是过时的插件?如何找到我的eclipse插件使用的IPC版本?有什么想法吗? 最佳答案 是的,这听起来像是版本不兼容。假设您的hadoop发行版有源代码,您可以为该版本重新编

hadoop - 使用不同的 hadoop-mapreduce-client-core.jar 运行 hadoop 集群

我在安装了CDH4.2.0的hadoop集群上工作并遇到了this错误。它已在更高版本的hadoop中得到修复,但我无权更新集群。有没有办法告诉hadoop在通过命令行参数运行我的工作时使用这个jarhadoopjarMyJob.jar-Dhadoop.mapreduce.client=hadoop-mapreduce-client-core-2.0.0-cdh4.2.0.jar新的mapreduce-client-core.jar文件是票证中的补丁jar。或者必须用这个新的jar完全重新编译hadoop?我是hadoop的新手,所以我不知道所有可能的命令行选项。

hadoop - 无法启动 TaskTracker.Says 无法启动任务跟踪器,因为 java.lang.IllegalArgumentException : Does not contain a valid host:port authority:

编辑了mapred-site.xml、core-site.xml、hadoop-env.sh、hdfs-site.xml、masters和slaves。我有1个DataNode和2个Namenode。它们都成功启动,我可以在浏览器中看到它们。启动了start-mapred.sh并在Namenode上启动了JobTracker和TaskTracker,但无法在datanaode上启动Tasktracker。启动Tasktracker,输出如下。->hadooptasktrackerWarning:$HADOOP_HOMEisdeprecated.13/10/1703:21:55INFOm

java - 如何使用具有多对多关系的两个表在 Java Mapreduce 上执行 reduce side join?

首先,我不确定这是否可能。如果可能的话,我仍然不确定这是否是正确的做法。我拥有的是:HDFS上的两个名为A和B的大型csv文件A有以下列:a1、a2、a3、a4B有以下列:b1、b2、b3、b4、b5我想要的是:加入两个文件,假设a1=b1我遇到的问题是:如果连接键上的两个文件之间存在多对多关系,我如何使用Java上的HadoopMapreduce执行此操作?从下图中可以看出,A有4行匹配a1=x,B有2行匹配b1=x。因此,在a1=b1=x上连接两个表会产生4*2=8行(组合),如最后一个表所示。使用reduce侧连接,我无法做到这一点,因为这意味着增加键值对,这违背了MapRedu

postgresql - 大量导出时出现 Sqoop PSQLException "Sorry, too many clients already"

当从HDFS导出大型(超过200万行)表到Postgres时,我看到Sqoop抛出PSQLException“抱歉,客户端已经太多了”。我有几张较小的table(约300万张),它们似乎运行良好。即使大表出现故障,我的postgres表中似乎仍然有大约200万行,但我猜这只是来自那些没有死的worker,因为他们首先获得了其中一个连接。我的Postgres表配置为允许300个max_connections,并且有大约70个连接始终来自其他应用程序,因此SQOOP应该有大约230个可供使用。我尝试在我的SQOOP导出命令中将--num-mappers切换为2-8,但这似乎并没有太大的区别

hadoop - 在 HDInsight 中将 JSON SerDe 与 Hive 一起使用时出现 "Can not validate"错误

我正在尝试在HDInsight中实现JSONSerDe以处理JSON格式的文件。我读了HDInsightHivenotfindingSerDejarinADDJARstatement但是当尝试运行查询来创建表时,集群返回错误消息:returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTaskCannotvalidateserde.org.openx.data.jsonserde.JsonSerDe此错误消息是什么意思?我该如何解决? 最佳答案 此错误通常意味着在当前类路径中找不到serde

hadoop - Mapside Join 和 Reduce side join 可以有不同的 O/P

以下代码存在于PROD中并且每天运行,我正在尝试对其进行优化。我看到设置hive.auto.convert.join=FALSE;正在让它执行一个Reducesidejoin,它运行2.5小时并产生2324381条记录的行数。如果我设置hive.auto.convert.join=TRUE;然后它执行Map端连接并仅运行20分钟并生成5766529条记录的行数。我需要知道为什么行数不同,这是否正确?行数不同可以吗?我的印象是,无论发生哪个连接,O/P或查询都应该保持不变。在这两种情况下,源数据都保持不变,而且对于我正在更改的配置单元设置,所有其他条件都是相同的。INSERTOVERWR

hadoop - Mapreduce 作业 ipc.Client 重试连接

我正在测试由4个docker容器组成的hadoop集群:数据节点辅助名称节点名称节点资源经理当我提交mapreduce作业时,一旦map和reduce都达到100%,我就会注意到连接问题。然后在出错和提供堆栈跟踪之前达到最大重试次数。奇怪的是作业完成并提供了答案。但是,节点管理器Web界面显示作业失败。到目前为止,我发现的问题/答案都没有解决我的特定问题。我所有的机器都公开了端口范围50100:50200以符合“yarn.app.mapreduce.am.job.client.port-range”属性。我提交的作业是sudo-uhdfshadoopjar/usr/lib/hadoop