草庐IT

test_home

全部标签

testing - 使用 Hive 进行数据测试

我们的项目要求将数据从源加载到HDFS目标目录。而且我们必须验证数据转换(从源到目标)作为转换规则。他们为我们提供了源表(单个平面文件/表)和目标表的平面文件。我们必须通过Hive进行数据验证我们如何做到这一点,其中是否有任何自动化范围。我对这项Hadoop技术非常陌生。请帮帮我 最佳答案 尝试以下步骤来验证数据-1-编写自定义UDF并对行应用验证规则,您可以使用REGEX在UDF中编写验证规则。2-编写自定义Serde或InputFOrmat以在加载Hive表时验证数据。3-尝试MapreduceJob直接进行数据验证。如果您的源

hadoop - 如何在 HDP 2.2 中安装 hadoop-examples* 和 hadoop-test* jar?

如何在HortonworksDataPlatform2.2上安装hadoop-examples*和hadoop-test*jar?这些jar在任何服务器上都不存在。我需要安装其他软件包吗?我找到了一个reference也就是说,它们应该位于/usr/share/hadoop,但该目录在我的集群中的任何节点上都不存在。 最佳答案 对于HDP2.2,大多数内容都移到了/usr/hdp下,所以这些可能就是您要找的内容。[hdpdemo@hdp-demo-mas5hdp]$pwd/usr/hdp[hdpdemo@hdp-demo-mas5h

Hadoop master 无法使用不同的 $HADOOP_HOME 启动 slave

在master中,$HADOOP_HOME是/home/a/hadoop,slave的$HADOOP_HOME是/home/b/hadoop在master中,当我尝试使用start-all.sh时,master名称节点成功启动,但无法启动slave的数据节点,并显示以下消息:b@192.068.0.2:bash:line0:cd:/home/b/hadoop/libexec/..:Nosuchfileordirectoryb@192.068.0.2:bash:/home/b/hadoop/bin/hadoop-daemon.sh:Nosuchfileordirectory关于如何在ma

hadoop - org.apache.hadoop.security.AccessControlException : Permission denied: user=test-user, access=EXECUTE, inode ="system":hadoop:test-user:rwx------

以前测试用户曾经驻留在连接丢失的边缘服务器上。因此,我们重建了边缘服务器并一直在尝试启动并运行它,但我一直收到以下错误。Jobinitializationfailed:org.apache.hadoop.security.AccessControlException:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=test-user,access=EXECUTE,inode="system":hadoop:test-user:rwx------atsun.reflect.GeneratedC

java - 安装 pig 时出现“未设置 JAVA_HOME”错误。怎么办?

我遵循了pig.apache.org上的所有步骤,但无法通过设置java变量来消除此错误。我在安装javajdk时设置了变量,但它再次询问变量。 最佳答案 您需要了解环境变量在Linux(或Windows)中的工作原理。您可能只是在用于安装的shell中临时设置了JAVA_HOME。要永久设置JAVA_HOME(在Linux/UNIX上),您需要在每次创建新shell时运行的shell“rc”文件中设置它。(这取决于您使用的是哪个shell,但是man可以告诉您有关...) 关于java

hadoop - JAVA_HOME=$JAVA_HOME 在 hadoop 中不起作用

当我尝试hadoop2.x时,我启动了一个伪分布式操作,当我输入“sbin/start-dfs.sh”时,我得到了一个错误:JAVA_HOME不存在然后我检查etc/hadoop/hadoop-ennv.sh,我找到一行“JAVA_HOME=$JAVA_HOME”,并且我已经在/etc/profile中设置了JAVA_HOME。我不明白为什么。 最佳答案 对于hadoop2.x,你需要在“yarn-env.sh”中设置JAVA_HOME这个文件可以在/etc/hadoop下你可以看到hadoop-env.sh的同一路径上找到

hadoop - 关于 hadoop fs test 命令输出

我在命令下运行,尝试使用文件名存在或文件名不存在,但它们都没有来自控制台的任何输出。我希望如果文件存在,该命令应该返回零?http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#testhadoopfs-test-efilename 最佳答案 我认为这意味着命令的返回码是0。你可以检查hadoopfs-test-efilenameecho$? 关于hadoop

java - 为什么 hadoop_home 设置不正确

我按照以下说明为Windows安装hadoop2.3:https://www.youtube.com/watch?v=VhxWig96dME而且我可以让它在我的Macbook上的Windows8上运行得很好。但是,当我在我的Windows服务器上重复相同的步骤时,当我运行命令行时:hadoop它显示此错误:HADOOP_HOMEisnotsetcorrectly我再次非常仔细地检查,发现HADOOP_HOME设置得非常精确(如说明书和我之前在笔记本电脑上的设置)。那么可能是什么问题以及如何解决呢?笔记本电脑和服务器的设置有什么不同吗?我注意到当我运行相同的java安装文件(javase

ubuntu - 无法从 $HIVE_HOME 以外的任何其他位置启动配置单元

我已经使用Derby10.12.1.1安装了Hive2.1.0我可以从以下位置运行Hive:$HIVE_HOME但是当我从另一个位置运行时,比如root或其他地方,它会抛出一个错误:Exceptioninthread"main"java.lang.RuntimeException:Couldn'tcreatedirectory$/tmp/98e1866e-f8c7-451d-b958-1f773f0c4b02_resourcesatorg.apache.hadoop.hive.ql.util.ResourceDownloader.ensureDirectory(ResourceDown

maven - 需要将 flink-hadoop-compatibility-2.10 jar 显式复制到 EMR 集群上的 ${FLINK-HOME}/lib 位置

我目前正在开发一个Flink应用程序,该应用程序使用一些Hadoop依赖项将数据写入S3位置。在本地环境中它运行良好,但是当我在EMR集群上部署这个Flink应用程序时,它抛出了与兼容性问题相关的异常。我得到的错误信息是java.lang.RuntimeException:无法加载类“org.apache.hadoop.io.Writable”的TypeInformation。您可能缺少“flink-hadoop-compatibility”依赖项。在org.apache.flink.api.java.typeutils.TypeExtractor.createHadoopWritab