Hadoop_草庐IT

java - 设置 hive.exec.pre.hooks 时出现 ClassNotFoundException

我正在按照此文档进行配置单元Hook:http://dharmeshkakadia.github.io/hive-hook/但是当showtables时我得到了这个错误2018-08-1209:57:38,122ERRORorg.apache.hadoop.hive.ql.Driver:[HiveServer2-Background-Pool:Thread-315]:hive.exec.pre.hooksClassnotfound:HiveExampleHook2018-08-1209:57:38,122ERRORorg.apache.hadoop.hive.ql.Driver:[Hi

时出 ClassNotFoundException java hive apache hadoop hook

sql - 选择列中特定 ID 和列表名称价格高于同一列的行？

我有如下内容:ID-LIST_NAME-PRICE1-WASIA-1001-GASIA-1502-WSPAIN-1503-GMIAMI-1252-GSPAIN-1002-GMIAMI-1502-WMIAMI-125我希望输出为:2-WSPAIN-1502-GSPAIN-100因为W版比G版贵。如果它基本上可以在同一行显示两者，那就更好了:2-WSPAIN-150-GSPAIN-100不同的LIST_NAME可以有很多次ID，一个ID不必包含每个LIST_NAME(例如3没有WMIAMI) 最佳答案这是一种使用自join和stuff

sql 列 code section list_name hadoop

sql - 使用 Hive 复杂数据类型

我正在尝试将文本文件加载到配置单元数据库中，文本文件中的值是,分隔的，这些值中有一个值是数组类型。这是我的示例数据。101,suresh,67,45,67,21,hyderabad这里:101:学号suresh:学生姓名67,45,67,21:学生成绩hyderabad:学生所在地这里我需要如何加载到配置单元中101,suresh,[67,45,67,21],hyderabad标记字段必须作为数组类型加载。我该怎么做？最佳答案您可以使用regexserde并创建文本表。问题出在数组类型，因为regexserde不允许数组数据类型

Hive sql strong code marks arrays hadoop custom-data-type

hadoop - 如何创建 hdfs 数据目录？

每次我的hadoop服务器重新启动时，我都必须格式化namenode才能启动hadoop。这会删除我的hadoop安装中的所有文件。我需要将我的hadoophdfs位置从/tmp文件移动到永久位置，只要服务器重新启动，我就不必格式化名称节点等。我是hadoop的新手。如何在另一个目录中创建hdfs文件？我如何在配置文件中引用这个数据目录，这样我就不必格式化名称节点了？最佳答案 hdfs-site.xml的这两个属性决定了本地文件的存储位置。默认在/tmp下dfs.namenode.name.dirdfs.datanode.data

hadoop hdfs section code

hadoop - 你如何检查dfs中的目录

我在dfs中新建了一个目录/foodir来测试，如下:hadoopdfs-mkdir/foodir谁能告诉我/foodir保存在哪里？我怎样才能检查路径？我需要确保它没有保存在本地文件系统/tmp下，因为每次重新启动服务器时/tmp都会被删除。关于如何检查服务器文件系统中的/foodir路径有什么想法吗？最佳答案这取决于您如何设置core-site.xml和hdfs-site.xml文件...如果fs.defaultFS未设置为file://路径(默认)，则不会触及您的本地/tmp如果你的datanode和namenode数据目

hadoop dfs section code foodir hdfs

hadoop - 从 Dataproc 上的 MapReducer 映射器记录日志

我正在尝试退出在Dataproc上运行的映射器作业。遵循建议here，我简单地定义了一个log4j记录器并向它提供了信息:importorg.apache.log4j.Logger;publicclassSampleMapperextendsMapper{privateLoggerlogger=Logger.getLogger(SampleMapper.class);@Overrideprotectedvoidsetup(Contextcontext){logger.info("InitializingNoSQLConnection.")try{//logicforconnecting

射器 MapReducer section stackoverflow hadoop mapreduce log4j google-cloud-dataproc

java - 如何使用 log4j.properties 使日志文件根据大小旋转并压缩

主题-RollingFileAppender，以及如何压缩旋转的文件RollingfileAppender根据文件大小旋转日志文件。MaxFileSize表示文件的最大大小，而MaxBackupIndex表示要保存在日志文件夹中的文件数量。示例属性文件如下:1log4j.rootLogger=INFO,fileLogger2log4j.appender.fileLogger=org.apache.log4j.RollingFileAppender3log4j.appender.fileLogger.layout=org.apache.log4j.PatternLayout4log4j.

properties log4j log log4 java hadoop ambari

apache-spark - Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport() 是必要的吗？

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我对Hive的理解是它提供了一种使用SQL命令查询HDFS的方法。好的，但还有Spark。Spark拥有所有RDD类方法，这些方法完全有能力，但我更喜欢SQL。输入SparkSQL。所以现在我可以使用SparkSQL通过SQL查询我的数据库，为什么Hive会出现？文档说:enableHiveSupport():EnablesHivesupport,includingconnectivity

enableHiveSupport apache-spark section Hive class hadoop

hadoop - 德鲁伊中的精确不同计数

我已经将数据从Hive加载到Druid中，但我没有使用任何HLL列。当我在Druid中运行COUNT(DISTINCTmycol)查询时，我没有得到准确的计数。计数似乎很接近，但与我在Hive中的计数不匹配。为什么Druid不能给出准确的计数，即使我没有提到任何关于HLL的内容？或者，有没有办法在Druid中获得精确的不同计数？找到2014年关于同一问题的旧帖子https://groups.google.com/forum/#!topic/druid-development/AMSOVGx5PhQ，我不确定当前版本的Druid是否支持精确的不同计数。最佳答

德鲁德鲁伊 section druid hadoop

amazon-web-services - 在亚马逊。我将结果整理到主节点上，然后准备写入 S3，出现以下错误 :

在Hadoop中，我将结果整理到主节点上，然后准备写入S3，出现以下错误:18/08/1920:10:13WARNDataStreamer:ExceptionforBP-2033025931-192.168.3.27-1534682170082:blk_1073741835_1011java.io.EOFException:UnexpectedEOFwhiletryingtoreadresponsefromserveratorg.apache.hadoop.hdfs.protocolPB.PBHelperClient.vintPrefixed(PBHelperClient.java:4

amazon-web-services services section DatanodeInfoWithStorage DataStreamer hadoop amazon-s3 hdfs