HIVE_草庐IT

java - 从mapreduce解析并写入日志数据到hive

我编写了一个小型hadoop映射程序来从其他应用程序生成的日志文件中解析(正则表达式)信息。我找到了这篇文章http://www.nearinfinity.com//blogs/stephen_mouring_jr/2013/01/04/writing-hive-tables-from-mapreduce.html本文讲解如何解析写入hive表这是我的代码importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;imp

json - 在嵌套的 JSON 上创建 Hive 表

我正在尝试根据我在hadoop中的一些JSON数据在配置单元中创建一个表。困难的部分是我有一个嵌套的JSON，其中数据没有在键:值对中明确定义:{"trafficSource":{"source":"(direct)","medium":"(none)"},"device":{"browser":"(notset)","browserVersion":"(notset)","operatingSystem":"(notset)","operatingSystemVersion":"(notset)","isMobile":false,"flashVersion":"(notset)",

json 34 section hadoop hive

sql - 当前日期缺失时的 30 天滚动/移动总和

我有一个表(view_of_referred_events)，它存储给定页面的访问者数量。datecountry_idreferralproduct_idvisitors2016-04-01216pl11375912016-04-03216pl11375912016-04-06216pl113759132016-04-07216pl11375910我想计算该产品的30天滚动/移动总和，即使是那些缺失的日子。所以最终结果应该是这样的:datecountry_idreferralproduct_idcumulative_visitors2016-04-01216pl11375912016-

失时 sql code country_id product_id hadoop hive window-functions impala

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版，我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时，它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d

yarn-cluster cluster java apache org hadoop apache-spark hive hadoop-yarn hortonworks-data-platform

hadoop - Log4j 不写入 HDFS/Log4j.properties

基于以下配置，我希望我的log4j应该写入HDFS文件夹(/myfolder/mysubfolder)。但它甚至没有创建具有给定名称hadoop9.log的文件。我尝试在hdfs上手动创建hadoop9.log。还是不行。我是否遗漏了log4j.properties中的任何内容？#Definesomedefaultvaluesthatcanbeoverriddenbysystempropertieshadoop.root.logger=INFO,console,RFA,DRFAhadoop.log.dir=/myfolder/mysubfolderhadoop.log.file=had

Log4j Log4 log hadoop mapreduce hive hdfs

hadoop - Hive 不在 HDFS 中存储仓库

我已经在我的本地系统上下载了hive安装并将hive-site.xml复制到Sparkconf目录中。我尝试使用sparkshell在Hive上下文中创建一个托管表。我在hive-site.xml中放置了以下属性(存在于spark的conf目录中):hive.metastore.warehouse.dir/user/hive/warehouse此外，我已将HADOOP_HOME放入spark-env.sh中:exportHADOOP_CONF_DIR=/opt/hadoop/conf根据Hive文档，Hive仓库应该存储在HDFS中，但仓库存储在本地驱动器(/user/hive/war

hadoop Hive section code warehouse hdfs

hadoop - Apache Phoenix 非法数据。预期长度至少为 4 个字节，但有 2 个

我有一个像下面这样创建的Phoenix表Phoenix顶部的Hive外部表如下所示createExternaltableTABLE_NAME(rowKeySTRING,unique_idstring,USERNAMEstring,DAYstring,MONTHstring,YEARstring,APPIDINT)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"="details:unique_id,details:USERNAME,d

Phoenix hadoop SqlLine section hive apache-phoenix

hadoop - 从 SQL Server 导入，数据类型未正确转换

从SQLServer导入，数据类型转换不正确堆栈:使用Ambari2.1安装HDP-2.3.2.0-2950目标:以Avro格式将表从SQLServer导入到HDFS创建包含所有数据的外部HiveAvro(SerDe)表创建外部HiveORC表并插入ORCselect*fromAvro表删除Avro表并在ORC表上执行测试其中一张表:ECU_DTC_IDintDTC_CDEnchar(20)ECU_NAMEnvarchar(15)ECU_FAMILY_NAMEnvarchar(15)DTC_DESCnvarchar(MAX)INSERTED_BYnvarchar(64)INSERTIO

hadoop Server ClassWriter Overriding 34 hive sqoop avro

hadoop - 如何在 spark sql 的配置单元上下文对象中查找登录/连接/当前用户？

如何在sparksql的配置单元上下文对象中找到登录/连接/当前用户？可以使用任何sql查询或Unix命令。?我试过了!我是谁;hive命令提示符中的命令。是不是最优解我需要在sql查询中获取登录的用户，并想使用sparksql将其插入到表中最佳答案在PySpark中，使用这个sqlContext._sc.sparkUser()或sqlContext.sql('selectcurrent_user()').show() 关于hadoop-如何在sparksql的配置单元上下文对象中查

配置单下文 blockquote section hadoop apache-spark hive apache-spark-sql spark-dataframe

hadoop - 插入覆盖目录的 Hive Case 语句

当尝试使用以下逻辑运行HQL脚本时，我收到错误:ParseExceptionline4:0cannotrecognizeinputnear'CASE''WHEN''mytable'inserdepropertiesspecification脚本逻辑INSERTOVERWRITEDIRECTORY'/example/path'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','CASEWHEN${hiveconf:tbl_name}='mytable'THENSELECT*FROM${hiveconf:tbl_name}LEFTOUTERJOIN...;WHEN

hadoop Hive tbl_name 39 hiveconf parameters case hiveql