草庐IT

spark-hive

全部标签

java - 当 string 在 HIVE 中隐式转换为 int 时会发生什么?

我在使用hive查询数据时遇到了如下这样的情况:选择'6455983054544699410'=6455983054544699395===>真所以我想知道在hive中将string隐式转换为int会发生什么?谢谢。 最佳答案 双方都在投加倍hive>select'6455983054544699410'=6455983054544699395;WARNING:Comparingabigintandastringmayresultinalossofprecision.OK_c0truehive>selectcast('6455983

sql - Hive 中是否有更简单的方法将不同的 JSON 键合并为一个?

我正在尝试使用Hive解析json字符串,我注意到某些值有两个不同的键,例如:get_json_object(json_string,'$.user_name')get_json_object(json_string,'$.User_Name')有没有办法检查一个或另一个键是否存在,然后将值插入到解析表中?我当前的脚本选择两者并插入到一个表中,然后另一个脚本检查其中一个键的值是否为空并执行casewhen语句。 最佳答案 selectcoalesce(get_json_object(json_string,'$.user_name'

hadoop - 如何在使用 SerDe 从 HIVE 中的列中删除引号时跳过表中的列

我面临与SERDE引用删除相关的问题。我有表格跟踪器。我必须从所有列中删除双引号,但必须跳过包含json(Product)的列。当我从CSV文件加载数据时,它还会从json数据中删除引号。CREATEEXTERNALTABLEIFNOTEXISTSTRACKER(SUBSCRIBERSTRING,SERIALSTRING,PRODUCTSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"=",","quoteChar"="\"","esca

xml - 如何在使用 spark 解析 xml 时将标题信息添加到行信息

我有一个像这样的xml结构1232314973233asd123book1124book2456book4789我知道我可以像这样解析books:valxml=sqlContext.read.format("com.databricks.spark.xml").option("rowTag","book").load("FILENAME")但我想在每一行中添加标题信息,如supplier。有没有一种方法可以将这个“headerinfo”添加到带有spark的所有行,而无需加载文件两次并将信息存储在全局变量/值中?提前致谢! 最佳答案

hadoop - Apache Spark - Python - 如何在 Pyspark 中使用范围函数

我有几行空格分隔的输入数据:NameCompanyStart_DateEnd_DateNareshHDFC2017-01-012017-03-31AnoopICICI2017-05-012017-07-30我需要输出为:NareshHDFC201701NareshHDFC201702NareshHDFC201703AnoopICICI201705AnoopICICI201706AnoopICICI201707我已经为这些数据制作了一个文本文件,并将其放在我的Hadoop集群上,我已经编写了代码,但在获取输出时遇到了一些问题。请帮忙。我不知道如何从条目中提取月份并将它们放入范围函数中,所

apache-spark - 使用 Spark 写入外部 Hadoop

我正在使用Java-Spark。我正在尝试写入外部HDFS目录,如下所示:df.write().mode(mode).save("hdfs://myservername:8020/user/path/to/hdfs");并得到一个异常(exception)hostdetails:localhostis:...destinationhostis:...如何从Spark写入“外部”hdfs目录而不写入本地Hadoop/HDFS?谢谢 最佳答案 检查HDFSNamenode主机名是否可以从Spark集群访问,您也可以使用ip地址。hdfs

hadoop - 外部表到 Hive 中的文件?

是否可以将LOCATION中的文件用于HIVE中的外部表?CREATEEXTERNALTABLEtable1(linestring)LOCATION'/hdp_in/fd/file.txt.gz';因为我得到一个错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:Gotexception:org.apache.hadoop.fs.FileAlreadyExistsExceptionParentpathisnotadirectory:/hd

hadoop - 如何处理 Hive 中的分隔符

当值中有\t且分隔符也是\t时,我们如何处理Hive中的数据。例如,假设有一列为Street,数据类型为String,值为XXX\tYYY,在创建表时我们使用了字段分隔符为\t。分隔符将如何工作?在这种情况下,值中的\t是否也会被分隔? 最佳答案 如果具有\t值的列被引号字符括起来,例如"您可以使用csv-serde来解析数据,如下所示:这是我加载的示例数据集:R1Col1R1Col2"R1Col3MoreData"R1Col4R2Col2R2Col2"R2Col3MoreData"R2Col4从hive控制台注册jarhive>a

hadoop - 使用默认 SerDE 加载 Hive 表数据

数据格式如下a,"b,c",d,ep,q,"e,r",ta,s,"t,g",t我想创建一个Hive表第1列、第2列、第3列、第4列a,b,c,d,ep,q,e,r,ta,s,t,g,t如上所见,如果数据是用双引号括起来的,那么在创建表数据时就不需要考虑中间的逗号了。如果我使用默认的SerDe,双引号将被忽略,b、c被视为两个单独的列。如果封装在双引号中,如何确保双引号忽略两个元素之间的逗号 最佳答案 如果可能且可行,我首先建议您探索输入数据是否可以通过使用除逗号以外的其他方式作为字段分隔符来清理输入数据。使用数据中可能自然出现的定界

Spark在Windows下的环境搭建及pyspark的使用

  一、JDK的安装    Spark是一个用于大数据处理的开源框架,它是用Scala编写的,而Scala是一种运行在Java虚拟机(JVM)上的编程语言,因此它依赖于Java的运行环境。所以首先需要安装JDK(JavaTMPlatformStandardEditionDevelopmentKit),并将环境变量配置好。可参考我的另一篇博客:http://t.csdnimg.cn/6Kj8w二、Spark的安装1.下载Spark        从Spark官网进行下载:ApacheSpark™-UnifiedEngineforlarge-scaledataanalytics,点击Downloa