草庐IT

csv-serde

全部标签

json - Hive:json SerDe 文件在外部表中返回 "NULL"

我在亚马逊上有一个DynamoDB,其中包含一堆带有相关数据(用户、位置等)的推文。我通过管道导出了它并得到了一个json文件。将其导出为csv不是一个好主意,因为许多推文在文本字段中包含逗号。作为Hive的新手,我至少知道要加载json文件,我需要某种SerDe。这就是我创建表格的方式:createexternaltabletablename(idstring,created_atstring,followers_countstring,geostring,locationstring,polaritystring,screen_namestring,sentimentstring,

hadoop - 如何在使用 SerDe 从 HIVE 中的列中删除引号时跳过表中的列

我面临与SERDE引用删除相关的问题。我有表格跟踪器。我必须从所有列中删除双引号,但必须跳过包含json(Product)的列。当我从CSV文件加载数据时,它还会从json数据中删除引号。CREATEEXTERNALTABLEIFNOTEXISTSTRACKER(SUBSCRIBERSTRING,SERIALSTRING,PRODUCTSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES("separatorChar"=",","quoteChar"="\"","esca

hadoop - 使用默认 SerDE 加载 Hive 表数据

数据格式如下a,"b,c",d,ep,q,"e,r",ta,s,"t,g",t我想创建一个Hive表第1列、第2列、第3列、第4列a,b,c,d,ep,q,e,r,ta,s,t,g,t如上所见,如果数据是用双引号括起来的,那么在创建表数据时就不需要考虑中间的逗号了。如果我使用默认的SerDe,双引号将被忽略,b、c被视为两个单独的列。如果封装在双引号中,如何确保双引号忽略两个元素之间的逗号 最佳答案 如果可能且可行,我首先建议您探索输入数据是否可以通过使用除逗号以外的其他方式作为字段分隔符来清理输入数据。使用数据中可能自然出现的定界

scala - ClassNotFoundException : com. 数据 block .spark.csv.DefaultSource

我正在尝试使用sparkscala从Hive导出数据。但我收到以下错误。Causedby:java.lang.ClassNotFoundException:com.databricks.spark.csv.DefaultSource我的scala脚本如下所示。importorg.apache.spark.sql.hive.HiveContextvalsqlContext=newHiveContext(sc)valdf=sqlContext.sql("SELECT*FROMsparksdata")df.write.format("com.databricks.spark.csv").sa

encryption - Hadoop GPG SerDe

我目前正在做一个需要数据加密的Hadoop项目(因为数据会存储在S3中)。虽然我主要希望通过Hive访问数据,但能够通过Pig和任何其他MapReduce方法访问它会很好。我知道Hadoop内置了对gzip、snappy等压缩编解码器的支持...是否也支持加密编解码器(特别是GPG)?有没有人写过公开可用的GPGSerDe(或类似的东西)? 最佳答案 最后我才知道Hadoop没有对加密的任何内部支持。似乎您可以使用GPG代码重载CompressionCodec,alahttp://www.mail-archive.com/commo

csv - 配置单元:为逗号分隔文件创建表/数据类型语法

文本文件以逗号分隔。但是,其中一列ex:"Issue"的值为"Other(phone,healthclub,etc)"也包含逗号。问题“Issue”的数据类型应该是什么?以及我应该如何格式化表格(行格式分隔终止)以便正确说明列(问题)中的逗号我是这样设置的:createtableconsumercomplaints(ComplaintIDint,Productstring,Subproductstring,Issuestring,Subissuestring,Statestring,ZIPcodeint,Submittedviastring,Datereceivedstring,Dat

java - 如何在配置单元中使用 serde 上传 twitter json 数据?

我正在使用Twitter数据加载到配置单元中并对其进行一些查询:我的高音扬声器数据(原始)是:(仅限一种格式)-{"created_at":"TueApr2823:28:15+00002015","id":593195048306610176,"id_str":"593195048306610176","text":"ApplewatchnowhasTinderintegration,nowyoucanswipeonthego.Thisisrevolutionary.","source":"\u003cahref=\"http:\/\/twitter.com\/download\/ip

csv - 带水槽的 Unicode 字符

我正在尝试使用水槽将CSV文件放入HDFS,文件还包含一些unicode字符。文件在HDFS中后,我尝试查看内容,但无法正确查看记录。文件内容NameagesalmsgAbc211200Lukè éxample àppleXyz231400erstîgetûfmitgrôzer控制台输出我做了hdfsdfs-get/flume/events/csv/events.1234567下面是输出Name,age,sal,msgAbc,21,1200,Luk��xample��ppleXyz,23,1400,erst�get�fmitgr�zerflume支持Unicode字符吗?如果不是如何处

c# - 保持连接事件以从 .csv 文件读取批量数据

我有一个包含200万条记录的.csv文件,我的目标是将其写入hbase数据库。代码:try{using(FileStreamreader=File.OpenRead(@"C:\Data.csv"))using(TextFieldParserparser=newTextFieldParser(reader)){parser.TrimWhiteSpace=true;//ifyouwantparser.Delimiters=new[]{""};parser.HasFieldsEnclosedInQuotes=true;while(!parser.EndOfData){//Processthe

hadoop - 将 csv 数据插入复杂的配置单元表

Hive版本为0.13,Hive表说明如下:CREATETABLEtemp(customer_idint,sales_itemarray>,)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','COLLECTIONITEMSTERMINATEDBY'|';我的csv文件是:10,1|watch|300如何插入配置单元表...我试过了,输出如下:10[{"item_id":1,"item_name":null,"item_price":null}]不为item_name和item_price插入任何值。 最佳答案