草庐IT

nodejs-csv-write-stream

全部标签

csv - 使用 CSV Serde 和 Hive 创建表将所有字段类型转换为字符串

如果我创建一个表并指定一个CSVSerde,那么所有字段都将转换为字符串类型。hive>创建表foo(aint,bdouble,cstring)行格式serde'com.bizo.hive.serde.csv.CSVSerde'存储为文本文件;好的耗时:0.22秒配置单元>描述foo;好的来自反序列化器的字符串b来自反序列化器的字符串来自反序列化器的c字符串耗时:0.063秒,获取:3行Serde来自https://github.com/ogrodnek/csv-serde如果我从这个页面尝试serde'org.apache.hadoop.hive.serde2.OpenCSVSerd

scala - Spark : SAXParseException while writing to parquet on s3

我正在尝试读取一些json,推断模式,然后将其作为parquet再次写出到s3(s3a)。出于某种原因,在运行的写入部分进行了大约三分之一的过程中,spark总是出错并出现以下错误。我找不到任何明显的问题原因:它不是内存不足;没有长时间的GC暂停。各个执行者的日志中似乎没有任何其他错误消息。该脚本在我拥有的另一组数据上运行良好,它具有非常相似的结构,但小了几个数量级。我正在运行spark2.0.1-hadoop-2.7并使用FileOutputCommitter。算法版本似乎并不重要。编辑:对于格式错误的json或损坏的文件,这似乎不是问题。我已经解压缩并单独读取每个文件,没有错误。这

xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce

我正在使用HadoopMapReduce对维基百科数据转储(以bz2格式压缩)进行研究。由于这些转储太大(5T),我无法将xml数据解压缩到HDFS中,只能使用hadoop提供的StreamXmlRecordReader。Hadoop确实支持解压缩bz2文件,但它会任意拆分页面并将其发送给映射器。因为这是xml,所以我们需要拆分为标签。有没有办法把hadoop自带的bz2解压和streamxmlrecordreader一起使用? 最佳答案 维基媒体基金会刚刚为HadoopStreaming接口(interface)发布了一个Inpu

csv - Hadoop Pig - 删除 csv header

我的csv文件在第一行有标题。将它们加载到pig中会对任何后续函数(如SUM)造成困惑。从今天开始,我首先对加载的数据应用过滤器以删除包含标题的行:affaires=load'affaires.csv'usingPigStorage(',')as(NU_AFFA:chararray,date:chararray);affaires=filteraffairesbydatematches'../../..';我认为它作为一种方法有点愚蠢,我想知道是否有一种方法可以告诉pig不要加载csv的第一行,例如加载函数的“as_header”bool参数。我没有在文档上看到它。最佳做法是什么?你通

streaming - Hadoop 流作业失败 : Task process exit with nonzero status of 137

几天来我一直在努力解决这个问题,希望有人能提供一些见解。我用perl编写了一个流式映射缩减作业,很容易让一个或两个缩减任务花费极长的时间来执行。这是由于数据中的自然不对称性:一些reduce键有超过一百万行,而大多数只有几十行。我以前遇到过长任务的问题,我一直在递增计数器以确保mapreduce不会超时。但是现在他们失败了,并显示了一条我以前从未见过的错误消息:java.io.IOException:Taskprocessexitwithnonzerostatusof137.atorg.apache.hadoop.mapred.TaskRunner.run(TaskRunner.jav

hadoop - Map Reduce 输出到 CSV 还是我需要键值?

我的map函数产生一个键\t值值=列表(值1、值2、值3)然后我的reduce函数产生:Key\tCSV-Line例如2323232-2322fdsfs,sdfs,dfsfs,0,0,0,2,fsda,3,23,3,s,2323555-22222dfasd,sdfas,adfs,0,0,2,0,fasafa,2,23,s例。原始数据:232342|@3423@|34343|sfasdfasdF|433443|Sfasfdas|324343x1000无论如何,我想删除开头的key,这样我的客户就可以直接导入到mysql中。我有大约50个数据文件,我的问题是在它映射一次并且reducer启

csv - 如何将 sas7bdat 文件转换为 csv?

我想将.sas7bdat文件转换为.csv/txt格式,以便我可以将其上传到配置单元表中。我从外部服务器接收.sas7bdat文件,但我的机器上没有SAS。 最佳答案 使用R外部包之一读取文件,然后使用该工具转换为CSV。http://cran.r-project.org/doc/manuals/R-data.pdf第12页改用SAS7BDAT包。它似乎忽略了自定义格式,读取基础数据。在SAS中:procformat;valueagegrplow-12='PreTeen'13-15='Teen'16-high='Driver';ru

hadoop - 无法在从 HDFS 读取 CSV 的 HIVE 中创建表

通过从HDFS读取.csv文件在Hive中创建表时遇到问题。查询如下:CREATEEXTERNALTABLEtestmail(memberIdString,emailString,sentdateString,actiontypeString,actiondateString,campaignidString,campaignnameString)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','LOCATION'/user/hadoop/cloudera/ameeth/ca_email.csv';获取错误。元数据错误:MetaException(messa

hadoop - "HDFS lacks random read and write access"是什么意思?

任何文件系统都应该提供一个API来访问它的文件和目录等。那么,“HDFS缺乏随机读写访问”是什么意思?所以,我们应该使用HBase。 最佳答案 默认的HDFSblock大小为128MB。所以你不能在这里读一行,那里读一行。您总是读写128MB的block。当您要处理整个文件时,这很好。但这使得HDFS不适用于某些应用程序,例如您希望使用索引来查找小记录的地方。另一方面,HBase对此非常有用。如果你想读一条小记录,你只会读那条小记录。HBase使用HDFS作为其后备存储。那么它如何提供高效的基于记录的访问呢?HBase将表从HDFS

hadoop - 如何将用双引号括起来并用制表符分隔的 CSV 数据加载到 HIVE 表中?

我正在尝试从csv文件加载数据,其中的值用双引号'"'括起来,制表符分隔'\t'。但是当我尝试将其加载到配置单元时,它不会抛出任何错误并且数据加载时没有任何错误但我认为所有数据都被加载到单个列中并且大多数值显示为NULL。下面是我的建表语句。CREATETABLEexample(organizationSTRING,orderBIGINT,created_onTIMESTAMP,issue_dateTIMESTAMP,qtyINT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'ESCAPEDBY'"'STOREDASTEXTFILE;输入文件样本;-"