草庐IT

csv_reader

全部标签

csv - 将 .tar.gz 文件中的大型 .csv 文件加载到 Hive 表中

我有一个很大的.csv文件存储在.tar.gz文件中,我想将其内容放入Hive表中。不幸的是,没有足够的磁盘空间让我解压.csv文件。我尝试了以下方法(以及以下方法的变体):SetHive.exec.compress.output=true;Setio.seqfile.compression.type=block;DROPTABLEIFEXISTSdb.test;CREATETABLEdb.test(var1STRING,...varnSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','FIELDSTERMINATEDBY'\n';createt

只有办公室不支持自定义定界符进口CSV

最近,我仅使用OfficeDesktopEdition导入CSV,但它不允许自定义定界符,例如|。请支持此功能。看答案OnlyOfficeDocumentsErver支持4.4版的自定义定系数。仅在Thome的支持下,OnlyOfficeDesktipeditor将被释放。

javascript - 如何将带有tinestamp等的CSV文件输入到mahout中实现相似度等功能?

目前,我正在尝试输入我的数据以尝试机器学习目的,数据如下三列(第一列是时间,第二列是代码,第三列是数字):2016-06-0500:00:00fd04:bd3:80e8:2:215:8d00:35:ca4b02016-06-0500:00:00fd04:bd3:80e8:2:215:8d00:35:f2be0.125492016-06-0500:00:00fd04:bd3:80e8:2:215:8d00:35:c8a10.140912016-06-0500:00:01fd04:bd3:80e8:2:215:8d00:35:ca4b02016-06-0500:00:01fd04:bd3:

如何读取CSV的特定列?

我对Python相对较新。我想使用列名作为我的搜索数据从CSV文件中读取特定列。有没有办法做到这一点?看答案importcsvimportsysprint"Whatcolumnareyousearchingfor?"userinput=sys.stdin.readline().rstrip();withopen("my.csv","rb")asf:reader=csv.reader(f)header=reader.next()try:pos=header.index(userinput)print"Valuesincolumn"+userinput+":"forrowinreader:prin

java - Hadoop 中的默认 Record Reader,全局或本地字节偏移量

我们知道Hadoop中的映射器(以及缩减器)只能处理键值对作为输入和输出。RecordReader是将原始输入从文件转换为键值对的东西。您可以编写自己的“RecordReader”。Hadoop提供的默认RecordReader称为TextInputFormat,它读取文本文件的行。它为拆分的每条记录发出的键是读取的行的字节偏移量(作为LongWritable),值是行的内容直到终止\n字符(作为文本对象)。我们还知道每个输入文件拆分的映射器由平台实例化。假设有一个巨大的文件F存储在HDFS上,它的拆分存储在几个不同的节点上;文件F是行分隔的,并且正在由一些使用默认RecordRead

csv - 配置单元查询 - 失败的 SemanticException 无效路径

这是我的问题:我刚刚将最初的Azure订阅转换为现收现付订阅(最初是30天试用期),因为当我用完第一组免费积分时它被关闭了。现在一切都再次正常工作-我仍然有相同的旧资源组,我在其下建立了一个新集群。带有我的CSV数据的文件仍然存在于我上次创建的容器中(不是默认容器,而是之前建立的容器)。我唯一需要重新创建的是将数据加载到其中所需的Hive表。我也能再次建立那张table。但是,当我随后尝试运行Hive查询以实际将数据从CSV文件加载到Hive表时,如下所示...LOADDATAINPATH'/container1/HdiSamples/user/data-file.csv'OVERWR

csv - 将 csv 文件的全部内容加载到 Hive 表中的单个列中

在Hive相关问题上需要一些帮助。我正在尝试将整个csv文件加载到单列Hive表中。文件中的每个条目都应该是Hive表中的一行。我试图更改ROWFORMAT-特别是尝试更改为LINESTERMINATEDBY','而不是'\n'。但是,目前仅支持'\n'字符。目前这是一个JIRA问题(https://issues.apache.org/jira/browse/HIVE-11996)。我目前唯一的想法是通过linux命令用\n替换文件中的逗号,但是我想看看是否有人可以提出一些其他值得考虑的解决方案。提前致谢! 最佳答案 您可以在Hiv

csv - 将包含带引号的值的表导出到配置单元中的本地 csv

我正在尝试将表导出到配置单元中的本地csv文件。INSERTOVERWRITELOCALDIRECTORY'/home/sofia/temp.csv'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'\\'LINESTERMINATEDBY'\n'select*frommytable;问题是一些值包含换行符“\n”,结果文件变得非常困惑。在Hive中导出时,是否有任何方法可以将值括在引号中,以便csv文件可以包含特殊字符(尤其是换行符)? 最佳答案 一种可能的解决方案是使用HiveCS

java - 使用 MapReduce 将 CSV 文件加载到 Hbase 表中

我需要将csv文件的数据加载到hbase表中。我有上述格式的csv文件Csv文件:读取Detachcard.csvyearclassdaysmm1964920.58.819641013.64.219641111.84.71964127.70.1196517.30.8196526.50.11965310.81.41965413.23.51965516.17.01965619.09.21965718.710.71965819.910.91965916.68.2在上面的文件中,顶部第一行是列限定符名称,从第二行开始是列限定符的值。现在我需要使用mapreducing程序将这些数据加载到hba

csv - 用直线引用 csv 输出

我正在尝试从直线获取带引号的csv输出。我的查询看起来像:beeline-u'jdbc:hive2://localhost:10000/'--outputformat=csv2-e'setsystem:disable.quoting.for.sv=false;选择1作为a,2作为b'我希望作为输出"a","b""1","2"但只获取未引用的版本。根据documentation:Thequotingcanbedisabledbysettingthedisable.quoting.for.svsystemvariabletotrue.我想我在这里做错了什么。如何将此变量设置为false?将