草庐IT

import_csv

全部标签

csv - 如何将具有不同分隔符的 CSV 加载到单个 Hadoop 表

我想用多个CSV文件填充一个Hive表。问题是并非所有文件都具有相同的分隔符。在创建表格时,我只能指定一个分隔符,例如~createtablestatus(typestring,...)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'withserdeproperties("separatorChar"="~")STOREDASTEXTFILEHive是否有允许多个CSV分隔符的内置功能?我知道这些文件可以在加载之前由Hadoop作业标准化或基于https://stackoverflow.com/a/26356592/

csv - 指向带有嵌入双引号的 CSV 文件的 Hive 外部表

我正在尝试创建一个指向CSV文件的外部Hive表。我的CSV文件有一个列(col2),可以将双引号和逗号作为列值的一部分。每列数据:Col1:150Col2:BATWING,ABC"D"TESTDATACol3:300CSV中的行:150,"BATWING,ABC""D""TESTDATA",300创建表DDL:CREATEEXTERNALTABLEtest(col1INT,col2STRING,col3INT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'"'LOCATION's3://test-folder/test-file.c

java - 在 Java 的 Spark Dataframe 中将 CSV 值转换为 Vector

我有一个包含两列的CSV文件id,featuresid列是一个字符串,features列是以逗号分隔的机器学习算法的特征值列表,即。“[1,4,5]”我基本上只需要在值上调用Vectors.parse()来获取vector,但我不想先转换为RDD。我想将其放入SparkDataframe,其中features列是org.apache.spark.mllib.linalg.Vector我正在使用databrickscsvapi将其读入数据框,并尝试将特征列转换为vector。有人知道如何在Java中执行此操作吗? 最佳答案 我找到了一

csv - 使用 Pig 加载文件的子集

我正在玩hortonworks沙盒来学习hadoop等我正在尝试在单机“集群”上加载文件:A=LOAD'googlebooks-eng-all-3gram-20090715-0.csv'usingPigStorage('\t')AS(ngram:chararray,year:int,count1:int,count2:int,count3:int);B=LIMITA10;DumpB;不幸的是,该文件对于我的VM上的ram来说有点太大了..我想知道是否可以LOAD.csv文件的子集?这样的事情可能吗:LOAD'googlebooks-eng-all-3gram-20090715-0.cs

解决pycharm控制台ImportError: DLL load failed while importing _ssl: 找不到指定的模块。

目录可能情况-首先一定要确定自己的问题原因:情况介绍(瞄一眼即可,看看是否与我情况相似)解决方案:可能情况-首先一定要确定自己的问题原因:配置环境变量的问题,见这篇文章;和我一样,下面介绍;其他情况我还没有遇到过,欢迎大家分享。情况介绍(瞄一眼即可,看看是否与我情况相似)首先介绍一下自己的情况:重新安装了pycharm,在正常环境(即:选择先前配置的解释器,我用的是anacodna3如下图)中控制台是可以使用的。如果在正常环境中控制台无法使用,那大概率是配置环境变量的问题。(转可能情况1,无需继续往后阅读)新建了一个项目,选择的环境为虚拟环境,继承了PyTorch环境里的包,如下:问题描述:在

bash - 清理 csv 的 Sed 命令不起作用

我有一个CSV文件,我想:Replaceall&instanceswith&Removethefirst(header)lineChangeallsemicolonsto$$$Changeall"$$$"instancesinto";"Removeall"characters执行此操作的sed命令如下所示:sed's/\&/\&/g'BX-Book-Ratings:|sed-e'1d'|sed's/;/$$$/g'|sed's/"$$$"/";"/g'|sed's/"//g'>corrected_rating但是当我把它放在ClouderaVM的终端时它不起作用....

java - import org.apache.hadoop 无法解析

我已经看到这个问题,但似乎没有任何修复对我有用。或者更有可能是我做错了,因为我对此很陌生。(在eclipse中工作)我收到以下行的错误Theimportorg.apache.hadoopcannotberesolved:importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.filecache.DistributedCache;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoo

csv - 使用 pig 过滤 CSV 列

嗨,stackoverflow社区;我是pig的新手,我有一个CSV文件,其中包含5列标题,如下所示:专栏1|专栏2|专栏3|专栏4|column5测试1012|测试2045|测试3250|测试4865|test5110测试1245|测试2047|测试3456|测试4234|测试5221…………我只想对第1、3和4列进行排序,但我不知道如何按列标题进行过滤。如果您能指出可以完成我想做的事情的正确功能,那就太好了。谢谢! 最佳答案 假设您像下面这样加载它(假设它使用逗号作为分隔符),那么您可以只使用ORDERBY功能。myInput=

regex - 在 Hive 表中以 CSV 格式加载数据

我正在尝试将以下数据存储在csv文件中到Hive表中,但未能成功Ann,78%,7,Beth,81%,5,Cathy,83%,2,数据存在于CSV文件中。我使用以下定义在Hive中创建了表:Hive>CREATETABLEtest1(NameString,PercString,RankString)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'WITHSERDEPROPERTIES("input.regex"="^(\w+)\,(\w+)\%\,(\w+)$","output.format.string"

csv - Pig CSVExcelStorage 双引号逗号

我正在将csv格式的文件(字段以逗号分隔并用双引号引起来)接收到HDFS中,并开发了一个pig脚本,该脚本在我使用HQL脚本将数据插入Hive之前删除了标题行并去掉了双引号。这个过程一直运行良好;但是,今天我发现其中一个表存在数据问题。该表的文件特别有一个字符串字段,可以在双引号内包含多个逗号。这会导致某些记录的数据被错误地加载到Hive中的错误列中。我无法更改源文件的格式。目前我正在使用PiggyBankCSVExcelStorage来处理csv格式,如下所示。可以修改它以产生正确的结果吗?我还有哪些其他选择?我注意到现在还有一个CSVLoader,但还没有找到任何示例来说明如何使用