草庐IT

csv_stars

全部标签

如何读取CSV的特定列?

我对Python相对较新。我想使用列名作为我的搜索数据从CSV文件中读取特定列。有没有办法做到这一点?看答案importcsvimportsysprint"Whatcolumnareyousearchingfor?"userinput=sys.stdin.readline().rstrip();withopen("my.csv","rb")asf:reader=csv.reader(f)header=reader.next()try:pos=header.index(userinput)print"Valuesincolumn"+userinput+":"forrowinreader:prin

csv - 配置单元查询 - 失败的 SemanticException 无效路径

这是我的问题:我刚刚将最初的Azure订阅转换为现收现付订阅(最初是30天试用期),因为当我用完第一组免费积分时它被关闭了。现在一切都再次正常工作-我仍然有相同的旧资源组,我在其下建立了一个新集群。带有我的CSV数据的文件仍然存在于我上次创建的容器中(不是默认容器,而是之前建立的容器)。我唯一需要重新创建的是将数据加载到其中所需的Hive表。我也能再次建立那张table。但是,当我随后尝试运行Hive查询以实际将数据从CSV文件加载到Hive表时,如下所示...LOADDATAINPATH'/container1/HdiSamples/user/data-file.csv'OVERWR

csv - 将 csv 文件的全部内容加载到 Hive 表中的单个列中

在Hive相关问题上需要一些帮助。我正在尝试将整个csv文件加载到单列Hive表中。文件中的每个条目都应该是Hive表中的一行。我试图更改ROWFORMAT-特别是尝试更改为LINESTERMINATEDBY','而不是'\n'。但是,目前仅支持'\n'字符。目前这是一个JIRA问题(https://issues.apache.org/jira/browse/HIVE-11996)。我目前唯一的想法是通过linux命令用\n替换文件中的逗号,但是我想看看是否有人可以提出一些其他值得考虑的解决方案。提前致谢! 最佳答案 您可以在Hiv

csv - 将包含带引号的值的表导出到配置单元中的本地 csv

我正在尝试将表导出到配置单元中的本地csv文件。INSERTOVERWRITELOCALDIRECTORY'/home/sofia/temp.csv'ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'\\'LINESTERMINATEDBY'\n'select*frommytable;问题是一些值包含换行符“\n”,结果文件变得非常困惑。在Hive中导出时,是否有任何方法可以将值括在引号中,以便csv文件可以包含特殊字符(尤其是换行符)? 最佳答案 一种可能的解决方案是使用HiveCS

java - 使用 MapReduce 将 CSV 文件加载到 Hbase 表中

我需要将csv文件的数据加载到hbase表中。我有上述格式的csv文件Csv文件:读取Detachcard.csvyearclassdaysmm1964920.58.819641013.64.219641111.84.71964127.70.1196517.30.8196526.50.11965310.81.41965413.23.51965516.17.01965619.09.21965718.710.71965819.910.91965916.68.2在上面的文件中,顶部第一行是列限定符名称,从第二行开始是列限定符的值。现在我需要使用mapreducing程序将这些数据加载到hba

csv - 用直线引用 csv 输出

我正在尝试从直线获取带引号的csv输出。我的查询看起来像:beeline-u'jdbc:hive2://localhost:10000/'--outputformat=csv2-e'setsystem:disable.quoting.for.sv=false;选择1作为a,2作为b'我希望作为输出"a","b""1","2"但只获取未引用的版本。根据documentation:Thequotingcanbedisabledbysettingthedisable.quoting.for.svsystemvariabletotrue.我想我在这里做错了什么。如何将此变量设置为false?将

以奇怪的格式导出/复制到 HDFS 的 CSV 数据

我正在使用spark作业从声明区域读取csv文件数据,并使用以下代码行将该数据复制到HDFS中:valconf=newSparkConf().setAppName("WCRemoteReadHDFSWrite").set("spark.hadoop.validateOutputSpecs","true");valsc=newSparkContext(conf)valrdd=sc.textFile(source)rdd.saveAsTextFile(destination)csv文件包含以下格式的数据:CTId,C3UID,region,product,KeyWord1,10046341

csv - 在 Hadoop 中合并 CSV 文件

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭5年前。Improvethisquestion我是Hadoop框架的新手,如果有人能指导我完成这个过程,我将不胜感激。我正在尝试合并两个.csv文件。两个文件有相同的头,顺序相同,等等。问题是我不知道如何将这些文件合并为一个文件,然后清除空行和未使用的列。

database - 如何使用 shell 脚本将 HiveQL 查询的结果输出到 CSV?

我想运行多个Hive查询,最好是并行而不是顺序运行,并将每个查询的输出存储到一个csv文件中。例如,query1在csv1中输出,query2在csv2中输出,等等。我会在之后运行这些查询离开工作的目标是在下一个工作日对输出进行分析。我对使用bashshell脚本很感兴趣,因为这样我就可以设置一个cron任务以在一天中的特定时间运行它。我知道如何将HiveQL查询的结果存储在CSV文件中,一次一个查询。我用类似下面的东西来做到这一点:hive-e"SELECT*FROMdb.table;""|tr"\t"",">example.csv;上面的问题是我必须监视进程何时完成并手动启动下一个

python - 如何从 pyspark 数据帧更快地保存 csv 文件?

我目前在本地Windows10系统上使用pyspark。pyspark代码运行速度非常快,但需要花费大量时间将pyspark数据帧保存为csv格式。我正在将pyspark数据帧转换为pandas,然后将其保存到csv文件。我也尝试过使用write方法来保存csv文件。Full_data.toPandas().to_csv("Level1-{}HourlyAvgData.csv".format(yr),index=False)Full_data.repartition(1).write.format('com.databricks.spark.csv').option("header",