草庐IT

import_csv

全部标签

python - 使用 .csv 格式的 HDFS 文件创建 Pandas DataFrame

我正在尝试通过从hadoop集群获取.csv数据并将其放入PandasDataFrame来创建Spark工作流。我能够从HDFS中提取数据并将其放入RDD中,但无法将其处理到PandasDataframe中。以下是我的代码:importpandasaspdimportnumpyasnmA=sc.textFile("hdfs://localhost:9000/sales_ord_univ.csv")#thiscreatestheRDDB=pd.DataFrame(A)#thisgivesmethefollowingerror:pandas.core.common.PandasError:

java - ApacheSpark从http来源(例如csv等)读取数据帧

我很难从http源(例如csv,...)读取ApacheSparkDataFrame。HDFS和本地文件有效。通过使用以下命令启动spark-shell,还设法使AWSS3正常运行:spark-shell--packagesorg.apache.hadoop:hadoop-core:1.2.1然后像这样更新hadoopconf:valhadoopConf=sc.hadoopConfigurationhadoopConf.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem")hadoopConf.set("

scala - ClassNotFoundException : com. 数据 block .spark.csv.DefaultSource

我正在尝试使用sparkscala从Hive导出数据。但我收到以下错误。Causedby:java.lang.ClassNotFoundException:com.databricks.spark.csv.DefaultSource我的scala脚本如下所示。importorg.apache.spark.sql.hive.HiveContextvalsqlContext=newHiveContext(sc)valdf=sqlContext.sql("SELECT*FROMsparksdata")df.write.format("com.databricks.spark.csv").sa

mysql - 错误 : When running sqoop import command on master node

我已经配置了hadoop多节点集群。当我尝试在主节点中使用sqoop将表从mysql数据库导入到配置单元时,它抛出以下错误,sqoopimport--connectjdbc:mysql://master:3306/mysql--usernameroot--passwordadmin--tablepayment--hive-import----null-string'\\N'\--null-non-string'\\N'警告:/usr/lib/hcatalog不存在!HCatalog作业将失败。Pleaseset$HCAT_HOMEtotherootofyourHCataloginsta

csv - 配置单元:为逗号分隔文件创建表/数据类型语法

文本文件以逗号分隔。但是,其中一列ex:"Issue"的值为"Other(phone,healthclub,etc)"也包含逗号。问题“Issue”的数据类型应该是什么?以及我应该如何格式化表格(行格式分隔终止)以便正确说明列(问题)中的逗号我是这样设置的:createtableconsumercomplaints(ComplaintIDint,Productstring,Subproductstring,Issuestring,Subissuestring,Statestring,ZIPcodeint,Submittedviastring,Datereceivedstring,Dat

csv - 带水槽的 Unicode 字符

我正在尝试使用水槽将CSV文件放入HDFS,文件还包含一些unicode字符。文件在HDFS中后,我尝试查看内容,但无法正确查看记录。文件内容NameagesalmsgAbc211200Lukè éxample àppleXyz231400erstîgetûfmitgrôzer控制台输出我做了hdfsdfs-get/flume/events/csv/events.1234567下面是输出Name,age,sal,msgAbc,21,1200,Luk��xample��ppleXyz,23,1400,erst�get�fmitgr�zerflume支持Unicode字符吗?如果不是如何处

c# - 保持连接事件以从 .csv 文件读取批量数据

我有一个包含200万条记录的.csv文件,我的目标是将其写入hbase数据库。代码:try{using(FileStreamreader=File.OpenRead(@"C:\Data.csv"))using(TextFieldParserparser=newTextFieldParser(reader)){parser.TrimWhiteSpace=true;//ifyouwantparser.Delimiters=new[]{""};parser.HasFieldsEnclosedInQuotes=true;while(!parser.EndOfData){//Processthe

hadoop - 将 csv 数据插入复杂的配置单元表

Hive版本为0.13,Hive表说明如下:CREATETABLEtemp(customer_idint,sales_itemarray>,)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','COLLECTIONITEMSTERMINATEDBY'|';我的csv文件是:10,1|watch|300如何插入配置单元表...我试过了,输出如下:10[{"item_id":1,"item_name":null,"item_price":null}]不为item_name和item_price插入任何值。 最佳答案

java - 尼菲 :can't import getFileSystem in customProcessor?

我想使用getFileSytem()来提取任何比我们拥有的时间戳更新但我无法导入它的文件(我的意思是getFileSytem())我有这段代码:finalFileSystemhdfs=getFileSystem();finalbooleanrecursive=context.getProperty(RECURSE_SUBDIRS).asBoolean();finalSetstatuses;try{finalPathrootPath=newPath(directory);statuses=getStatuses(rootPath,recursive,hdfs,createPathFilt

java - 与 csv 文件相比,将 mysql 表转换为 spark 数据集非常慢

我在Amazons3中有一个大小为62mb(114000行)的csv文件。我正在将它转换为spark数据集,并从中获取前500行。代码如下;DataFrameReaderdf=newDataFrameReader(spark).format("csv").option("header",true);Datasetset=df.load("s3n://"+this.accessId.replace("\"","")+":"+this.accessToken.replace("\"","")+"@"+this.bucketName.replace("\"","")+"/"+this.fil