草庐IT

csv_data

全部标签

oracle - Sqoop导入作业报错org.kitesdk.data.ValidationException for Oracle

Oracle11g的Sqoop导入作业因错误而失败ERRORsqoop.Sqoop:GotexceptionrunningSqoop:org.kitesdk.data.ValidationException:Datasetname81fdfb8245ab4898a719d4dda39e23f9_C46010.HISTCONTACTisnotalphanumeric(plus'_')完整的命令如下:$sqoopjob--createingest_amsp_histcontact--import--connect"jdbc:oracle:thin:@:/"--username"c46010

hadoop - 无法将数据从 CSV 文件加载到 HIVE

我在将数据从CSV文件加载到配置单元外部表时得到“无”值。我的CSV文件结构是这样的:creation_month,accts_created7/1/2018,408476/1/2018,672165/1/2018,760094/1/2018,876113/1/2018,996872/1/2018,926311/1/2018,11195112/1/2017,107717'creation_month'和'accts_created'是我的列标题。createexternaltablemonthly_creation(creation_monthDATE,accts_createdINT

scala - 使用 Spark scala 中的列创建格式化 csv 文件

我有一个csv文件,如下所示它有6行,顶行作为标题,而标题读作“StudentsMarks”dataframe将它们视为一列,现在我想将两列与数据分开。“student”和“marks”用空格隔开。df.show()_______________##StudentMarks##---------------A10;20;10;20A20;20;30;10B10;10;10;10B20;20;20;10B30;30;30;20现在我想将这个csv表转换成两列,包含学生和分数,同时为每个学生加上加起来的分数,如下所示Student|MarksA|30;40;40;30B|60;60;60;

Hadoop - "Code moves near data for computation"

我只想澄清这句话“代码移动到数据附近进行计算”,这是否意味着开发人员编写的所有javaMR都部署到集群中的所有服务器?如果1为真,如果有人更改了MR程序,它如何分发到所有服务器?谢谢 最佳答案 Hadoop将MR作业的jar放入HDFS-它的分布式文件系统。需要它的任务跟踪器将从那里获取它。所以它分发到一些节点,然后由实际需要它们的节点按需加载。通常这需要意味着节点将要处理本地数据。Hadoop集群在作业方面是“无状态的”。每次工作都被视为新事物,并且不使用前一个工作的“副作用”。确实,当要在大型集群上处理少量文件(或准确地说是拆分

csv - 具有不同分隔符的 Hadoop/Pig CSVExcelStorage

将以下输入文件与PiggyBank的CSVExcelStorage一起使用效果很好:Col1,Col2,Col31,2,3"1","2","3"小pig脚本REGISTER/usr/lib/pig/piggybank.jar;DEFINECSVExcelStorageorg.apache.pig.piggybank.storage.CSVExcelStorage;a=LOAD'/path/to/file.csv'USINGCSVExcelStorage()b=FOREACHaGENERATE$1;DUMPb按预期工作并返回(Col2)(2)(2)用分号作为分隔符做同样的事情是行不通的:

hadoop - 问题 : Scala code in Spark shell to retrieve data from Hbase

我们正在尝试在Sparkshell中执行一个简单的Scala代码以从Hbase检索数据。Hadoop环境启用了Kerberos,我们已确保执行kinit。调用SparkShell的步骤:MASTER=yarn-clientDRIVER_CLASSPATH="/opt/cloudera/parcels/CDH/lib/hbase/lib/*"DRIVER_LIBRARY_PATH="/opt/cloudera/parcels/CDH/lib/hadoop/lib/native"spark-shell--driver-class-path"$DRIVER_CLASSPATH"--drive

csv - 将 .tar.gz 文件中的大型 .csv 文件加载到 Hive 表中

我有一个很大的.csv文件存储在.tar.gz文件中,我想将其内容放入Hive表中。不幸的是,没有足够的磁盘空间让我解压.csv文件。我尝试了以下方法(以及以下方法的变体):SetHive.exec.compress.output=true;Setio.seqfile.compression.type=block;DROPTABLEIFEXISTSdb.test;CREATETABLEdb.test(var1STRING,...varnSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','FIELDSTERMINATEDBY'\n';createt

java - 从 Windows 机器加载 Hive 表(Load data local inpath)

我正在尝试使用来自Windows的文件加载Hive表。但是我收到以下错误:java.sql.SQLException:Errorwhilecompilingstatement:FAILED:IllegalArgumentExceptionjava.net.URISyntaxException:Expectedscheme-specificpartatindex2:C:我正在使用TalendETL工具来处理文件。下面是Talend生成的代码:Stringpath_tHiveLoad_1="file:///C:/employee.txt";Stringtablename_tHiveLoad

只有办公室不支持自定义定界符进口CSV

最近,我仅使用OfficeDesktopEdition导入CSV,但它不允许自定义定界符,例如|。请支持此功能。看答案OnlyOfficeDocumentsErver支持4.4版的自定义定系数。仅在Thome的支持下,OnlyOfficeDesktipeditor将被释放。

javascript - 如何将带有tinestamp等的CSV文件输入到mahout中实现相似度等功能?

目前,我正在尝试输入我的数据以尝试机器学习目的,数据如下三列(第一列是时间,第二列是代码,第三列是数字):2016-06-0500:00:00fd04:bd3:80e8:2:215:8d00:35:ca4b02016-06-0500:00:00fd04:bd3:80e8:2:215:8d00:35:f2be0.125492016-06-0500:00:00fd04:bd3:80e8:2:215:8d00:35:c8a10.140912016-06-0500:00:01fd04:bd3:80e8:2:215:8d00:35:ca4b02016-06-0500:00:01fd04:bd3: