草庐IT

csv_line

全部标签

r - 使用sparkR从hdfs导入rstudio中的csv文件

我在HadoopHDFS上存储了.csv文件,hadoopdfs-ls/afsDEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.17/01/1215:15:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableFound1item-rw-r--r--2hdusersupergroup

scala - 使用hadoop parquet处理大数据到CSV输出

我有3个数据集,我想加入并分组它们以获得包含聚合数据的CSV。数据作为parquet文件存储在Hadoop中,我使用Zeppelin运行ApacheSpark+Scala进行数据处理。我的数据集如下所示:user_actions.show(10)user_clicks.show(10)user_options.show(10)+--------------------+--------------------+|id|keyword|+--------------------+--------------------+|00000000000000000001|aaaa1||00000

r - 在sparklyr中使用spark_read_csv报错 "Invalid method csv for object"

我正在尝试从hdfs读取R中的数据。在使用sparklyr时,我遇到的一件事是破译错误消息……因为我不是Java程序员。考虑这个例子:在R中执行此操作创建鲍鱼数据框-鲍鱼是用于机器学习示例的数据集loadpivotalRpackage#containsabalonedataandcreatedataframeif(!require(PivotalR)){install.packages(PivotalR)}data(abalone)#sampleofdatahead(abalone)#exportdatatoaCSVfileif(!require(readr)){install.pac

csv - 如何将具有不同分隔符的 CSV 加载到单个 Hadoop 表

我想用多个CSV文件填充一个Hive表。问题是并非所有文件都具有相同的分隔符。在创建表格时,我只能指定一个分隔符,例如~createtablestatus(typestring,...)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'withserdeproperties("separatorChar"="~")STOREDASTEXTFILEHive是否有允许多个CSV分隔符的内置功能?我知道这些文件可以在加载之前由Hadoop作业标准化或基于https://stackoverflow.com/a/26356592/

csv - 指向带有嵌入双引号的 CSV 文件的 Hive 外部表

我正在尝试创建一个指向CSV文件的外部Hive表。我的CSV文件有一个列(col2),可以将双引号和逗号作为列值的一部分。每列数据:Col1:150Col2:BATWING,ABC"D"TESTDATACol3:300CSV中的行:150,"BATWING,ABC""D""TESTDATA",300创建表DDL:CREATEEXTERNALTABLEtest(col1INT,col2STRING,col3INT)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','ESCAPEDBY'"'LOCATION's3://test-folder/test-file.c

java - 在 Java 的 Spark Dataframe 中将 CSV 值转换为 Vector

我有一个包含两列的CSV文件id,featuresid列是一个字符串,features列是以逗号分隔的机器学习算法的特征值列表,即。“[1,4,5]”我基本上只需要在值上调用Vectors.parse()来获取vector,但我不想先转换为RDD。我想将其放入SparkDataframe,其中features列是org.apache.spark.mllib.linalg.Vector我正在使用databrickscsvapi将其读入数据框,并尝试将特征列转换为vector。有人知道如何在Java中执行此操作吗? 最佳答案 我找到了一

hadoop - 配置单元错误 : compiling statement: FAILED: ParseException line 15:0 missing EOF at 'collection' near ''\n''

我是hive的新手,我正在创建一个具有以下属性的表,CREATEEXTERNALTABLEEXTTBL_Transactions(TRANSACTION_IDvarchar(70)COMMENT'UniqueID,`PrimaryKey',DEFINITION_IDvarchar(70)COMMENT'Definition,NullAllowed',USER_IDvarchar(70)COMMENT'Contactid,ForeignKey',PURCHASE_DATETIMETimestampCOMMENT'Saveddattime,NullAllowed',PURCHASE_AMO

csv - 使用 Pig 加载文件的子集

我正在玩hortonworks沙盒来学习hadoop等我正在尝试在单机“集群”上加载文件:A=LOAD'googlebooks-eng-all-3gram-20090715-0.csv'usingPigStorage('\t')AS(ngram:chararray,year:int,count1:int,count2:int,count3:int);B=LIMITA10;DumpB;不幸的是,该文件对于我的VM上的ram来说有点太大了..我想知道是否可以LOAD.csv文件的子集?这样的事情可能吗:LOAD'googlebooks-eng-all-3gram-20090715-0.cs

command-line - Pig 安装后 Cmd 找不到 Hadoop

安装pig后,我不能再从命令行调用hadoop了。例如:C:\Users\Andrew\Documents\Hadoop\Karung>hadoopversion'hadoop'isnotrecognizedasaninternalorexternalcommand,operableprogramorbatchfile.下面是我的路径:c:\ProgramFiles(x86)\Intel\iCLSClient\;c:\ProgramFiles\Intel\iCLSClient\;%SystemRoot%\system32;%SystemRoot%;%SystemRoot%\System

hadoop - 亚马逊弹性 map 减少 : Command Line Tools installation Issue?

我是Amazon网络服务的新手,我正在尝试使用命令行界面工具在Amazonelasticmapreduce作业上运行作业流。我遵循了这个developerguide的亚马逊开发者指南中的步骤来自aws。但我还不清楚。如果我执行命令来列出作业流程。显示以下错误。:~/Applications/elastic-mapreduce-ruby$elastic-mapreduce--listError:Requesthasexpired.Timestampdate:2013-07-09T01:13:42-07:00在此先感谢,任何人都可以告诉我为什么我在列出工作流程时遇到上述错误。