草庐IT

csv_table

全部标签

json - 在为下游应用程序写入HDFS时,JSON与CSV文件格式的Mertis

我们正在提取源数据(xls)并将其注入hdfs。是否最好以csv或json格式编写这些文件,我们正在考虑选择其中一个,但在调用之前,我们想知道使用其中一个文件的优点和缺点是什么。我们试图找出的因素有:性能(数据量为2-5GB)加载与读取数据从这些文件中提取元数据(结构)信息是多么容易。注入的数据将被同时支持json和csv的其他应用程序使用。 最佳答案 阅读本文,它将解决您的问题:https://community.hitachivantara.com/community/products-and-solutions/pentaho

r - 使用sparkR从hdfs导入rstudio中的csv文件

我在HadoopHDFS上存储了.csv文件,hadoopdfs-ls/afsDEPRECATED:Useofthisscripttoexecutehdfscommandisdeprecated.Insteadusethehdfscommandforit.17/01/1215:15:49WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableFound1item-rw-r--r--2hdusersupergroup

hadoop - 用户 ALTER TABLE ... CONCATENATE 与 Hive 中的部分匹配分区

我想在Hive中使用ALTERTABLE...CONCATENATE功能,但似乎我必须提供准确的分区名称。例如,我有一个包含两个分区列、日期和组的表。我希望能够做这样的事情:altertablemytablepartition(insert_date='2017-04-11',group='%')CONCATENATE;但是我找不到这样做的方法。 最佳答案 Concatenate不支持这个。 关于hadoop-用户ALTERTABLE...CONCATENATE与Hive中的部分匹配分区

sql - 如何在 Hive 中删除 External_Table 以及元数据和数据

我的数据库中有很多表,其中一些是External_Tables,每次我删除External_Table时,我需要找到External_Table的位置,我需要-rm-r数据。所以,有没有hive中的任何方式,同时删除包含元数据和数据的External_Table,如果我们删除managed_table,数据和元数据都将被删除。 最佳答案 在删除之前将外部表转换为托管表altertablemytablesettblproperties('EXTERNAL'='FALSE'); 关于sql-

scala - 使用hadoop parquet处理大数据到CSV输出

我有3个数据集,我想加入并分组它们以获得包含聚合数据的CSV。数据作为parquet文件存储在Hadoop中,我使用Zeppelin运行ApacheSpark+Scala进行数据处理。我的数据集如下所示:user_actions.show(10)user_clicks.show(10)user_options.show(10)+--------------------+--------------------+|id|keyword|+--------------------+--------------------+|00000000000000000001|aaaa1||00000

mysql - 使用 --create-hive-table 直接在 hive 中导入 mysql 表(sqoop)

我正在为HDPCD考试进行self培训,因此我正在测试使用MySQL到Hive的所有可能的导入和导出。在这个例子中,我想从MySQL导入一个表,并使用参数--create-hive-table在hive中从头开始创建同一个表。尽管在[documentation][1]中包含它,但我找到了一个正确的示例来执行此操作。我已经试过了,但它不起作用sqoopimport--connectjdbc:mysql://master/poc--usernameroot--tabledept--where'id_dept>2'--hive-import--hive-databasepoc--hive-t

r - 在sparklyr中使用spark_read_csv报错 "Invalid method csv for object"

我正在尝试从hdfs读取R中的数据。在使用sparklyr时,我遇到的一件事是破译错误消息……因为我不是Java程序员。考虑这个例子:在R中执行此操作创建鲍鱼数据框-鲍鱼是用于机器学习示例的数据集loadpivotalRpackage#containsabalonedataandcreatedataframeif(!require(PivotalR)){install.packages(PivotalR)}data(abalone)#sampleofdatahead(abalone)#exportdatatoaCSVfileif(!require(readr)){install.pac

csv - 如何将具有不同分隔符的 CSV 加载到单个 Hadoop 表

我想用多个CSV文件填充一个Hive表。问题是并非所有文件都具有相同的分隔符。在创建表格时,我只能指定一个分隔符,例如~createtablestatus(typestring,...)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'withserdeproperties("separatorChar"="~")STOREDASTEXTFILEHive是否有允许多个CSV分隔符的内置功能?我知道这些文件可以在加载之前由Hadoop作业标准化或基于https://stackoverflow.com/a/26356592/

hadoop - MSCK REPAIR TABLE 表名耗时较长

我在包含超过28K分区的配置单元表上运行MSCKREPAIRTABLE表名,我们将每10分钟接收一个分区。当我们每10分钟在此表上运行一次MSCKREPAIRTABLE时,它会花费很多时间有人可以建议为什么需要更多时间吗?(即超过5-10分钟)提前致谢。hive版本:1.1.0 最佳答案 这是一个非常糟糕的做法。无论目录是否已经映射到分区,MSCKREPAIR仍然需要获取所有目录的列表以及所有分区的列表并进行比较。相反,您应该在每次添加目录时使用altertable...addpartition...添加一个分区。

hadoop - hive insert overwrite table with inner sub query of count of columns 作为结果

你好,我在源表“状态表”下面有datestatusname2017-06-22true1.tar2017-06-22true2.tar2017-06-22false3.tar2017-06-22true4.tar2017-06-22false5.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21false6.tar2017-06-21true6.tar我在目标表列下面有预期的数据TrueFalseTotalDate3252017-06-221342017-06-21我在下面写了查询将数据从源表加载到目标表,但它说表达式不在GROU