草庐IT

分隔符

全部标签

mysql - 我如何从 .csv 文件创建一个 Hive 表,该文件有一列字段由分号分隔;

我有一个.csv文件,其格式为一个(第一)列/单元格,其中包含我希望在我的配置单元表中用分号分隔的五个字段;像这样:ISBN;"Title";"Author";"Year";"Publisher"0002005018;"ClaraCallan";"RichardBruceWright";"2001";"HarperFlamingoCanada"0399135782;"TheKitchenGod'sWife";"AmyTan";"1991";"PutnamPubGroup"etc.etc....我可以使用Hive查询来拆分数据吗?并将其存储在我使用相同列名顺序创建的表中?喜欢regexp

python - 使用 Python 在 Hadoop 中读取制表符分隔的文件

我有一个制表符分隔的文件,其中包含有关客户资料的信息。我需要访问不同的列来做一些数据审计报告,比如值的范围、分组依据等。我想用Python来编写我的MapReduce程序。我需要读取输入文件并计算列统计信息,例如计数、最大值、最小值等。例如,在以下情况下,我需要找到col2的最大值:col1col2col3col4AA1245BB1358CC1458另请注意,我是Hadoop的新手,正在尝试学习如何用Python为其编写程序。 最佳答案 我将简化您的数据以进入Hadoop处理的核心。假设您有以下列式数据:24535845814555

hadoop - 如何使用逗号以外的分隔符从 hadoop(通过 hue 中的 hive)导出 csv 数据?

我的问题在标题中。此外,我的情况无法使用hiveCLI,只有hue平台中的hive编辑器。之所以不用xlsx是因为xlsx只能导出30000条记录。 最佳答案 引用下面的问题。用户建议了很多选项。HowtoexportaHivetableintoaCSVfile? 关于hadoop-如何使用逗号以外的分隔符从hadoop(通过hue中的hive)导出csv数据?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow

encoding - 在 Hive 中使用 Icelandic Thorn 字符作为分隔符

我目前正在尝试将一些DoubleClick广告日志导入Hadoop。这些日志存储在一个gzip分隔文件中,该文件使用第1252页(Windows-ANSI?)进行编码,并使用IcelandicThorn字符作为分隔符。我可以愉快地将这些日志导入到一个列中,但我似乎找不到让Hive理解Thorn字符的方法-我想可能是因为它不理解1252编码?我查看了创建表文档-http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html-但似乎无法找到任何方法来使此编码/分隔符正常工作。我还从ht

hadoop - 如何将 hbase 表打印到制表符分隔的文本文件

我正在尝试找到一种方法将hbase查询结果读取到制表符分隔的文本文件中。hbase表people的结构:12column-name=name;value=JohnSmith10column-name=name;value=JackJohnson我想将它输出到这样创建的文本文件中:-12(tab)JohnSmith-10(tab)JackJohnson是否有任何工具可用于此,例如导出可用于将hbase输出到hdfs? 最佳答案 如果您只需要导出一个完整的表,HBase附带一个实用程序来执行此操作,请参阅here另一种选择是使用Pig,

hadoop - 具有制表符分隔值和字段名称的 Impala 外部表

我在HDFS中有一些数据,我想创建一个外部表并通过Impala进行查询。数据以制表符分隔,但也包含字段名称。示例数据:state:ILcity:chicagopopulation:2714856state:NYcity:NewYorkpopulation:8336697我知道如何创建表格并指定数据以制表符分隔,但有没有办法处理数据中的字段? 最佳答案 黑斑羚Impala中的解决方案使用与我之前发布的Pig示例相同的REGEXP_EXTRACT逻辑。--csp.txt(输入文件,驻留在/user/cloudera/csp)state:

arrays - 使用自定义分隔符在配置单元中导入复杂的数据结构

我有一个具有以下结构的庞大数据集字段A,字段B,字段C;字段D|字段E,字段F;字段G|字段H,字段I...哪里:fieldA、fieldB和fieldC是应该导入到单独列中的字符串fieldD|fieldE,FieldF;fieldG|fieldH,FieldI是数组(元素用逗号分隔,例如fieldE,FieldF)的映射(元素用|分隔)的数组(元素用分号分隔)我的问题是初始数组与fieldA、fieldB、fieldC用分号隔开。我的问题是如何在创建表格时正确设置分隔符。这个不能识别数组——尽管我提供了一个分号作为字段分隔符CREATETABLEstring_array(first

hadoop - 是否可以在 2 个 Hdfs 目录(单独的集群)之间使用 distcp 来 distcp 文件(逗号分隔)?

我只需要distcpx个文件。找不到解决方法。一个想法是将它复制到一个临时目录,然后distcp该目录。完成后,我可以删除该临时目录。单独的distcp命令(针对每个文件)。这可能会很痛苦。不确定是否允许逗号分隔。有什么想法吗?提前致谢。 最佳答案 您可以将所有文件作为源传递给DistCp命令hadoopdistcphdfs://src_nn/var/log/spark/appHistory//\hdfs://src_nn/var/log/spark/appHistory//\....hdfs://src_nn/var/log/sp

hadoop - Hive 字段分隔符作为固定偏移量

这个问题在这里已经有了答案:Regexforfixedwidthfield(2个答案)关闭9年前。谁能告诉我:是否可以创建配置单元表并通过固定偏移量分隔值。例如,文件:col1col2col3在这种情况下,表的第一列为1-4个字符,第二列为5-8个字符,第三列为8-12个字符。非常感谢!

java - Hadoop - 输出键/值分隔符

我想将输出分隔符更改为;而不是标签。我已经尝试过:Hadoop:keyandvaluearetabseparatedintheoutputfile.howtodoitsemicolon-separated?但我的输出仍然是key(tab)value我正在使用Cloudera演示(CDH4.1.3)。这是我的代码:Configurationconf=newConfiguration();String[]otherArgs=newGenericOptionsParser(conf,args).getRemainingArgs();if(otherArgs.length!=2){System