草庐IT

unix-compress

全部标签

unix - 使用命令行查找 hdfs 分布式文件中的总行数

我在一个集群上工作,数据集以分布式方式保存在hdfs中。这是我所拥有的:[hmi@bdadev-5~]$hadoopfs-ls/bdatest/clm/data/Found1840items-rw-r--r--3bdasupergroup02015-08-1100:32/bdatest/clm/data/_SUCCESS-rw-r--r--3bdasupergroup344043902015-08-1100:32/bdatest/clm/data/part-00000-rw-r--r--3bdasupergroup344040622015-08-1100:32/bdatest/clm/

hadoop - 具有 unix 时间戳的 Hive float 据类型

我正在使用float数据类型的hive外部表(错误地)来存储Unix纪元时间戳。当我在配置单元外部表上发出where子句时,它会返回一些奇怪的结果。举个例子。selectevent_timefromtbl_namewhereevent_time=1478649561limit10输出:1478649600任何人都可以帮助我理解这里有什么问题吗? 最佳答案 这与其说是Hive问题,不如说是浮点精度的一般问题。您将看到1478649561(整数类型)在浮点表示中被近似以适应32位Java浮点类型的效果。为了在Hive上下文之外以更简单的

python - 如何比较 hdfs 文件和 unix 文件?

我想比较hdfs文件和unix文件。我知道使用cat命令比较文件的一种方法,因为Hadoop分布式文件系统(HDFS)也提供了cat命令。举个例子:#hdfsdfs-ls-R/demo-rw-r--r--3roothdfs1296172014-10-1712:22/demo/abc.log#ls/tmpxyz.log这里我想比较abc.log和xyz.log。还有更好的方法吗?? 最佳答案 您可能会使用shell重定向+diff。diff 关于python-如何比较hdfs文件和unix

hadoop - 将文件从远程 Unix 和 Windows 服务器复制到 HDFS,无需中间暂存

如何在不从命令行进行中间暂存的情况下将文件从远程Unix和Windows服务器复制到HDFS? 最佳答案 您可以使用以下命令:hadoopfs-cp/user/myuser/copyTestFolder/*hdfs://remoteServer:8020/user/remoteuser/copyTestFolder/反之亦然,从服务器复制到本地机器。您还可以阅读hadoopdocumentation. 关于hadoop-将文件从远程Unix和Windows服务器复制到HDFS,无需中间暂

JAVA - SPARK - saveAsTextFile 不能应用于 '(java.lang.String, org.apache.hadoop.io.compress.CompressionCodec)'

我正在使用Spark在JAVA中编写程序。我有一个名为“copied_logs”的JavaRDD,它使用映射并从位于hdfs上的日志中复制几个字段。现在,我想用Bzip2压缩“copied_logs”然后保存。我想使用“saveAsTextFile”函数将这些数据保存在hdfs上。我的压缩保存代码如下:CompressionCodeccodec=newBZip2Codec();copied_logs.saveAsTextFile(output_dir+"copied_logs.json",codec);但是我得到这个错误:Error:(128,69)java:incompatiblet

hadoop - Hadoop fs 和常规 Unix 命令有什么区别?

我是Hadoop和HDFS的新手,我想了解为什么需要Hadoopfs命令而不是仅使用Unix命令等价物。它们似乎都有效,我的第一个想法是Hadoop命令直接与HDFSnamenode接口(interface)并将其传播到所有节点。然而,当我只使用Unixshell命令时,情况似乎就是这样。我翻遍了互联网,没有找到简单的解释。非常感谢帮助。或指向差异解释的链接。 最佳答案 如果您通过NFS在HDFS上运行,那么您可以期望大多数简单的命令都能正常工作(例如ls、cd、mkdir、mv、rm、chmod、chgrp、chown)。hado

Hadoop Pig ISO 日期到 Unix 时间戳

我在Pig中有一个项目列表,由ISO8601(YYYY-MM-DD)格式的日期字符串组成:(2011-12-01)(2011-12-01)(2011-12-02)除了在Java中实现我自己的函数之外,还有什么方法可以将这些项目转换为UNIX时间戳? 最佳答案 你需要一个UDF来做那件事=好消息它已经完成了。Pig还带有“piggybank"社区贡献的UDF,包括dateconvert 关于HadoopPigISO日期到Unix时间戳,我们在StackOverflow上找到一个类似的问题:

xml - How to read compressed bz2 (bzip2) Wikipedia dumps into stream xml record reader for hadoop map reduce

我正在使用HadoopMapReduce对维基百科数据转储(以bz2格式压缩)进行研究。由于这些转储太大(5T),我无法将xml数据解压缩到HDFS中,只能使用hadoop提供的StreamXmlRecordReader。Hadoop确实支持解压缩bz2文件,但它会任意拆分页面并将其发送给映射器。因为这是xml,所以我们需要拆分为标签。有没有办法把hadoop自带的bz2解压和streamxmlrecordreader一起使用? 最佳答案 维基媒体基金会刚刚为HadoopStreaming接口(interface)发布了一个Inpu

compression - Hadoop:在 HDFS 中压缩文件?

我最近在Hadoop中设置了LZO压缩。在HDFS中压缩文件的最简单方法是什么?我想压缩一个文件,然后删除原来的。我应该使用IdentityMapper和使用LZO压缩的IdentityReducer创建MR作业吗? 最佳答案 对我来说,编写HadoopStreaming的开销较低压缩文件的作业。这是我运行的命令:hadoopjar$HADOOP_HOME/contrib/streaming/hadoop-streaming-0.20.2-cdh3u2.jar\-Dmapred.output.compress=true\-Dmapr

unix - HDFS 和 NFS 之间的区别?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。这个问题似乎不是关于aspecificprogrammingproblem,asoftwarealgorithm,orsoftwaretoolsprimarilyusedbyprogrammers的.如果您认为这个问题是关于anotherStackExchangesite的主题,您可以发表评论,说明问题可能在哪里得到解答。关闭3年前。Improvethisquestion我是这方面的新手。想了解hadoop分布式文件系统和网络文件系统之间的基本区别以及hdfs相对于nfs的优势是什么?