草庐IT

hadoop - MapR 是 MapReduce 的替代品吗

我看到了mapreduce作业的替代品MapR,它可以直接从流中读取数据并进行处理。我的理解正确吗?有没有我可以引用的sample?它是商业广告吗?使用它有什么问题吗?它是水槽的替代品吗?我们可以将它与apachehadoop一起使用吗?如果是,那么为什么发行版只讨论yarn和mapreduce而没有讨论MapR?提前致谢。 最佳答案 MapR是ApacheHadoop的商业发行版,HDFS被MapR-FS取代。本质上,它是相同的Hadoop和相同的Map-Reduce作业在上面运行,覆盖了大量的营销,导致像你这样的困惑和问题。这是

linux - 像 "hadoop fs -ls"这样的 hadoop shell 命令是如何工作的?

我想知道hadoop编译器如何解释像“hadoopfs-ls”这样的hadoopshell命令?当我输入“hadoopfs-ls/user/hadoop/someDirName”时后台会发生什么如果我想创建自己的shell命令,我该怎么做?提前致谢。如果有人可以分享带有示例的源代码链接,我将不胜感激。 最佳答案 每个hadoop命令都在内部调用一个java实用程序来进行进一步的操作。org.apache.hadoop.fs.FsShell提供对文件系统的命令行访问。hadoopfs-ls内部调用上述包中的相应方法。注意hadoopf

hadoop fs -ls 隐藏文件

我正在编写一个实用程序来根据日期清理HDFS。虽然该实用程序使用hadoop库来完成此操作,但它也可以在常规file:///文件系统上运行,使用hadoopjar或java-jar来执行它。不过,我发现该实用程序的一个缺点是它目前无法清除“隐藏”文件(前面有句点)。我在猜测,并问你聪明的人,如果那是因为HDFS没有隐藏文件。该假设得到验证,是否有关于我可以做些什么来使它成为一个通用实用程序以便它可以列出并删除隐藏文件的建议? 最佳答案 命令:列出所有隐藏的文件夹和文件~]$ls-ld.?*

hadoop - AWS 访问 key ID 在 hadoop fs -cp 命令上失败

我试图运行hadoopfs-cp命令但收到以下错误消息:-cp:AWS访问keyID和secret访问key必须指定为s3URL的用户名或密码(分别),或者通过设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey属性(分别)我是hadoop和s3的新手,所以任何人都可以就我应该做什么提供建议吗?谢谢! 最佳答案 请refer.去cd${HADOOP_HOME}/conf/hadoop-site.xml并添加/更新fs.s3.awsAccessKeyIdYourAWSACCESSKEYfs.s

linux - 如何通过 unix utils 或 nmon 使用 hadoop fs 获取磁盘信息?

我已经安装了带有mfs(基于hadoopfs)的mapr和一些使用df、dfisk和nmon日志文件从文件系统获取信息的脚本。root@spbswgvml10:/opt/nmon#df-hFilesystemSizeUsedAvailUse%Mountedon/dev/sda18.8G4.4G4.0G53%/none4.0K04.0K0%/sys/fs/cgroupudev2.0G4.0K2.0G1%/devtmpfs396M464K395M1%/runnone5.0M05.0M0%/run/locknone2.0G02.0G0%/run/shmnone100M0100M0%/run/

hadoop - MAPR - 文件读写过程

我无法找到向我解释元数据如何在MAPR(文件元数据)中分布的特定链接。当我查看cloudera/hortonworks/apachehadoop时,我知道元数据存储在namenode的内存中,然后获取该内存以定位保存block的节点。我想了解它在MAPR中是如何工作的。如有任何帮助,我们将不胜感激。 最佳答案 MapR本地实现了MapR-FS的网络文件系统(NFS)接口(interface),以便任何从文件系统读取和写入文件系统,无论是本地文件系统、网络附加存储还是存储区域网络,可以从MapR-FS读取和写入数据。这也是MapR在安

java - 当运行 hadoop fs -ls 结果是 "ls: Call From java.net.UnknownHostException: ubuntu: ubuntu: unknown error to localhost:9000...."

ls:CallFromjava.net.UnknownHostException:ubuntu:ubuntu:unknownerrortolocalhost:9000failedonconnectionexception:java.net.ConnectException:Connectionrefused;Formoredetailssee:http://wiki.apache.org/hadoop/ConnectionRefused我的hadoop配置是这样的。/etc/主机127.0.0.1localhost#ThefollowinglinesaredesirableforIPv

hadoop - 从 Spark 作业创建 FS 的快照

我想在运行spark作业时创建底层HDFS的快照。特定步骤涉及删除某些Parquet文件的内容。我想创建快照执行删除操作,验证操作结果并继续执行后续步骤。但是,我找不到从我的spark作业访问HDFSAPI的好方法。我要创建快照的目录在HDFS中被标记/标记为可快照。创建快照的命令行方法有效,但是我需要以编程方式执行此操作。我在CDH5.5上运行Spark1.5。关于如何执行此操作的任何提示线索?谢谢内存开发 最佳答案 我还没有验证这一点,但至少我没有遇到编译错误,理论上这个解决方案应该有效。这是Scala代码:valsc=newS

shell - 在 oozie 工作流 (HUE) 中,如何将参数从 shell 操作传递到 HDFS fs 操作

在我的工作流程中,我有一个shell操作和一个HDFSfs操作ShellAction与日期相呼应。(日期=2016-10-06)我想在HDFSfsactionmkdir路径中设置上面的日期参数。以下是Action定义。我收到以下错误。EL_ERROREncountered"&",expectedoneof[,,,"true","false","null","(",")","-","not","!","empty",] 最佳答案 您需要连接两个字符串以形成完整路径。Stringconcat(Strings1,Strings2)它返回2

hadoop - 如何使用 pig 或 hadoop fs 选项重命名具有特定扩展名的文件?

我在基于mm/dd/yyyy分区的文件夹结构中有*.gz文件.我想重命名以.gz扩展名结尾的文件。请建议如何使用hadoopfs命令行选项或使用pig重命名具有特定扩展名的文件。这是我的文件夹结构----rootfolder|---year--month--day--filename*.gz我想重命名扩展名为.gz的文件。请建议如何实现这一目标。 最佳答案 我知道这是一个肮脏的hack,但它对我有用。我假设您想将.gz文件扩展名更改为.newextension:hadoopfs-lsroot/*/*/*/filename*.gz|g