hdfs_clusters

scala - HDFS 文件互斥写入？

基本上，在我的程序中，任务将附加到HDFS文件。但是，我不希望两个任务同时附加文件。有没有一种机制，我只有一个任务附加到HDFS文件。基本上是一种互斥机制。我在创建文件时也需要这样的互斥。最佳答案据我所知，您不能让多个处理程序写入同一个HDFS文件。这不是Spark的限制，这正是HDFS的设计方式。在HDFS中，文件是不可变的。每个文件只有一个编写器，关闭后没有追加。这对于大数据和Spark来说非常有用，因为您始终知道同一个文件会产生相同的数据。在Hadoop中解决这个问题的方法是让每个编写者编写自己的文件，然后有一个最终的Ma

互斥 scala section HDFS hadoop apache-spark bigdata

hadoop - 远程访问 HDFS

我在某个服务器上运行hadoop服务器，比方说在IP192.168.11.7上并使其core-site.xml如下:fs.defaultFShdfs://localhost:9000我已经运行了我的hdfs，即使用命令:sbin/start-dfs.sh现在，我想使用浏览器从我的本地计算机访问HDFS。可能吗？我试过了http://192.168.11.7:9000或http://192.168.11.7:50075，但无济于事。即无法访问此站点非常感谢编辑:这是我的hdfs-site.xml的内容:dfs.replication1dfs.webhdfs.enabledtruedfs.

hadoop HDFS gt lt property

hadoop - 将数据/文件从 Windows 复制到 Linux 机器或 HDFS

我正在处理大数据，想从远程机器上的文件系统中获取数据/文件，而不是从任何数据库中获取数据/文件，即将文件从远程linux/windows机器复制到hdfs。请帮助我。最佳答案您可以使用以下命令将文件从本地文件复制到远程文件系统，反之亦然scpcommandsscp[Options][[User@]From_Host:]Source_File[[User@]To_Host:][Destination_File] 关于hadoop-将数据/文件从Windows复制到Linux机器或HDF

Windows hadoop section strong stackoverflow filesystems hdfs bigdata

git - 我们可以使用 HDFS 来存储 git 存储库吗？

我想创建一个可扩展的git存储库，以实现高可用性、自动故障转移和性能。我认为HDFS非常适合这种情况。但我不知道是否可以将它与git存储库一起使用。有人可以举个例子吗？如何使用hdfs存储git仓库？最佳答案可能有点冗长，但应该工作的是使用FUSE(MountableHDFS)一旦你能够挂载HDFS，它就像任何其他文件系统一样，你应该能够使用该挂载(HDFS)来存储git存储库。详情请见以下链接https://wiki.apache.org/hadoop/MountableHDFShttp://www.cloudera.com/

储库 git section MountableHDFS hadoop repository hdfs gitlab

performance - HDFS 与 HBASE : Which one performs better on millions of small text files?

如果我们有数百万个大小从几KB到几MB不等的小文本文件，HDFS和HBASE中哪一个花费的处理时间更少？还有更少的内存消耗？最佳答案这是一个高层次的问题。缺少有关数据类型的信息。但是，一般而言，我们在决定存储位置等事项时需要牢记以下事项。在HDFS或HBase中:由于我们有质量较小的文件，将其存储在HDFS中会遇到一些问题。名称节点上的元数据会很高如果block大小(输入拆分大小)配置不正确，则完整数据局部性和并行处理的潜力将不会利用。有关输入拆分和之间关系的更多信息block大小，请引用SplitsizevsBlocksize

performance millions section HDFS size hadoop hbase

java - HDFS Java API 检查权限

我需要检查我的代码是否对hdfs中的目录具有写权限。所以我想使用类似hdfs.checkPermission(Pathpath)的方法，但我只在API中看到setPermission(Pathp,FsPermissionpermission)方法。我该怎么做？当然，如果我没有写权限，我可以在目录中创建一个文件并捕获异常“权限被拒绝”，但这不是我想要做的。最佳答案 getPermission可用于FileStatus对象valhdfs=org.apache.hadoop.fs.FileSystem.get(neworg.apache

检查权 java section code hdfs hadoop

bash - 获取 HDFS 中最后更新的文件夹

我想要我的一个HDFS目录中的最新更新文件夹。我能够在hdfs文件系统中获取最新文件，但不确定如何为HDFS文件系统执行此操作。我尝试使用shell脚本。最佳答案使用Hadoop2.6，我可以使用以下命令让它工作:hdfsdfs-ls-R${DIR}|grep"^d"|sort-k6,7|tail-1|tr-s''|cut-d''-f8在哪里，hdfsdfs-ls-R${DIR}:递归地给出所有目录grep"^d":只给出目录sort-k6,7:按修改时间排序tail-1:列出最后修改的目录tr-s'':一些格式化cut-d''

bash HDFS code supergroup section shell unix hadoop

java - 如何从 HDFS 中的 Path 获取绝对路径

我是HDFS的新手，遇到了以下问题:org.apache.hadoop.fs.Path没有类似getAbsolutePath的方法返回字符串。toString方法没有正确记录，因此使用它是否可靠？最佳答案 org.apache.hadoop.fs.Path应该返回完整路径。是的，toString方法几乎没有任何文档，但它可以正常工作!也许这也行:Pathp=fs.getFileStatus(newPath(".")).getPath();URI(p.toString()).getPath();引用:http://lucene.47

绝对 java section code Is-there-a-way-to-get-an-absolute hadoop hdfs

java - 使用JAVA从HDFS中的一个目录复制到HDFS中的另一个目录

我正在尝试将数据从HDFS中的一个目录复制到HDFS中的另一个目录，但我遇到的问题很少。这是我的代码片段。Configurationconf=newConfiguration();FileSystemfs=FileSystem.get(conf);LOGGER.info("Connected");Pathsource=newPath("/data_dev/deepak/src/raw/epic/cl_qanswer_qa/hdp_process_date=2017-07-25/hour=00/minute=00/");Pathtarget=newPath("/data_dev/deep

HDFS java hadoop apache bigdata file-handling

hadoop - Flume HDFS 接收器不断滚动小文件

我正在尝试使用flume将Twitter数据流式传输到hdfs中:https://github.com/cloudera/cdh-twitter-example/无论我在这里尝试什么，它都会不断在HDFS中创建大小在1.5kB到15kB之间的文件，而我希望看到大文件(64Mb)。这是代理配置:TwitterAgent.sources=TwitterTwitterAgent.channels=MemChannelTwitterAgent.sinks=HDFSTwitterAgent.sources.Twitter.type=com.cloudera.flume.source.Twitte

hadoop Flume TwitterAgent HDFS twitter4j cloudera

188 189 190191192 193 194