草庐IT

hdfs_rtp

全部标签

hadoop - 使用pywebhdfs创建hdfs文件报错: [Errno -2] Name or service not known

关于我的开发环境的一些信息:开放堆栈:朱诺hadoop:2.4.1pywebhdfs:0.4.0我通过openstacksahara客户端API创建一个hadoop集群,然后我想使用pywebhdfs创建一个文件到HDFS(用于在创建的hadoop集群上启Action业)。但是在创建HDFS文件时出现错误,错误信息为:HTTPConnectionPool(host='vanillacluster-vanillacluster-slave-vanilla-002.novalocal',port=50075):Maxretriesexceededwithurl:/webhdfs/v1/us

java - 在 Java 上使用 DFSClient 将文件上传到 HDFS

我正在尝试使用与Hadoop捆绑在一起的DFSClient将文件上传/写入我的HDFS,但是我没有成功,以下代码实际上在HDFS中创建了文件,但它是空的(大小为0),得到文件并看到它的内容我可以确认它是空的。如何调试此行为?我已经确认我的本地文件“dilox.txt”包含文本,并且我的缓冲区循环确实在迭代,我的理论是client.create()创建的输出缓冲区不会将任何内容发送回HDFS。请注意,我不是在Hadoop作业中运行它,而是在外部运行它。相关代码:StringhdfsUrl="hdfs://1.2.3.4:8020/user/hadoop";Configurationcon

hadoop - 在hdfs中找不到仓库

我通过hive创建了一个包含一些表的数据库。在hive-site.xml中,我将“hive.metastore.warehouse.dir”默认设置为“/user/hive/warehouse”但是hdfs中没有这样的目录我还能在哪里找到与我的数据库和表相关的文件? 最佳答案 您可以运行describeformatted并检查带有LOCATION的行,它会告诉您表的目录和文件的位置。 关于hadoop-在hdfs中找不到仓库,我们在StackOverflow上找到一个类似的问题:

hadoop - Java中HDFS配置有什么用?

我对HDFSJavaAPI有点困惑,尤其是hadoop的作用Configuration针对我们在hadoop服务器安装上的配置(/etc/hadoop/core-site.xml等)。我应该在每个使用hdfs的java客户端程序中安装hadoop吗?Java客户端的任何配置集是否会影响它与hadoop服务器(hdfs服务器)的通信方式? 最佳答案 您可以在core-site.xml中或通过驱动程序代码中的配置为您的参数设置值。程序中的一组会覆盖xml文件中的一组。因此,例如,如果您必须设置压缩代码。然后你可以将它们添加到core-s

scala - 如何使用 Scala 使用 Hadoop 客户端在 HDFS 中 append 文本文件?

我想将文本文件写入HDFS。文件必须写入HDFS的路径是动态生成的。如果文件路径(包括文件名)是新的,则应创建该文件并将文本写入其中。如果文件路径(包括文件)已经存在,则该字符串必须append到现有文件。我使用了以下代码。文件创建工作正常。但不能将文本append到现有文件。defwriteJson(uri:String,Json:JValue,time:Time):Unit={valpath=newPath(generateFilePath(Json,time))valconf=newConfiguration()conf.set("fs.defaultFS",uri)conf.s

hadoop - 访问 hdfs 文件夹

如何限制对hdfs中特定文件夹的访问。用户不应通过hue、hive或任何其他方式访问该文件夹。 最佳答案 除了chmod之外,您还可以使用ACL(访问控制列表)。有了它,您可以设置文件、文件夹和用户的权限。user::rw-user:bruce:rwx#effective:r--group::r-x#effective:r--group:sales:rwx#effective:r--mask::r--other::r--检查下面的链接https://hadoop.apache.org/docs/current/hadoop-proj

hadoop - Ambari 抛出错误 E090 HDFS 030 Error in creation reaction

我已经在Ambari管理中设置了一个文件浏览View(View-添加View-文件),但是当我试图访问这个View时,出现以下错误:E090HDFS030Errorincreation/user//hive/jobs/hive-job-...[HdfsApiException]为什么? 最佳答案 Solved!我的问题的解决方案是不允许运行“ambari-server”的用户代表登录到ambari的当前用户执行操作。在Hadoop术语中,不允许ambari守护进程用户冒充ambari用户。要解决此问题,必须修改HDFS配置,以便为我

hadoop - 计算大于 100MB 的 hdfs 压缩文件

有人可以帮我构建命令来计算HDFS中根目录中大于100MB的.snappy压缩文件的数量吗?我使用此命令从根目录中获取.snappy文件的数量:hdfsfsck/-files|grep".snappy"|wc-l现在我需要统计大于100MB的压缩文件。 最佳答案 使用hdfs和awk命令应该可以做到这一点。这是片段hdfsdfs-ls-R/path_to_dir/|awk'{if($5>104857600&&$8~/\.snappy/)print$8}' 关于hadoop-计算大于100

hadoop - Datanodes 处于事件状态,但我无法将文件复制到 HDFS [Hadoop 2.6.0 - Raspberry Pi Cluster]

我一直在使用RaspberryPis开发Hadoop集群,只是出于学习目的。我已经成功配置了所有的奴隶和主人(据我所知)。问题:HDFS无法复制本地文件。并根据http://Master:8088我有3个事件节点。(我在最后附上了截图)但是当我尝试将本地文件复制到HDFS时,出现以下异常:16/01/1206:20:43WARNhdfs.DFSClient:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/LICENCE.txt._COPYING_couldonlyb

hadoop - 使用 mapreduce 修改 hdfs 上的文件

我可以修改驻留在hdfs上的文件吗?是创建具有修改内容的临时文件并删除原始文件的唯一方法吗?我可以使用map-reduce修改文件吗?是否可以并行修改不同的文件block并以某种方式合并到一个文件中? 最佳答案 一旦文件在HDFS中,您就不能修改它,除非附加到它。看到这个确认追加是可能的答案:AppenddatatoexistingfileinHDFSJavaMapreduce允许您并行操作文件,每个映射器读取文件的一个block,同时运行多个映射器。这就是它设计的工作方式。任何给定的映射器都可以过滤行并很容易地将全部、部分或全部写