hdfs_clusters

hadoop - 即使在向命令行添加原则后，HDFS 委托(delegate) token 也已过期

我在hadoop中运行一个sparkstreaming作业。该机器已进行kerberos化，它运行良好42小时，但由于HDFStoken委托(delegate)到期而失败。我什至为每8小时运行一次的kinit命令设置了crontab，并且我拥有10小时的Max-renew生命周期token。Failedduetoerror:org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.token.SecretManager$InvalidToken):token(HDFS_DELEGATION_TOKENtoken我还

delegate 即使 section token blockquote hadoop spark-streaming kerberos kerberos-delegation

hadoop - 如何为 HDFS 单独指定一组节点，为 MapReduce 作业指定其他节点？

在部署hadoop时，我希望一些节点集运行HDFS服务器但不运行任何MapReduce任务。比如有两个节点A和B运行HDFS。我想排除节点A运行任何map/reduce任务。我怎样才能实现它？谢谢最佳答案如果您不想在特定节点或一组节点中运行任何MapReduce作业，如果nodemanager守护进程已经在运行，那么停止它们将是最简单的选择。在不应尝试MR任务的节点上运行此命令。yarn-daemon.shstopnodemanager或者使用yarn-site.xml中的属性yarn.resourcemanager.nodes

何为 MapReduce code section hadoop

java - 如何创建指向 hdfs 位置的 URL 对象？

我需要使用java.net.URL对象访问HDFS位置。这可能吗？如果是这样，那么如何创建URL对象？最佳答案您可以使用以下代码获取URI或URL对象。URIuri=URI.create("hdfs://host:端口/文件路径"); 关于java-如何创建指向hdfs位置的URL对象？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/42021243/

java hdfs section code stackoverflow hadoop url

hadoop - 如何在 HDFS hadoop Map-Reduce 中处理增量更新

我在HDF中有结构化的基本文本文件，其中包含这样的数据(在file.txt中):OgId|^|ItemId|^|segmentId|^|Sequence|^|Action|!|4295877341|^|136|^|4|^|1|^|I|!|4295877346|^|136|^|4|^|1|^|I|!|4295877341|^|138|^|2|^|1|^|I|!|4295877341|^|141|^|4|^|1|^|I|!|4295877341|^|143|^|2|^|1|^|I|!|4295877341|^|145|^|14|^|1|^|I|!|123456789|^|145|^|14|

hadoop 何在 code 4295877341 34 apache-spark mapreduce hdfs

hadoop - 从 udf 访问 hdfs 文件

我想通过udf调用访问文件。这是我的脚本:files=LOAD'$docs_in'USINGPigStorage(';')AS(id,stopwords,id2,file);buzz=FOREACHfilesGENERATEpigbuzz.Buzz(file,id)asfile:bag{(year:chararray,word:chararray,count:long)};jar已注册。该路径对我的hdfs来说是真实的，文件确实存在于其中。调用已完成。但似乎没有发现该文件。也许是因为我正在尝试访问hdfs上的文件。如何从我的UDFjava调用访问hdfs中的文件？

hadoop hdfs section code BufferedReader apache-pig

hadoop - 将数据从 hdfs 加载到本地系统的有效方法？

我正在尝试使用hadoopfs-get将数TB的数据从hdfs加载到本地，但完成此任务需要数小时。有没有其他有效的方法可以将数据从hdfs获取到本地？最佳答案复制到本地文件系统的速度取决于许多因素，包括:您是并行复制还是串行复制。文件是否可拆分(映射器是否可以处理数据block而不是文件，如果您在HDFS上有某些类型的压缩文件，通常会出现问题)当然是网络带宽，因为您可能会从许多DataNode中提取信息选项1:DistCp无论如何，既然你说你的文件在HDFS上，我们知道每个hadoop从节点都可以看到数据。您可以尝试使用Dist

hadoop hdfs section strong bigdata

java - 在spark java api中递归地从HDFS读取所有文件

我正在使用spark从目录及其子目录的单个RDD中读取HDFS中所有文件的数据。我找不到任何有效的方法来做到这一点。所以我尝试编写一些自定义代码，如下所示:publicObjectfetch(Stringsource,Stringsink){//readingdatabooleanisDir=newFile(source).isDirectory();System.out.println("isDir="+isDir);JavaRDDlines;if(isDir){lines=readFiles(newFile(source).listFiles(),null);}elselines=

java spark lines section String hadoop hdfs apache-spark

firefox - 在浏览器中打开 HDFS 文件

我正在尝试在我的浏览器中使用以下URL打开文件(存在于HDFS位置:/user/input/Summary.txt):hdfs://localhost:8020/user/input/Summary.txt但我我的firefox浏览器出现错误:Firefox不知道如何打开这个地址，因为协议(protocol)(hdfs)没有与任何程序关联。如果我将协议(protocol)从hdfs更改为http(理想情况下它不应该工作)然后我收到消息:看起来你正在制作一个对HadoopIPC端口的HTTP请求。这不是此守护程序上Web界面的正确端口。这存在于core-site.xml文件中:fs.de

firefox HDFS code section hadoop bigdata

hadoop - Hadoop 的 HDFS 高可用性特性如何影响 CAP 定理？

根据我目前所读到的有关CAP定理的所有内容，没有分布式系统可以同时提供这三者:可用性、一致性和分区容错性。现在，Hadoop2.x引入了一项新功能，可以对其进行配置以消除hadoop集群所具有的单点故障(单个名称节点)。这样，集群就变得高度可用、一致且具有分区容错性。我对吗？或者我错过了什么？根据CAP的说法，如果系统试图提供所有这三个功能，它应该在延迟方面付出代价，新功能是否将这种延迟添加到集群中？还是Hadoop破解了CAP定理？最佳答案 HDFS在多个相关故障的情况下不提供可用性(例如，具有相同HDFSblock的三个故障数

hadoop section 容错性 cap-theorem availability

hadoop - 验证 HDFS 中文件的校验和

我正在使用webhdfs将数据从本地文件系统提取到HDFS。现在我想确保摄取到HDFS中的文件的完整性。如何确保传输的文件没有损坏/更改等？我使用下面的webhdfs命令来获取文件的校验和curl-i-L--negotiate-u:-XGET"http://$hostname:$port/webhdfs/v1/user/path?op=GETFILECHECKSUM"我应该如何使用上面的校验和来确保Ingested文件的完整性？请建议下面是我要执行的步骤>md5sumlocale_file740c461879b484f4f5960aa4f67a145b>hadoopfs-checksu

hadoop HDFS section locale_file https checksum webhdfs

216 217 218219220 221 222