hdfs-agent

hadoop 权限问题 (hdfs-site.xml dfs.permissions.enabled)

我最近在我的机器上安装了Hadoop。我有权限问题。我以用户rahul身份登录并尝试在HDFS中创建目录(hdfsdfs-mkdir/rahul_workspace)。但它给了我一个错误Permissiondenied:user=Rahul,access=WRITE,inode="/user":hdfs:hdfs:drwxr-xr-x。在Google上快速搜索此错误会导致许多响应建议通过将hdfs-site.xml中的dfs.permissions属性设置为false来禁用权限检查的解决方法。现在我可以在HDFS中创建目录。将上述属性设置为false后，我可以访问所有其他hadoop服

hadoop - Hdfs 可以有不同的复制策略吗

我可以在HDFS的不同文件夹中使用不同的复制策略吗？例如，我想复制的文件夹/important_data中的文件是3，但我只想复制的文件夹/normal_data中的文件是1。谢谢! 最佳答案你可以使用setrep来设置复制hadoopfs–setrep–w3-R/my/dir1hadoopfs–setrep–w1-R/my/dir2您也在文件上设置自定义复制。hadoopfs–setrep–w3/my/file这是文档http://hadoop.apache.org/docs/current/hadoop-project-dis

hadoop Hdfs section setrep

java - 使用JAVA将字节流传输到HDFS

是否可以使用某些Web服务将文件直接上传到HDFS空间。我试图将文件写入本地系统并将其移动到HDFS。最佳答案 WebHDFS提供RESTAPI以支持所有文件系统操作。虽然不能直接上传。它必须遵循两个步骤在hdfs位置创建文件http://:/webhdfs/v1/?op=CREATE写入该文件-通过指定您的localfilepath你想在标题中上传http://:/webhdfs/v1/?op=CREATE在此处引用APIWebHDFSapis 关于java-使用JAVA将字节流传输

java section code strong hadoop hdfs

hadoop - 建立在 HDFS 之上的 Apache HAWQ 安装

我想安装基于Hadoop的ApacheHAWQ。在安装HAWQ之前，我应该安装Hadoop并配置我所有的节点。我有四个节点如下，我的问题是一样的。我应该为hawq-master安装一个hadoop发行版吗？1.hadoop-master//namenode,SecondaryNamenode,ResourceManager,HAWQStandby,2.hawq-master//HAWQMaster3.datanode01//Datanode,HAWQSegment4.datanode02//Datanode,HAWQSegment如上我在节点旁边写了每个节点的作用。在我看来，我应该为h

hadoop Apache master code hawq

scala - 如何删除以 Apache Spark 中的某个单词开头的多个 hdfs 目录

我使用dstream.saveAsObjectFiles("/temObj")方法在sparkstreaming中保存了对象文件，它在hdfs中显示了多个文件。temObj-1506338844000temObj-1506338848000temObj-1506338852000temObj-1506338856000temObj-1506338860000我想在全部读取后删除所有temObj文件。在spark.js中做这件事的最佳方式是什么？我试过了valhdfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI("hdfs://

除以单词 code section temObj scala hadoop apache-spark hdfs spark-streaming

hadoop - Hdfs 文件行数

有没有办法像我们一样在JAVA中计算HDFS目录的行数在命令提示符下执行以下命令？hadoopfs-cat/abc/def/*|wc-l特别是使用HADOOPAPI而不是编写map-reduce或spark代码。最佳答案像这样的东西应该可以工作:-importjava.io.BufferedReader;importjava.io.FileInputStream;importjava.io.FileNotFoundException;importjava.io.IOException;importjava.io.InputStr

hadoop Hdfs import section mapreduce bigdata

hadoop - Hive 和 Impala 以及它们与 HDFS 的交互

尽管多年来一直使用传统数据库，但我相信我对Hive和Impala如何与HDFS交互(或者HDFS本身如何工作!)存在根本性的误解，并希望得到一些建议。只是为了说明我的想法:在Windows上，当我创建一个文件(比如bob.txt)时，该文件存储在“文件系统”(NTFS)上。现在，无论我使用Windows资源管理器、命令提示符还是其他软件，我总是会看到bob.txt，因为它存在于“文件系统上”并且所有软件都可以访问该文件系统。在我使用RedHat上的Cloudera与HDFS进行新手交互时，我认为它的工作方式与上一段中所述不完全相同。例如，在使用Hue时，如果我在“Hive查询编辑器

hadoop Impala section Hive filesystems hdfs

mongodb - 将数据从mongodb迁移到hdfs

我是数据工程的新手。我正在尝试为大数据项目设置环境。截至目前，我已经安装了hadoop、mongodb、hive和spark。现在我想尝试模拟以查看mongodb和hadoop之间的交互。我的mongodb中已经有数据。所以我想将数据迁移到hadoophdfs中。是否可以？我读了很多关于它的解释，但不明白迁移的想法。任何人都可以用简单的方式解释如何做吗？因为我是这个领域的初学者。最佳答案如果您已经在Mongo中有数据，我建议使用SparkSQLwithMongo加载您集合的DataFrame对象，我们称它为df。例如SparkS

mongodb hdfs section code apache-spark hadoop hive

hadoop - 是否可以让 Nifi 放入多个 HDFS 文件夹？

我需要将一堆json文件流式传输到Nifi，然后它会转到HDFS。Nifi需要查看json文件中的创建日期(UNIX格式)，然后将其路由到相应的HDFS文件夹。到目前为止，我的处理器设置如下:使用Kafka->RouteOnContent(使用正则表达式^"creationDate":\"[0-9]{4}-[0-9]{2}-[0-9]{2}$)->PutHDFS每天都有一个HDFS文件夹，如“2019-01-28”、“2019-01-29”、“2019-01-30”等。但是，“PutHDFS”处理器只会输出到一个单个目录，我显然不想拥有365个处理器。据我所知，Nifi没有办法动态创建

放入 hadoop section nifi apache hdfs apache-nifi

apache-spark - HDFS 中的数据节点是否与 Spark 集群中的执行程序节点相同？

我正在学习ApacheSpark和HDFS。尽管我对一件事感到困惑，但我大部分都理解它们。我的问题是:HDFS中的数据节点是否与spark集群中的执行程序节点相同？换句话说，HDFS中的节点是在对它们包含的数据进行操作，还是来自HDFS中的数据节点的数据被发送到对数据进行操作的spark集群中的执行程序节点？如果您想让我澄清任何事情，请告诉我!任何帮助将非常感激!谢谢，泰勒最佳答案我总是先从独立的角度思考这些概念，然后再从集群的角度考虑。考虑到单台机器(并且您还将在本地模式下运行Spark)，DataNode和NameNode只

apache-spark apache code strong section hadoop mapreduce hdfs

146 147 148149150 151 152