草庐IT

hdfs_clusters

全部标签

hadoop - 使用 Nifi 将文件从 SFTP 服务器复制到 HDFS

我正在尝试从SFTP服务器加载包含225GB(文件数量约为1,75,000)的庞大数据,并将数据复制到HDFS。为了实现上述场景,我们使用了2个处理器。GetSFTP(从SFTP服务器获取文件)已配置处理器->递归搜索=true;使用自然排序=true;远程轮询批量大小=5000;并发任务=32.PutHDFS(将数据推送到HDFS)已配置的处理器->并发任务=3;冲突解决策略=replace;Hadoop配置资源;目录但是一段时间后,数据复制停止并且它的大小在HDFS中没有更新。当我在GetSFTP中将RemotePollBatchSize配置设置为5000->推送到HDFS的总数据

apache-spark - 如何将托管在 HDFS 中的配置文件传递给 Spark 应用程序?

我正在使用SparkStructuredStreaming。另外,我正在使用Scala。我想将配置文件传递给我的spark应用程序。此配置文件托管在HDFS中。例如;spark_job.conf(HOCON)spark{appName:"",master:"",shuffle.size:4etc..}kafkaSource{servers:"",topic:"",etc..}redisSink{host:"",port:999,timeout:2000,checkpointLocation:"hdfslocation",etc..}如何将它传递给Spark应用程序?我如何在Spark中

docker - Hue 访问 HDFS : bypass default hue. ini?

设置我正在尝试使用bde2020提供的图像组成一个轻量级的最小hadoop堆栈。(学习目的)。现在,堆栈包括(除其他外)一个名称节点数据说明色调基本上,我是从欧洲大数据开始的officialdockercompose,并添加了一个基于theirdocumentation的色调图像问题Hue的文件浏览器无法访问HDFS:Cannotaccess:/user/dav.TheHDFSRESTserviceisnotavailable.Note:youareaHueadminbutnotaHDFSsuperuser,"hdfs"orpartofHDFSsupergroup,"supergrou

hadoop - 无法将现有文件附加到 HDFS

我在VM上运行单节点Hadoop1.2.1集群。我的hdfs-site.xml如下所示:dfs.replication1Defaultblockreplication.dfs.support.appendtrueDoesHDFSallowappendstofiles?现在,当我尝试从Eclipse运行以下代码时,它始终返回false:Configurationconfig=newConfiguration();config.set("mapred.job.tracker","10.0.0.6:54311");config.set("fs.default.name","hdfs://10

hadoop 权限问题 (hdfs-site.xml dfs.permissions.enabled)

我最近在我的机器上安装了Hadoop。我有权限问题。我以用户rahul身份登录并尝试在HDFS中创建目录(hdfsdfs-mkdir/rahul_workspace)。但它给了我一个错误Permissiondenied:user=Rahul,access=WRITE,inode="/user":hdfs:hdfs:drwxr-xr-x。在Google上快速搜索此错误会导致许多响应建议通过将hdfs-site.xml中的dfs.permissions属性设置为false来禁用权限检查的解决方法。现在我可以在HDFS中创建目录。将上述属性设置为false后,我可以访问所有其他hadoop服

hadoop - Hive 中 Cluster By 和 CLUSTERED BY 的区别?

我想知道Hive中ClusterBy和CLUSTEREDBY的主要区别是什么。ClusterBy用于对表进行分桶。并且会用到Hash函数。CLUSTEREDBY用于在reducer中按值排序。还有什么区别吗。请告诉我谢谢文卡特巴拉。 最佳答案 “聚类依据”仅将您的键分布到不同的桶中,“聚类依据”确保N个缩减器中的每一个都获得不重叠的范围,然后在缩减器中按这些范围排序。主要区别在于排序。 关于hadoop-Hive中ClusterBy和CLUSTEREDBY的区别?,我们在StackOve

hadoop - Hdfs 可以有不同的复制策略吗

我可以在HDFS的不同文件夹中使用不同的复制策略吗?例如,我想复制的文件夹/important_data中的文件是3,但我只想复制的文件夹/normal_data中的文件是1。谢谢! 最佳答案 你可以使用setrep来设置复制hadoopfs–setrep–w3-R/my/dir1hadoopfs–setrep–w1-R/my/dir2您也在文件上设置自定义复制。hadoopfs–setrep–w3/my/file这是文档http://hadoop.apache.org/docs/current/hadoop-project-dis

java - 使用JAVA将字节流传输到HDFS

是否可以使用某些Web服务将文件直接上传到HDFS空间。我试图将文件写入本地系统并将其移动到HDFS。 最佳答案 WebHDFS提供RESTAPI以支持所有文件系统操作。虽然不能直接上传。它必须遵循两个步骤在hdfs位置创建文件http://:/webhdfs/v1/?op=CREATE写入该文件-通过指定您的localfilepath你想在标题中上传http://:/webhdfs/v1/?op=CREATE在此处引用APIWebHDFSapis 关于java-使用JAVA将字节流传输

hadoop - 建立在 HDFS 之上的 Apache HAWQ 安装

我想安装基于Hadoop的ApacheHAWQ。在安装HAWQ之前,我应该安装Hadoop并配置我所有的节点。我有四个节点如下,我的问题是一样的。我应该为hawq-master安装一个hadoop发行版吗?1.hadoop-master//namenode,SecondaryNamenode,ResourceManager,HAWQStandby,2.hawq-master//HAWQMaster3.datanode01//Datanode,HAWQSegment4.datanode02//Datanode,HAWQSegment如上我在节点旁边写了每个节点的作用。在我看来,我应该为h

scala - 如何删除以 Apache Spark 中的某个单词开头的多个 hdfs 目录

我使用dstream.saveAsObjectFiles("/temObj")方法在sparkstreaming中保存了对象文件,它在hdfs中显示了多个文件。temObj-1506338844000temObj-1506338848000temObj-1506338852000temObj-1506338856000temObj-1506338860000我想在全部读取后删除所有temObj文件。在spark.js中做这件事的最佳方式是什么?我试过了valhdfs=org.apache.hadoop.fs.FileSystem.get(newjava.net.URI("hdfs://