hdfs_rtp_草庐IT

java - 使用指向 HDFS 的 URI 创建文件实例

是否可以通过将我的HDFS的uri作为File类的构造函数来创建文件实例？例如:valconf=newConfiguration()conf.addResource(hdfsCoreSitePath)conf.addResource(hdfsHDFSSitePath)valuri=conf.get("fs.default.name")valfile=newFile(uri+pathtothefile)然后，对于文件实例，我希望使用File类提供的函数访问文件列表，例如file.list()以返回命名文件和目录的字符串数组此抽象路径名表示的目录。我尝试了代码，但它在file.list()

shell - 按字母顺序从本地复制文件到HDFS - 排序

我需要通过shell脚本将文件从本地文件系统复制到HDFS。假设我的本地系统中有两个文件fewInfo.tsv.gzfewInfo.txt在上面的例子中，fewInfo.tsv.gz应该先复制(s在x之前)到HDFS，然后再复制fewInfo.txt。这可能吗？有人知道将多个文件复制到HDFS时“put”命令如何工作的内部结构吗？我使用的Hadoop版本是Hadoop2.5.0-cdh5.3.1。最佳答案您可以循环遍历目录以查找所有文件，对文件进行排序，然后执行hdfs复制。优点是您可以指定排序的约束条件(例如，按文件名、日期、

shell HDFS code section filename hadoop copy

ubuntu - 从 Pyspark 访问 HDFS 失败

我已经在Ubuntu17.04上安装了Hadoop2.7.3和pyspark2.2.0。Hadoop和Pyspark似乎都可以独立运行。但是，我没有设法从Pyspark中的HDFS获取文件。当我尝试从HDFS获取文件时，出现以下错误:https://imgur.com/j6Dy2u7我在另一篇文章中看到，需要设置环境变量HADOOP_CONF_DIR才能访问HDFS。我也这样做了(见下一个屏幕截图)，但随后出现另一个错误，Pyspark不再工作。https://imgur.com/AMpJ6TB如果我删除环境变量，一切都像以前一样。如何解决在Pyspark中从HDFS打开文件的问题？我

Pyspark ubuntu section https hadoop apache-spark hdfs

hadoop - HDFS 重复出现错误 : Under-Replicated Blocks

我们的Hadoop集群每天都报告有“复制不足的block”。它通过ClouderaManager进行管理。健康警告的一个例子是:!Under-ReplicatedBlocksConcerning:767underreplicatedblocksinthecluster.3,115totalblocksinthecluster.Percentageunderreplicatedblocks:24.62%.Warningthreshold:10.00%.我一直在运行修复问题的命令，但第二天早上警告又回来了，有时没有添加任何新数据。暂时成功的命令之一是hdfsdfs-setrep-R2/*我

Under-Replicated Replicated code section hadoop hdfs cloudera cloudera-manager

hadoop - 我们如何从 HDFS 中删除特定行？

我们有大量包含客户信息的文本文件。我们必须从这个HDFS文件中删除特定的行；例如，与客户X、Y和Z关联的行并保留其他行。最佳答案首先在该hdfs位置的顶部创建一个配置单元表，然后使用过滤器逻辑从第一个配置单元表创建另一个配置单元表。现在删除第一个配置单元表。确保表应该是内部的。关于hadoop-我们如何从HDFS中删除特定行？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/

hadoop HDFS section 配置单 stackoverflow

hadoop - Kafka Connect HDFS 接收器与 Azure Blob 存储

我想使用KafkaHDFS接收器连接器连接到AzureBlob存储。到目前为止我已经做了:设置kafka-connect属性:hdfs.url=wasbs://hadoop.conf.dir={hadoop_3_home}/etc/hadoop/hadoop.home={hadoop_3_home}并且在core-site.xml中添加了对wasbs的支持:fs.wasbs.implorg.apache.hadoop.fs.azure.NativeAzureFileSystem导出HADOOP_CLASSPATH变量，添加到PATH但是无论如何，Hadoop找不到类-NativeAzu

Connect hadoop code section apache-kafka azure-blob-storage apache-kafka-connect

mysql - Sqoop - 在导入到 HDFS 之前操作 Mysql 表

是否可以在MYSQL中选择特定列或其他条件编辑表，在导入HDFS之前另存为MYSQL数据库中的新表？最佳答案是的，我们可以在将新表导出到HDFS之前将其保存到MySQL。我们也可以使用vi编辑器编辑文件并将其导出到HDFS。但是使用sqoop会容易得多。关于mysql-Sqoop-在导入到HDFS之前操作Mysql表，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/48408

mysql Sqoop section HDFS stackoverflow hadoop

hadoop - 无法使用 gethue/hue docker 镜像配置 HDFS 地址

我试图从gethue/hue获取Huedocker镜像，但它似乎忽略了我给他的配置，总是在本地主机上寻找HDFS，而不是我让他寻找的docker容器。这里是一些上下文:我正在使用以下dockercompose启动HDFS集群:hdfs-namenode:image:bde2020/hadoop-namenode:1.1.0-hadoop2.7.1-java8hostname:namenodeenvironment:-CLUSTER_NAME=davidovports:-"8020:8020"-"50070:50070"volumes:-./data/hdfs/namenode:/had

hadoop gethue code docker hdfs hue

hadoop - 在docker上的Cloudera QuickStart中扩展HDFS内存

我尝试使用ClouderaQuickStartDockerImage，但hdfs上似乎没有可用空间(0字节)。启动容器后dockerrun--hostname=$HOSTNAME-p80:80-p7180:7180-p8032:8032-p8030:8030-p8888:8888-p8983:8983-p50070:50070-p50090:50090-p50075:50075-p50030:50030-p50060:50060-p60010:60010-p60030:60030-p9095:9095-p8020:8020-p8088:8088-p4040:4040-p18088:18

QuickStart Cloudera section code hdfs hadoop docker

linux - 如何在 hdfs 命令中传递 awk 变量

这个问题在这里已经有了答案:HowdoIuseshellvariablesinanawkscript?(9个回答)关闭4年前。我正在使用以下命令列出大于N天的文件/目录DATE=`date+%Y-%m-%d`dt=`date--date"$dt"+%Y%m%d`loop_dt=`date-I--date"$dt-1day"`***outputofloop_dt=2018-02-25***hdfsdfs-lsr/path/|awk'$6我知道上面的hdfs命令是错误的，但我想在awk命令中传递loop_dt变量，以了解早于n天的文件列表注意:如果我在awk命令中硬编码日期，我会得到结果

何在传递 section loop_dt notice linux bash hadoop awk hdfs