hdfs_clusters

hadoop - 我们如何从 HDFS 中删除特定行？

我们有大量包含客户信息的文本文件。我们必须从这个HDFS文件中删除特定的行；例如，与客户X、Y和Z关联的行并保留其他行。最佳答案首先在该hdfs位置的顶部创建一个配置单元表，然后使用过滤器逻辑从第一个配置单元表创建另一个配置单元表。现在删除第一个配置单元表。确保表应该是内部的。关于hadoop-我们如何从HDFS中删除特定行？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/

hadoop - Kafka Connect HDFS 接收器与 Azure Blob 存储

我想使用KafkaHDFS接收器连接器连接到AzureBlob存储。到目前为止我已经做了:设置kafka-connect属性:hdfs.url=wasbs://hadoop.conf.dir={hadoop_3_home}/etc/hadoop/hadoop.home={hadoop_3_home}并且在core-site.xml中添加了对wasbs的支持:fs.wasbs.implorg.apache.hadoop.fs.azure.NativeAzureFileSystem导出HADOOP_CLASSPATH变量，添加到PATH但是无论如何，Hadoop找不到类-NativeAzu

Connect hadoop code section apache-kafka azure-blob-storage apache-kafka-connect

mysql - Sqoop - 在导入到 HDFS 之前操作 Mysql 表

是否可以在MYSQL中选择特定列或其他条件编辑表，在导入HDFS之前另存为MYSQL数据库中的新表？最佳答案是的，我们可以在将新表导出到HDFS之前将其保存到MySQL。我们也可以使用vi编辑器编辑文件并将其导出到HDFS。但是使用sqoop会容易得多。关于mysql-Sqoop-在导入到HDFS之前操作Mysql表，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/48408

mysql Sqoop section HDFS stackoverflow hadoop

hadoop - 无法使用 gethue/hue docker 镜像配置 HDFS 地址

我试图从gethue/hue获取Huedocker镜像，但它似乎忽略了我给他的配置，总是在本地主机上寻找HDFS，而不是我让他寻找的docker容器。这里是一些上下文:我正在使用以下dockercompose启动HDFS集群:hdfs-namenode:image:bde2020/hadoop-namenode:1.1.0-hadoop2.7.1-java8hostname:namenodeenvironment:-CLUSTER_NAME=davidovports:-"8020:8020"-"50070:50070"volumes:-./data/hdfs/namenode:/had

hadoop gethue code docker hdfs hue

hadoop - 在docker上的Cloudera QuickStart中扩展HDFS内存

我尝试使用ClouderaQuickStartDockerImage，但hdfs上似乎没有可用空间(0字节)。启动容器后dockerrun--hostname=$HOSTNAME-p80:80-p7180:7180-p8032:8032-p8030:8030-p8888:8888-p8983:8983-p50070:50070-p50090:50090-p50075:50075-p50030:50030-p50060:50060-p60010:60010-p60030:60030-p9095:9095-p8020:8020-p8088:8088-p4040:4040-p18088:18

QuickStart Cloudera section code hdfs hadoop docker

linux - 如何在 hdfs 命令中传递 awk 变量

这个问题在这里已经有了答案:HowdoIuseshellvariablesinanawkscript?(9个回答)关闭4年前。我正在使用以下命令列出大于N天的文件/目录DATE=`date+%Y-%m-%d`dt=`date--date"$dt"+%Y%m%d`loop_dt=`date-I--date"$dt-1day"`***outputofloop_dt=2018-02-25***hdfsdfs-lsr/path/|awk'$6我知道上面的hdfs命令是错误的，但我想在awk命令中传递loop_dt变量，以了解早于n天的文件列表注意:如果我在awk命令中硬编码日期，我会得到结果

何在传递 section loop_dt notice linux bash hadoop awk hdfs

hadoop - 集群重启后 HDFS 显示 0 个 block

我已经设置了一个用于测试/学术建议的小型集群，我有3个节点，其中一个节点同时充当名称节点和数据节点(以及辅助名称节点)。我已经上传了60GB的文件(大约650万个文件)并且上传开始变得非常慢，所以我在网上看到我可以停止主机上的辅助名称节点服务，目前它没有效果在任何事情上。在我重新启动所有3台计算机后，我的两个数据节点显示0个block(尽管在Web界面中显示磁盘使用情况)，即使两个名称节点服务都在运行。有问题的节点之一也是运行名称节点的节点，所以我猜这不是网络问题。关于如何让这些block再次被识别的任何想法？(无需重新开始，大约需要两周时间才能全部上传)更新半小时后，再次重启后，日志

hadoop block section noreferrer hdfs

hadoop - Apache Tika 无法解析 HDFS 文件

test-on-Unixwithinternettest-onSparkwithoutinternet我正在使用Tika库来解析存储在Hadoop集群中的文档。我正在使用以下代码:-importtikaimporturllib3fromtikaimportparserdata=parser.from_file("hdfs://localhost:50070/user/sample.txt")在linux上，如果我提供本地路径，tika能够解析，但对于hdfs路径，我得到一个SparkI/Oerror:Nosuchfileordirectory.任何线索/替代方案都会非常有帮助。

hadoop Apache section code strong pyspark hdfs apache-tika

hadoop - 将文件从本地复制到hdfs

我正在尝试将文件从本地计算机复制到hdfs。我正在使用此命令hadoopfs-putDesktop/unsedcubes.txt/user/file我得到这个异常(exception)-put:java.net.UnknownHostException:sandbox.hortonworksUsage:hadoopfs[genericoptions]-put[-f][-p][-l]...我尝试使用-copyFromLocal命令，但遇到相同的异常-copyFromLocal:java.net.UnknownHostException:sandbox.hortonworksUsage:h

hadoop hdfs code section bigdata

hadoop - 无法从远程客户端连接到 HDFS 数据节点

我目前正在试验使用Hadoop2.3.0构建的遗留应用程序(我知道..不要问)。只要我在与单节点hadoop部署相同的机器上运行客户端，一切都运行良好。现在我将客户端应用程序转移到本地网络上的另一台机器上，我无法连接到数据节点。2018-04-0214:33:29.661/ISTWARN[hadoop.hdfs.BlockReaderFactory]I/Oerrorconstructingremoteblockreader.java.net.ConnectException:Connectionrefusedatsun.nio.ch.SocketChannelImpl.checkCon

hadoop HDFS java BlockReaderFactory

154 155 156157158 159 160