hdfs_rtp

hadoop - 集群重启后 HDFS 显示 0 个 block

我已经设置了一个用于测试/学术建议的小型集群，我有3个节点，其中一个节点同时充当名称节点和数据节点(以及辅助名称节点)。我已经上传了60GB的文件(大约650万个文件)并且上传开始变得非常慢，所以我在网上看到我可以停止主机上的辅助名称节点服务，目前它没有效果在任何事情上。在我重新启动所有3台计算机后，我的两个数据节点显示0个block(尽管在Web界面中显示磁盘使用情况)，即使两个名称节点服务都在运行。有问题的节点之一也是运行名称节点的节点，所以我猜这不是网络问题。关于如何让这些block再次被识别的任何想法？(无需重新开始，大约需要两周时间才能全部上传)更新半小时后，再次重启后，日志

hadoop - Apache Tika 无法解析 HDFS 文件

test-on-Unixwithinternettest-onSparkwithoutinternet我正在使用Tika库来解析存储在Hadoop集群中的文档。我正在使用以下代码:-importtikaimporturllib3fromtikaimportparserdata=parser.from_file("hdfs://localhost:50070/user/sample.txt")在linux上，如果我提供本地路径，tika能够解析，但对于hdfs路径，我得到一个SparkI/Oerror:Nosuchfileordirectory.任何线索/替代方案都会非常有帮助。

hadoop Apache section code strong pyspark hdfs apache-tika

hadoop - 将文件从本地复制到hdfs

我正在尝试将文件从本地计算机复制到hdfs。我正在使用此命令hadoopfs-putDesktop/unsedcubes.txt/user/file我得到这个异常(exception)-put:java.net.UnknownHostException:sandbox.hortonworksUsage:hadoopfs[genericoptions]-put[-f][-p][-l]...我尝试使用-copyFromLocal命令，但遇到相同的异常-copyFromLocal:java.net.UnknownHostException:sandbox.hortonworksUsage:h

hadoop hdfs code section bigdata

hadoop - 无法从远程客户端连接到 HDFS 数据节点

我目前正在试验使用Hadoop2.3.0构建的遗留应用程序(我知道..不要问)。只要我在与单节点hadoop部署相同的机器上运行客户端，一切都运行良好。现在我将客户端应用程序转移到本地网络上的另一台机器上，我无法连接到数据节点。2018-04-0214:33:29.661/ISTWARN[hadoop.hdfs.BlockReaderFactory]I/Oerrorconstructingremoteblockreader.java.net.ConnectException:Connectionrefusedatsun.nio.ch.SocketChannelImpl.checkCon

hadoop HDFS java BlockReaderFactory

hadoop - 使用 Apache Solr 导入或索引 Hive/HDFS 数据

我想使用ApacheSolr导入或索引存储在HDFS上的Parquet文件中的Hive表。据我所知，第一步是将数据导入或索引到solr，但我对此知之甚少。这些是我的问题:选择哪种方式:DataImportHandler(DIH),HTTP?Solr4.9支持索引HDFS，有什么不同？环境:solr4.10+CDH5.11请帮忙。最佳答案尝试以下:-1.)在hive中创建一个基表hive>创建表solrinput3(用户名字符串)行格式分隔字段以','结尾；2.)将示例数据加载到表“solrinput3”中，如下所示:hive>i

hadoop Apache section solr hive lucene

apache-spark - spark 中的 Hdfs 文件访问

我正在开发一个应用程序，我从hadoop读取一个文件，处理并将数据存储回hadoop。我很困惑什么应该是正确的hdfs文件路径格式。从sparkshell读取hdfs文件时，如valfile=sc.textFile("hdfs:///datastore/events.txt")它工作正常，我能够阅读它。但是当我将jar加到包含相同代码集的yarn时，它给出了错误提示org.apache.hadoop.HadoopIllegalArgumentException:Uriwithoutauthority:hdfs:/datastore/events.txt当我将名称节点ip添加为hdfs:

spark apache-spark section hdfs code hadoop spark-submit

scala - 写入 HDFS - hive 时如何控制 Spark 流中的行数和/或输出文件大小？

使用SparkStreaming读取和处理来自Kafka的消息并写入HDFS-Hive。由于我希望避免创建许多垃圾文件系统的小文件，我想知道是否有办法确保最小文件大小和/或强制文件中输出行数最少的能力，除了超时。谢谢。最佳答案据我所知，无法控制输出文件中的行数。但是您可以控制输出文件的数量。控制它并考虑您的数据集大小可能会帮助您满足您的需求，因为您可以计算输出中每个文件的大小。您可以使用coalesce和repartition命令执行此操作:df.coalesce(2).write(...)df.repartition(2).w

scala Spark code section repartition apache-spark hadoop apache-kafka spark-streaming

hadoop - 使用hdfs目录建表时如何指定时间戳格式

我的hdfs存储中的path/to/file中有以下csv文件。1842,10/1/20170:027424,10/1/20174:06我正在尝试使用以下命令创建一个表:createexternaltablet(numberstring,reported_timetimestamp)ROWFORMATdelimitedfieldsterminatedBY','LOCATION'path/to/file';我可以在impala查询编辑器中看到t表中的reported_time列始终为空。我想这是因为我的时间戳不是可接受的时间戳格式。问题:如何指定时间戳列应为dd/mm/yyyyhh:mi

hadoop hdfs code section reported_time hive cloudera impala

hadoop - hdfs ls on directory 返回 No such file or directory 错误

HDFSls在以下两个目录上返回Nosuchfileordirectory错误。[mybox]$hdfsdfs-ls/data/tdc/dv1/corp/base/dpp/raw/load_date=2018-05-01/|grepTenantdrwxr-xr-x-tdcdv1rtdcdv1c02018-05-0118:28/data/tdc/dv1/corp/base/dpp/raw/load_date=2018-05-01/rtng_ky=Access.NBNOrder.Amend.Info.{Tenant}.Rejected.v2.eventdrwxr-xr-x-tdcdv1rt

directory hadoop section load_date Tenant filesystems hdfs

mysql - 在 Cloudera 中使用 sqoop 将数据从 HDFS 导出到 mysql 时作业失败

我正在导出HDFS位置/user/training/sqoop_import/departments_export目录中存在的departments_export文件的HDFS数据。以下是文件中的记录。2,Fitness3,Footwear4,Apparel5,Golf6,Outdoors7,FanShop8,Development1000,Admin1001,Books我想将数据导出到名为departments_export(department_idint,department_namevarchar)的mysql表中。此表已包含以下数据mysql>select*fromdepar

mysql Cloudera DFSOutputStream java DataStreamer hadoop sqoop

143 144 145146147 148 149