草庐IT

hadoop - 在本地运行 Hadoop,在 VM 中访问 HDFS。找不到本地文件

为什么HDFS不能从我的本地机器读取文件?此异常中的路径似乎表明它正在从我的笔记本电脑(而不是VM)读取,但找不到该文件。ls显示它确实存在(见底线)。请让我知道我可以提供更多信息!java.io.FileNotFoundException:Filefile:/Users/rose/bigdata/4/data/data.txtdoesnotexistatorg.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:468)atorg.apache.hadoop.fs.FilterFileSy

scala - 在 Spark 中加入两个 HDFS 文件

我想使用sparkshell连接来自HDFS的两个文件。这两个文件都是制表符分隔的,我想加入第二列尝试过的代码但不给出任何输出valny_daily=sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock/NYSE_daily"))valny_daily_split=ny_daily.map(line=>line.split('\t'))valenKeyValuePair=ny_daily_split.map(line=>(line(0).substring(0,5),line(3).toInt))valny_divid

hadoop - reducer 的输出发送到 HDFS,其中 map 输出存储在数据节点本地磁盘中?

我对HDFS存储和数据节点存储有点困惑。以下是我的疑惑。Map函数输出将保存到数据节点本地磁盘,reducer输出将发送到HDFS。众所周知,数据block存储在数据节点本地磁盘中有没有数据节点中可用于HDFS的其他磁盘空间??reducer输出文件(part-nnnnn-r-00001)的物理存储位置是什么?它会存储在名称节点硬盘中吗?所以我假设数据节点是HDFS的一部分,我假设数据节点本地磁盘也是HDFS的一部分。问候苏雷什 最佳答案 您必须知道虚拟概念和实际存储之间的区别。HDFS(Hadoop分布式文件系统)只是指定数据将如

Hue 中的 hadoop.hdfs_clusters.default.webhdfs_url 错误

任何人都可以帮我解决这个色调错误。Currentvalue:http://localhost:50070/webhdfs/v1Failedtocreatetemporaryfile"/tmp/hue_config_validation.15785472045199379485"仅供引用,我使用的是ClouderaManager5.1.3和Hue3.6。 最佳答案 好的,我自己解决问题。错误原因是NameNode处于安全模式。此命令将使您的Namenode离开安全模式。sudo-uhdfshdfsdfsadmin-safemodele

java - 5 个 150 MB 的文件在 hdfs 中有多少 block

假设有5个文件,每个文件大小为150MB。现在,当我将这些文件放入hdfs(block大小为64mb)时,每个文件和总block数将是多少block。还有所有文件的拆分次数。以及有多少映射器 最佳答案 每个文件将有3个block(64mb、64mb、32mb)。所以总block数5*3=15因此拆分数将为15。因此映射器数(如果使用FileInputFormat)=15。解释:HDFSdonottakeanentireblocktostoreafilewithsize·Clientwillwritedateintoit·Afterw

hadoop - HDFS 可以复制到其他集群吗?

HDFS正在复制到同一个集群中的事实3。这很好,但是有没有办法设置HDFS以便它也可以复制到不同的集群/服务器?假设1个复制到同一个集群,另一个复制到另一个HDFS集群中的某个地方。如果HDFS不支持此功能,是否有任何围绕Hadoop的工具允许我们这样做?你们如何在其他服务器上进行复制? 最佳答案 目前没有任何机制可以满足您的要求。HBase实现了跨集群复制,HDFS还没有实现。有一个plantosupportHDFS中的跨数据中心复制,但尚未实现。您可以使用distcp定期将数据复制到另一个集群的机制。这将在每个集群上放置3个副本

sqlite - 如何将SQLite数据库导入Hadoop HDFS

我想将SQLite数据库导入到hadoophdfs中。这些数据库来自移动应用程序数据库,我想每天将多个数据库导入HDFS。 最佳答案 您可以尝试使用Sqoop将您的数据库导入到HDFS。试试这个(在安装sqoop并进行必要的配置之后):sqoopimport--connectjdbc:sqlite:/path/to/database/databasename.db--tabletablename--m1--target-dir/directory/name/in/hdfs--driverorg.sqlite.JDBCNOTE:You

java - 错误 : Could not find or load main class org. apache.hadoop.hdfs.server.datanode.DataNode

我是apachehadoop的新手。我正在安装多节点集群,但出现两个错误。我不知道这些是什么类型的错误以及它们产生的原因。我在谷歌上搜索了很多关于这些错误的信息,但我无法找出错误产生背后的原因。Error:Couldnotfindorloadmainclassorg.apache.hadoop.util.PlatformNameError:Couldnotfindorloadmainclassorg.apache.hadoop.hdfs.server.datanode.DataNode这两个错误都是由于datanode或slaves引起的。我需要知道错误的种类、产生的原因以及如何解决它

hadoop - Hadoop HDFS 中的数据保留

我们有一个Hadoop集群,在HDFS中有超过100TB的数据。我想删除某些Hive表中超过13周的数据。有什么工具或方法可以实现这一目标吗?谢谢 最佳答案 要删除特定时间段之前的数据,您有几种选择。首先,如果Hive表按日期分区,您可以简单地删除Hive中的分区并删除它们的底层目录。第二个选项是对新表运行INSERT,使用日期戳(如果可用)过滤掉旧数据。这可能不是一个好的选择,因为您有100TB的数据。第三种选择是递归列出Hive表的数据目录。hadoopfs-lsr/path/to/hive/table.这将输出文件列表及其创建

hadoop - 从 ambari 管理器获取核心站点和 hdfs 站点的位置

我需要能够找到Ambari管理器正在使用的core-site.xml和hdfs-site.xml的位置。我最初的想法是查询AmbariAPI来执行此操作,但我找不到任何端点可以返回这两个文件中任何一个的路径。谁能指出我正确的方向?我一直在浏览Ambari文档和谷歌搜索,但无济于事。提前致谢!~德鲁 最佳答案 这些服务的配置目录是静态的。它们在服务定义内的params.py文件中定义。例如,在Ambari2.0中,您可以在以下位置查看HDFS服务定义params.py文件:/var/lib/ambari-server/resource