hdfs_rtp_草庐IT

hadoop - 为什么HDFS中的 block 大小在所有DataNode中都一致？

继续提问:datablocksizeinHDFS,why64MB?我知道在分发中的所有数据节点中，HDFS中的块大小为一致/相同(大小取决于配置)。我的问题是:为什么此块大小在所有NameNode中保持一致？我问这个问题是因为，我有10个高端处理机作为DataNode，还有20个低端硬件。如果我们在这10台计算机的HDFS中保留更高块的块，它可以更快地处理吗？另外，NameNode具有元数据以标识DataNode中的块，因此机器之间块大小不一致的问题是什么？最佳答案 letsayIhave10higherendprocessing

DataNode hadoop strong 的偏斜 hdfs hadoop2

postgresql - 如何将 Postgres(二进制或文本)转储文件导入 Spark 或 HDFS？

我想在Spark中使用Postgres(二进制或文本)转储文件，想知道如何导入它？我知道我们可以使用Sqoop将Postgres导入HDFS，并且我可以从Spark访问HDFS，但是如果我只有转储文件怎么办？我是否必须先将其恢复到Postgres数据库中？我宁愿不要。最佳答案使用pg_restore--data-only-tmy_tabledb.dump你应该得到制表符分隔的文本，其中包含一些注释和一些额外的命令，过滤掉你不需要的一切会很简单'不想将该文件写入HDFS。然后就是将该文件作为CSV文件从Spark或MapReduc

postgresql Postgres section 该文 hadoop apache-spark hdfs sqoop

hadoop - 错误 org.apache.hadoop.hdfs.server.datanode.DataNode : RECEIVED SIGNAL 15: SIGTERM

在我的主节点中运行Hive查询时，我遇到了一些严重的问题。我有3个集群设置(1个名称节点，2个数据节点)。版本:Hadoop:2.7.3hive:2.1.0Java:openjdk版本“1.8.0_111”操作系统:ubuntu16.04.1环境:亚马逊EC2我已经在主节点中安装了Hive，并使用start-dfs.sh和start-yarn.sh从主节点启动了所有守护进程。我检查了主节点和从节点中的所有守护进程，都运行良好。当我连接到Hive并运行示例查询时，主节点中的所有守护进程都停止运行，但数据节点中的守护进程仍在运行。请从hadoop-hduser-datanode-namen

hadoop DataNode 1479972457866 hive

hadoop - 从 Hadoop Streaming 读取 HDFS 上的 Snappy 压缩数据

我的HDFS系统中有一个文件夹，其中包含使用Snappy编解码器压缩的文本文件。通常，在HadoopStreaming作业中读取GZIP压缩文件时，会自动解压。但是，使用Snappy压缩数据时不会发生这种情况，我无法处理数据。我如何读取这些文件并在HadoopStreaming中处理它们？非常感谢。更新:如果我使用命令hadoopfs-textfile它会起作用。该问题仅在使用hadoop流时发生，数据在传递到我的python脚本之前未解压缩。最佳答案你有没有在core-site配置snappycodec，比如:io.compr

Streaming hadoop section code hdfs hadoop-streaming compression snappy

hadoop - HDFS block 分布可视化

我正在尝试创建集群的HDFSblock分布的可视化。我计划使用Tableau创建这个，但想知道哪种类型的可视化能够让您了解哪些节点需要重新平衡，以及将服务器日志数据导入tableau的有效方式？最佳答案在投入太多时间之前，您可能想看看Twitter的开源HDFS-DU项目。这提供了基于文件系统内的路径而不是集群内的DataNode的利用率View，但也许这对您的需求仍然有帮助。如果目标只是识别需要重新平衡的节点，那么可以在NameNode网络用户界面的“数据节点”选项卡上访问此信息。你也可以运行hdfsdfsadmin-repo

hadoop block 34 section hdfs tableau-api

hadoop - 将文件从不安全的 hdfs 传输到安全的 hdfs 集群

我想将文件从不安全的HDFS集群传输到kerberized集群。我正在使用distcp来传输文件。我使用了以下命令。hadoopdistcp-Dipc.client.fallback-to-simple-auth-allowed=truehdfs://:8020/hdfs://:8020/在kerberized集群中执行上述命令后出现以下错误。java.io.EOFException:EndofFileExceptionbetweenlocalhostis:"";destinationhostis:";:java.io.EOFException;Formoredetailssee:ht

hdfs 从不 section distcp hadoop kerberos

hadoop - 如何在 Windows 机器上配置 HDFS CLI？

有一个CLI工具可以直接在HDFS文件系统上使用。这是GitHubLink我使用的是Windows机器，我使用Putty终端连接集群中的HDFS。我遇到了上面的github链接，我希望HDFSCLI工具与putty集成。我确实浏览了链接，作者要求配置几个环境变量以使该工具正常工作。我对配置它们很困惑。我已经将二进制文件下载到我的Windows机器上。我应该配置Windows环境变量吗？如果我这样做，当我用来从Putty连接集群时，此更改将如何影响Putty终端。你们中的任何人都可以调查一下并详细回答以集成该工具吗？感谢您的帮助。最佳答案

何在 Windows section Putty hadoop hdfs command-line-interface bigdata

mysql - 从 HDFS 读取到 Spark

我正在尝试将文件从HDFS读取到Spark中并对其执行一些数据处理。最初，我使用Sqoop将文件从MySQL数据库传输到Spark。SQL数据库表具有三列-movieid、title和genres。我想知道我应该如何格式化sc.textFile以正确提取文件。运行hdfsdfs-ls，我看到:drwxr-xr-x-hduser1supergroup02017-03-2023:51movies运行hdfsdfs-ls电影，我看到:-rw-r--r--1hduser1supergroup02017-03-2023:51movies/_SUCCESS-rw-r--r--1hduser1sup

mysql Spark section code pre hadoop apache-spark sqoop

shell - 在 HDFS 中查找文件的行数以与 QC 文件中的行数进行比较

我在HDFS中加载了一个数据文件和一个qc文件，我想比较QC文件中存在的计数和数据文件行计数。为此，我编写了一个shell脚本，它提取QC文件的计数部分并对数据文件执行wc-l。对于质量检查文件:qccount=$(webhdfs-cathdfs://${CLUSTER_NAME}$hdfs_src_path/$directory/$qc_file_name|cut-d"|"-f2)echo"QC文件计数:$qccount";这会将计数打印为256341对于数据文件:file_count=$(webhdfs-cathdfs://${CLUSTER_NAME}$hdfs_src_path

shell HDFS code section hadoop webhdfs

hadoop - HDFS 中使用的术语是否清晰？

我在熟悉HDFS的过程中遇到了几个术语。很少有术语像:namespace、metadata、transactionlogs、fsimage、editlogs.有时似乎所有这些术语描述的是同一件事，即“有一些信息”，但我对此不太清楚。一般来说，metadata是指关于数据的数据，那么metadata是指所有这些术语，还是所有这些术语在HadoopHDFS上下文中都有不同的用途？最佳答案命名空间:在hadoop中，“命名空间”是指文件名及其路径由名称节点维护。元数据:它包括文件名、大小、权限等...此元数据存储在名为fsimage的

hadoop HDFS strong code section metadata hadoop2 namenode