Hdfs

hadoop - 将数据从 HDFS 加载到 Hive 时出现问题

场景1:在配置单元中创建表时提供自定义位置，然后使用“从本地复制”命令加载数据。下面的过程是直接将数据加载到我的表中。但是当我使用默认位置使用“从本地复制”命令加载数据时，方案2不起作用。因为它执行时没有任何错误，但没有加载我的表。场景1命令的链接---Scenario1Commands--这是将数据加载到表中。Scenario2Commands--将场景1的位置路径替换为默认配置单元路径--但未加载数据。最佳答案使用下面的命令找到文件需要复制到的确切位置hive-e'describeformattedEmployee'如果

时出 hadoop section code 中创 hive hiveql

hadoop - MapReduce 处理如何与本地文件系统一起工作？

如果输入/输出来自本地文件系统，MapReduce处理如何工作？MapReduce作业执行是否跨Hadoop集群异步发生？如果是，那是如何发生的？在哪个用例中，我们真的需要使用这种方法吗？最佳答案 MapReduce在本地系统中的工作原理相同(mapper->reducer)(只是它的效率问题，因为它在本地系统而不是集群中效率较低)。是的，MapReduce作业执行在Hadoop集群中异步发生(这取决于您在mapreduce程序中使用的调度器类型)点击formoreaboutscheduler在大多数情况下，这用于测试目的(在本地

MapReduce hadoop section hdfs

hadoop - 由于 tmp 文件夹权限，Snappy 压缩无法正常工作

每当我尝试使用pig、Sqoop或Spark以压缩格式存储数据时，我都会遇到问题。我知道问题出在将我们的tmp文件夹安装到nonexec上，这导致例如snappy给我这个错误:java.lang.IllegalArgumentException:java.lang.UnsatisfiedLinkError:/tmp/snappy-1.1.2-fe4e30d0-e4a5-4b1a-ae31-fd1861117288-libsnappyjava.so:/tmp/snappy-1.1.2-fe4e30d0-e4a5-4b1a-ae31-fd1861117288-libsnappyjava.s

hadoop Snappy section HADOOP_OPTS blockquote hdfs sqoop

hadoop - 无法删除 HDFS 损坏的文件

我无法删除我的HDFS中存在的损坏文件。Namenode已进入安全模式。区block总数为980，其中978已报告。当我运行以下命令时，sudo-uhdfshdfsdfsadmin-report生成的报告是，SafemodeisONConfiguredCapacity:58531520512(54.51GB)PresentCapacity:35774078976(33.32GB)DFSRemaining:32374509568(30.15GB)DFSUsed:3399569408(3.17GB)DFSUsed%:9.50%Underreplicatedblocks:0Blockswit

hadoop HDFS code blocks quickstart hbase cloudera namenode

java - 在运行时更改 Hadoop 用户名不起作用

我写了一个小的Hadoop客户端Java应用程序，它列出了HDFS(不安全)中的所有文件和Hive中的所有表，以及更多内容。但是，我需要在运行时更改Hadoop用户名。通过System.setProperty("HADOOP_USER_NAME","testuser");设置名称在我第一次需要这个用户名时工作正常。但是当我想将用户名更改为例如System.setProperty("HADOOP_USER_NAME","hdfs");我得到一个异常(在将hadoop用户名设置为hdfs之后，如上所示):org.apache.hadoop.security.AccessControlExc

Hadoop java section code HADOOP_USER_NAME hdfs

java - 映射输出记录和减少输入记录之间的关系是什么

我有这个hadoop程序:importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Mapper;importorg.apache.hadoop.mapred

java 记录 mapreduce mapred INFO hadoop hdfs hadoop2

hadoop - 为什么 alluxio 文件一直保持 TO_BE_PERSISTED 状态

我已经部署了一个基于HDFS集群的Alluxio集群。当我使用AlluxioNativeJavaApi将一些文件写入Alluxio并设置writetypeASYNC_THROUGH时，文件(即使只有1G)似乎没有写入HDFS，几天后一直保持TO_BE_PERSISTED状态。最佳答案我找到了答案。我发现日志“错误DefaultAsyncPersistHandler-并非所有文件block/test/sample_data/order_detail_titile_2.0.txt都存储在同一个worker上”，当使用ASYNC_TH

TO_BE_PERSISTED PERSISTED section Alluxio 拦截器 hadoop hdfs

Hadoop 2.9.0 - hadoop namenode -format 和 hdfs-site.xml dfs.namenode.name.dir

我的第一个问题，我会尽量不把事情搞砸:)出于学习目的，我正在4节点集群上安装Hadoop2.9.0。我已经按照官方ApacheHadoop2.9.0文档和一些谷歌页面开始安装/配置名称节点。我像这样编辑了位于$HADOOP_HOME/etc/hadoop目录下的hdfs-site.xml:dfs.namenode.name.dirfile:///apps/hdfs/namenode/datadfs.datanode.data.dirfile:///apps/hdfs/datanode/datadfs.namenode.checkpoint.dirfile:///apps/hdfs/na

namenode hdfs-site hadoop section gt hdfs

hadoop - docker 中的 yarn - __spark_libs__.zip 不存在

我浏览了thisStackOverflow帖子，但它们对我帮助不大。我正在尝试让Yarn在现有集群上运行。到目前为止，我们一直在使用sparkstandalonemanger作为我们的资源分配器，它一直按预期工作。这是我们架构的基本概述。白框中的所有内容都在docker容器中运行。从master-machine我可以从yarn资源管理器容器中运行以下命令并运行一个使用yarn的spark-shell:./pyspark--masteryarn--驱动程序内存1G--executor-memory1G--executor-cores1--conf"spark.yarn.am.memory

spark_libs hadoop gt lt property apache-spark docker hdfs hadoop-yarn

ubuntu - Hadoop 集群不启动

我刚刚设置了一个hadoop集群(名称节点+一个数据节点)。但是，当我尝试启动hdfs时出现以下错误:hadoop@namenode:/opt/hadoop-2.2.0$start-dfs.sh14/01/3020:18:50WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicableStartingnamenodeson[JavaHotSpot(TM)64-BitServerVMwarning:Youhaveload

ubuntu Hadoop not hostname resolve hdfs

36 37 383940 41 42