草庐IT

log_partitioned

全部标签

hadoop - Name node在哪里存储fsImage和edit Log?

我是一名java程序员,正在学习Hadoop。我读到HDFS中的名称节点将其信息存储到两个文件中,即fsImage和editLog。在启动的情况下,它会从磁盘读取此数据并执行检查点操作。但在很多地方我也读到NameNode将数据存储在RAM中,这就是为什么apache推荐具有高RAM的机器作为NameNode服务器。请赐教。它在RAM中存储什么数据?它在哪里存储fsImage和编辑日志?抱歉,如果我问了一些显而易见的问题。 最佳答案 我先回答WhatdatadoesitstoreinRAM&wheredoesitstorefsIma

Hadoop log4j 无法正常工作,因为找不到记录器的附加程序 (org.apache.hadoop.metrics2.lib.MutableMetricsFactory)

我正在使用eclipse开发mapreduce,并尝试使用hadoop2.6.0windows独立模式对其进行测试。但log4j出现以下错误,如何解决下面的appender问题,找不到记录器的附加程序(org.apache.hadoop.metrics2.lib.MutableMetricsFactory)与hadooplog4jnotworking相同的问题但还没有答案谢谢, 最佳答案 1-创建文件log4j.properties并将其放在的位置源/主要/资源log4j.properties的内容hadoop.root.logge

hadoop - Hive:当插入分区表时,在大多数行中,hive double url-encode partition key column

我创建了一个分区表:createtablet1(amountdouble)partitionedby(events_partition_keystring)storedaspaquet;向tmp_table添加了一些数据,其中'events_partition_key'列包含以下格式的时间戳(字符串类型):“2018-02-2500:00:00”然后我向分区表中插入一些数据。insertintotablet1partition(events_partition_key)selectamount,events_partition_keyfromtmp_table当从新的分区表t1中选择时

hadoop - fsimage 和 edit log 文件实际存储在哪个文件夹或什么位置,供 namenode 在启动期间读取和合并?

当名称节点启动时,它从图像文件fsimage读取HDFS状态,然后应用编辑日志文件中的编辑。如果我没记错的话,Name节点启动就是我们写start-all.sh的时候。因此,在启动期间,我认为它读取fsimage并编辑日志并将它们合并。但它实际上是从哪个文件夹或哪个位置读取这两个内容的? 最佳答案 在hadoop-1.x中,start-all.sh脚本内部执行两个操作start-dfs.sh和start-mapred.sh。start-dfs.sh将启动hdfs所需的所有守护进程,即:datanode、namenode、second

Hadoop MapReduce log4j - 将消息记录到 userlogs/job_ 目录中的自定义文件?

我不清楚应该如何在作业级别配置HadoopMapReducelog4j。谁能帮我回答这些问题。1)如何从客户端计算机添加对log4j日志记录的支持。即我想在客户端机器上使用log4j属性文件,因此不想干扰集群中的Hadooplog4j设置。我认为在项目/jar中拥有属性文件就足够了,hadoop的分布式缓存应该完成其余的传输map-reducejar。2)如何将消息记录到$HADOOP_HOME/logs/userlogs/job_/目录中的自定义文件中。3)mapreduce任务会同时使用log4j属性文件吗?一个由客户端作业提供,一个存在于hadoop集群中?如果是,那么log4j

java - 如何修复hadoop中的 "Illegal partition"错误?

我已经编写了一个自定义分区程序。当我的reducetask数大于1时,作业失败。这是我得到的异常:java.io.IOException:Illegalpartitionforweburl_compositeKey@804746b1(-1)atorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:930)atorg.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:499)我写的代码是publicintgetPar

java - Spark 强制 log4j

我在Scala中有一个简单的spark项目,并且想使用logback,但spark/hadoop似乎强制我使用log4j。这似乎与我对slf4j目的的理解不一致;是这不是对spark/hadoop的疏忽?我必须放弃logback并使用log4j吗?解决方法?在build.sbt中我尝试了排除..."org.apache.spark"%%"spark-core"%"1.4.1"excludeAll(ExclusionRule(name="log4j"),ExclusionRule(name="slf4j-log4j12")),"org.slf4j"%"slf4j-api"%"1.7.12

hadoop - 为什么 Hadoop 报告 "Unhealthy Node local-dirs and log-dirs are bad"?

我正在尝试在我的PC上设置单节点Hadoop2.6.0集群。访问时http://localhost:8088/cluster,我发现我的节点被列为“不健康节点”。在健康报告中,它提供了错误:1/1local-dirsarebad:/tmp/hadoop-hduser/nm-local-dir;1/1log-dirsarebad:/usr/local/hadoop/logs/userlogs怎么了? 最佳答案 local-dirs坏的最常见原因是节点上的可用磁盘空间超过了yarn的max-disk-utilization-per-di

performance - spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别?

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?我在SparkSQL中都尝试过设置,但是第二阶段的任务数一直是200。 最佳答案 来自答案here,spark.sql.shuffle.partitions配置在为连接或聚合改组数据时使用的分区数。spark.default.parallelism是RDD中的默认分区数s由join等转换返回,reduceByKey,和parallelize当用户未明确设置时。注意spark.default.parallelism似

php - 为什么 Symfony 仍然记录到 dev.log 文件,即使我没有在 loghandler 中定义它?

在Symfony命令执行期间,我想将消息记录到不同的文件中。我已经阅读了Symfony和Monolog文档,它应该像我在这里描述的那样工作。(请注意,我知道来自“原则”、“事件”……channel的消息仍将由主处理程序记录,但这对我来说无关紧要)在我的config.yml中,我有这个:monolog:channels:[commandline]handlers:main:type:streampath:"%kernel.logs_dir%/%kernel.environment%.main.log"level:debugchannels:[!commandline]commandlin