conf_dir_草庐IT

hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少？

我们将推文保存在目录顺序中，例如/user/flume/2016/06/28/13/FlumeData...。但每小时它会创建超过100个FlumeData文件。我更改了TwitterAgent.sinks.HDFS.hdfs.rollSize=52428800(50mb)同样的事情又发生了。之后我也尝试更改rollcount参数但没有成功。我如何设置参数以每小时获取一个FlumeData文件。最佳答案 rollInterval怎么样？你把它设置为零了吗？如果是，那么问题可能出在其他地方。如果rollInterval设置为某个值，

文保该是 TwitterAgent code sinks hadoop cloudera flume tweetstream flume-twitter

apache-spark - 亚马逊电子病历 : Spark - SparkException java IOException: Failed to create local dir in/tmp/blockmgr*

我有一个带有Spark的AWSEMR集群。我可以连接到它(spark):通过SSH连接到主节点后从主节点来自另一个AWSEMR集群但无法连接到它:从我的本地机器(macOSMojave)来自非emr机器，如Metabase和Redash我已阅读thisquestion的答案.我已经检查过所有节点上的文件夹权限和磁盘空间都没有问题。我的假设是我面临着类似的问题JamesWierzba在评论中提问。但是，我没有足够的声誉在那里添加评论。此外，考虑到它特定于AWSEMR，这可能是一个不同的问题。SSH连接到主节点后连接工作正常。#SSHedtomasternode$ssh-i~/identi

病历 SparkException noreferrer noopener nofollow apache-spark hadoop hive amazon-emr beeline

linux - Hadoop HDFS 测试运行问题 - org.apache.hadoop.conf.Configuration NoClassDefFoundError

我正在使用Hadoop0.21.0。并尝试运行CAPI库附带的hdfs_test应用程序。经过许多问题后，我能够编译hdfs_test。现在，当我运行它时:./hdfs_test我收到以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/logging/LogFactoryatorg.apache.hadoop.conf.Configuration.(Configuration.java:153)Causedby:java.lang.ClassNotFoundException:org

NoClassDefFoundError Configuration java section URLClassLoader linux gcc hadoop hdfs

hadoop - 修改hadoop conf目录下的xml配置文件后需要重启hadoop吗？

假设我通过hadoop中的conf文件更改了tasktracker的端口号或更改了最大map任务的数量，我是否需要停止并重新启动服务器/守护进程？最佳答案这取决于您更改的选项，但对于您提供的两个示例，我会说是，重新启动mapred服务(您不需要为这些选项重新启动DFS服务)。我认为在修改特定选项时需要重新启动的任何地方都没有详尽的列表。关于hadoop-修改hadoopconf目录下的xml配置文件后需要重启hadoop吗？，我们在StackOverflow上找到一个类似的问题：

hadoop conf section stackoverflow mapreduce cloudera

Hadoop conf确定num map任务

我有一份工作，就像我所有的Hadoop工作一样，从我在Hadoop界面中看到的运行时，它似乎总共有2个maptask。但是，这意味着它加载了太多数据，以至于我收到Java堆空间错误。我已经尝试在我的Hadoop集群中设置许多不同的conf属性来将作业拆分为更多任务，但似乎没有任何效果。我试过设置mapreduce.input.fileinputformat.split.maxsize、mapred.max.split.size、dfs.block.size但似乎没有任何效果。我正在使用0.20.2-cdh3u6，并尝试使用cascading.jdbc运行作业-该作业无法从数据库读取数据

Hadoop conf java code MysqlIO configuration mapreduce hdfs

hadoop - 了解作业 conf.xml 参数 pig.script.features

参数是什么pig.script.features66080在jobs_*_conf.xml中表示？它对调整hadoop集群/pig工作流有用吗？网上是否有此类参数的列表及其值的解释？最佳答案此参数来自PIG-1333它实际上只不过是脚本级功能的紧凑表示。您看到一个整数值，但它实际上是一个位设置，用于确定在整个Pig脚本中使用哪些功能(不仅仅是在作业级别)关于功能本身，您可以查看以下枚举:staticenumPIG_FEATURE{UNKNOWN,MERGE_JION,REPLICATED_JOIN,SKEWED_JOIN,HAS

features hadoop section code PIG_FEATURE apache-pig

hadoop - 如何在 hive udf 中传递 Hive conf 变量？

我想将hiveconf变量传递给hiveUDF。下面是一段代码。hive-f../hive/testHive.sql-hivevartestArg=${testArg}下面是HiveUDF调用。selectsetUserDefinedValueForColumn(columnName,'${testArg}')fromtestTable;在udf中，我将testArg的值设为null。请告诉我如何在udf中使用hiveconf变量以及如何在hiveUDF中访问Hive配置？最佳答案我认为您应该使用以下命令将配置单元变量作为“hi

何在传递 section hive code hadoop bigdata

hadoop - 如何选择${mapred.local.dir}？

如果我配置了几个${mapred.local.dir}目录来存储MapTask的即时结果，这些目录挂载在不同的磁盘上。我的问题是:1.LocalDirAllocator.java是否用于管理${mapred.local.dir}目录？2.LocalDirAllocator.java的方法getLocalPathForWrite()是用来选择一个${mapred.local.dir}目录的？最佳答案 1.WhetherLocalDirAllocator.javaisusedtomanage${mapred.local.dir}dir

hadoop mapred the code LocalDirAllocator dictionary mapreduce hadoop-streaming

hadoop - default.fs.name 和 hive.metastore.warehouse.dir 不冲突

嗨，当我尝试运行以下命令时LoaddataInpath'/data'intoTableTablename;在hiveshell中抛出以下错误Movefrom:hdfs://hadoopcluster/datato:file:/user/hive/warehouse/Tablenameisnotvalid.Pleasecheckthatvaluesforparams"default.fs.name"and"hive.metastore.warehouse.dir"donotconflict.我的default.fs.name属性在哪里fs.defaultFShdfs://hadoopcl

metastore warehouse section code hadoop apache-hive

hadoop -/etc/hadoop/conf下的配置文件和/etc/hadoop/conf.cloudera.HDFS和/etc/hadoop/conf.cloudera.YARN下的配置文件有什么区别

我有cloudera5.7，我也有ClouderaManager。在目录/etc/hadoop下，我看到了三个子目录。/etc/hadoop/conf/etc/hadoop/conf.cloudera.HDFS//etc/hadoop/conf.cloudera.YARN/../conf/中的hadoop-env.sh不同于../conf.cloudera.HDFS/..../conf/中的core-site.xml也不同于../conf.cloudera.HDFS/..。../conf/下的hadoop-env.sh在YARN上有设置，而../conf.cloudera.HDFS下没

hadoop conf cloudera cloudera-manager