草庐IT

TYPO3_CONF_VARS

全部标签

hadoop - 每小时将推文保存到单个 Flume 数据文件的 flume.conf 参数应该是多少?

我们将推文保存在目录顺序中,例如/user/flume/2016/06/28/13/FlumeData...。但每小时它会创建超过100个FlumeData文件。我更改了TwitterAgent.sinks.HDFS.hdfs.rollSize=52428800(50mb)同样的事情又发生了。之后我也尝试更改rollcount参数但没有成功。我如何设置参数以每小时获取一个FlumeData文件。 最佳答案 rollInterval怎么样?你把它设置为零了吗?如果是,那么问题可能出在其他地方。如果rollInterval设置为某个值,

linux - Hadoop HDFS 测试运行问题 - org.apache.hadoop.conf.Configuration NoClassDefFoundError

我正在使用Hadoop0.21.0。并尝试运行CAPI库附带的hdfs_test应用程序。经过许多问题后,我能够编译hdfs_test。现在,当我运行它时:./hdfs_test我收到以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/logging/LogFactoryatorg.apache.hadoop.conf.Configuration.(Configuration.java:153)Causedby:java.lang.ClassNotFoundException:org

hadoop - 修改hadoop conf目录下的xml配置文件后需要重启hadoop吗?

假设我通过hadoop中的conf文件更改了tasktracker的端口号或更改了最大map任务的数量,我是否需要停止并重新启动服务器/守护进程? 最佳答案 这取决于您更改的选项,但对于您提供的两个示例,我会说是,重新启动mapred服务(您不需要为这些选项重新启动DFS服务)。我认为在修改特定选项时需要重新启动的任何地方都没有详尽的列表。 关于hadoop-修改hadoopconf目录下的xml配置文件后需要重启hadoop吗?,我们在StackOverflow上找到一个类似的问题:

Hadoop conf确定num map任务

我有一份工作,就像我所有的Hadoop工作一样,从我在Hadoop界面中看到的运行时,它似乎总共有2个maptask。但是,这意味着它加载了太多数据,以至于我收到Java堆空间错误。我已经尝试在我的Hadoop集群中设置许多不同的conf属性来将作业拆分为更多任务,但似乎没有任何效果。我试过设置mapreduce.input.fileinputformat.split.maxsize、mapred.max.split.size、dfs.block.size但似乎没有任何效果。我正在使用0.20.2-cdh3u6,并尝试使用cascading.jdbc运行作业-该作业无法从数据库读取数据

hadoop - 了解作业 conf.xml 参数 pig.script.features

参数是什么pig.script.features66080在jobs_*_conf.xml中表示?它对调整hadoop集群/pig工作流有用吗?网上是否有此类参数的列表及其值的解释? 最佳答案 此参数来自PIG-1333它实际上只不过是脚本级功能的紧凑表示。您看到一个整数值,但它实际上是一个位设置,用于确定在整个Pig脚本中使用哪些功能(不仅仅是在作业级别)关于功能本身,您可以查看以下枚举:staticenumPIG_FEATURE{UNKNOWN,MERGE_JION,REPLICATED_JOIN,SKEWED_JOIN,HAS

hadoop - 如何在 hive udf 中传递 Hive conf 变量?

我想将hiveconf变量传递给hiveUDF。下面是一段代码。hive-f../hive/testHive.sql-hivevartestArg=${testArg}下面是HiveUDF调用。selectsetUserDefinedValueForColumn(columnName,'${testArg}')fromtestTable;在udf中,我将testArg的值设为null。请告诉我如何在udf中使用hiveconf变量以及如何在hiveUDF中访问Hive配置? 最佳答案 我认为您应该使用以下命令将配置单元变量作为“hi

hadoop -/etc/hadoop/conf下的配置文件和/etc/hadoop/conf.cloudera.HDFS和/etc/hadoop/conf.cloudera.YARN下的配置文件有什么区别

我有cloudera5.7,我也有ClouderaManager。在目录/etc/hadoop下,我看到了三个子目录。/etc/hadoop/conf/etc/hadoop/conf.cloudera.HDFS//etc/hadoop/conf.cloudera.YARN/../conf/中的hadoop-env.sh不同于../conf.cloudera.HDFS/..../conf/中的core-site.xml也不同于../conf.cloudera.HDFS/..。../conf/下的hadoop-env.sh在YARN上有设置,而../conf.cloudera.HDFS下没

java -/conf 目录在 Hadoop 2.5.1 中丢失错误

我已经在我的系统上配置了Hadoop2.5.1。当我尝试启动节点时,出现错误:“找不到配置目录:/conf”,如下所示。hduser@System-Vaio:/usr/local/hadoop/sbin$./start-dfs.shIncorrectconfiguration:namenodeaddressdfs.namenode.servicerpc-addressordfs.namenode.rpc-addressisnotconfigured.Startingnamenodeson[]Error:Cannotfindconfigurationdirectory:/confErro

bash - Docker 上的 DataStax Enterprise : fails to start due to/hadoop/conf directory not being writable

我关注了DataStax'sguideonbestpracticesforusingDSEwithDocker,但我在使用DataStax提供的所有默认设置脚本和Dockerfile时遇到了以下错误。错误日志Causedby:java.lang.RuntimeException:FailedtosavecustomDSEHadoopconfigatcom.datastax.bdp.hadoop.mapred.CassandraJobConf.writeDseHadoopConfig(CassandraJobConf.java:310)~[dse-hadoop-5.0.3.jar:5.0

hadoop - 尽管设置了 spark.yarn.conf,但仍上传了 Spark 程序集文件

我有时通过相对较慢的连接使用spark-submit将作业提交到在Yarn上运行的Spark集群。为了避免为每个作业上传156MB的spark-assembly文件,我将配置选项spark.yarn.jar设置为HDFS上的文件。但是,这并没有避免上传,而是从HDFSSpark目录中取出程序集文件并将其复制到应用程序目录中:$:~/spark-1.4.0-bin-hadoop2.6$bin/spark-submit--classMyClass--masteryarn-cluster--confspark.yarn.jar=hdfs://node-00b/user/spark/share