草庐IT

hadoop - Spark + yarn 簇: how can i configure physical node to run only one executor\task each time?

我的环境包含4个物理节点和少量RAM,每个节点有8个CPU内核。我注意到spark会自动决定为每个CPU分配RAM。结果是发生了内存错误。我正在处理大数据结构,我希望每个执行程序都将在物理节点上拥有整个RAM内存(否则我会遇到内存错误)。我尝试在“yarn-site.xml”文件上配置“yarn.nodemanager.resource.cpu-vcores1”或在spark-defaults.conf上配置“spark.driver.cores1”但没有成功。 最佳答案 尝试设置spark.executor.cores1

hadoop - 在配置单元中添加列后显示 NULL 值

我使用的是hive-version1.2.1。我是hive的新手。我在TABLE_2中添加了一列并显示NULL值。我想将DATE部分从时间戳列放到新创建的列中。我尝试了以下查询:ALTERTABLEtable_2ADDCOLUMNS(DATE_COLstring);INSERTINTOtable_2(DATE_COL)ASSELECTSUBSTRING(TIMESTAMP_COL,-19,10)FROMtable_1;这是有效的,但它仍然在新创建的DATE_COL中显示NULL值。我只想在DATE_COL中约会。table_1有13列,table_2有14列(13+DATE_COL)。

hadoop - hdfs 数据已损坏。无法删除损坏的文件夹,因为它显示没有这样的文件或目录

我的hdfs数据损坏了。在执行fsck时,我得到了以下结果./siva:损坏blockblk_-1910702044505537827/siva:损坏blockblk_6483992593913191763/siva:缺少2个总大小为82009995的blockB.Status:损坏总尺寸:82009995B目录总数:8文件总数:1区block总数(已验证):2(平均区block大小41004997B)损坏文件:1缺失的方block:2缺失尺码:82009995B损坏block:2最少复制block:0(0.0%)过度复制block:0(0.0%)复制不足的block:0(0.0%)错

hadoop - 如何在 mapreduce 作业中获得适当大小的输入拆分

我正在基于Hortonworks的MicrosoftHDInsight中处理Map-OnlyMR作业。我的输入数据约为1GB,block大小为128MB。当我在没有设置分割大小的情况下运行我的作业时,我的输入数据被分成2个分割,maptask的数量也是2。这需要很长时间,所以我想通过增加maptask的数量来加快这个过程。我通过设置mapreduce.input.fileinputformat.split.minsize和mapreduce.input.fileinputformat.split.minsize的值来设置分割数。首先,我将拆分次数设置为8,此作业耗时为35分钟。然后我设

hadoop - Apache Pig 存储分隔符

我正在使用PigLatin将别名中的值存储到HDFS中。别名在其字段之一中包含一个分号。dumpA;(Richard&John,1993)(Albert,1994)显示HDFS中数据的表格,但分号使John转到下一列。|Name|Year||--------------|------||Richard&|John||Albert|1994|Tryingtousestorelikethisisalsonotworkingasexpected:STOREAINTO'/user/hive/warehouse/test.db/names'usingPigStorage('\t')

hadoop - VARCHAR(254) 与 VARCHAR(255)

我读过这个question关于MySQL中VARCHAR(254)和VARCHAR(255)的区别。HiveQL中是否有必须考虑的类似内容?也许HiveQL实现了一些类似于MySQL的存储引擎,在设计表时应牢记这一点。 最佳答案 Hive不像mysql那样在列长度上有悬崖。相反,考虑因素是关于压缩和列存储与行存储。这是一个关于其中一些压缩和存储选项的引用。http://www.adaltas.com/blog/2012/03/13/hdfs-hive-storage-format-compression/您可以考虑文本、序列、RC/

hadoop - Cloudera-scm-server.log 在两个地方显示错误

我正在尝试运行Cloudera-Manager,但在以下屏幕截图中给出了错误并用红笔标记。谁能帮我解决这些错误?? 最佳答案 错误非常简单。ClouderaManager无法使用指定的凭据连接到数据库。您是否能够使用/etc/cloudera-scm-server/db.properties中提供的凭据手动连接? 关于hadoop-Cloudera-scm-server.log在两个地方显示错误,我们在StackOverflow上找到一个类似的问题: http

spring for hadoop 使用 FsShell autowired 报错

我在基于springboot的hadoop上使用spring唯一文件设置FsShell只做了需要的但正如这篇文章发生错误错误是:errorisCouldnotautowire.Nobeansof'FsShell'typefound.请帮帮我 最佳答案 我想念依赖compile('org.springframework.data:spring-data-hadoop-boot:2.4.0.BUILD-SNAPSHOT')正在运行但我正在使用compile('org.springframework.data:spring-data-ha

java - Hadoop 命令行配置不覆盖默认值?

我无法访问Hadoop的命令行配置参数Tool实现。我正在执行命令:hadoopjar-DSomeProperty=NewValuerun(String[]args)方法开始:Configurationconfiguration=this.getConf();configuration.set("SomeProperty","DefaultValue");Optionsoptions=newOptions();GenericOptionsParserparser=newGenericOptionsParser(configuration,options,args);args=parse

hadoop - MapReduce 作业失败,错误为写入数据失败

我正在尝试将数据从teradata导出到hadoop。但我的导出查询因出现错误“无法写入数据”而失败。请查看下面的Mapreduce和应用程序日志:LogType:syslogLogUploadTime:TueMar0822:59:27-08002016LogLength:49312016-03-0822:47:07,414WARN[main]org.apache.hadoop.metrics2.impl.MetricsConfig:Cannotlocateconfiguration:triedhadoop-metrics2-maptask.properties,hadoop-metr