hadoop-release

hadoop - 如何在 mapreduce 作业中获得适当大小的输入拆分

我正在基于Hortonworks的MicrosoftHDInsight中处理Map-OnlyMR作业。我的输入数据约为1GB，block大小为128MB。当我在没有设置分割大小的情况下运行我的作业时，我的输入数据被分成2个分割，maptask的数量也是2。这需要很长时间，所以我想通过增加maptask的数量来加快这个过程。我通过设置mapreduce.input.fileinputformat.split.minsize和mapreduce.input.fileinputformat.split.minsize的值来设置分割数。首先，我将拆分次数设置为8，此作业耗时为35分钟。然后我设

何在 mapreduce section 射器的 hadoop azure-hdinsight

hadoop - Apache Pig 存储分隔符

我正在使用PigLatin将别名中的值存储到HDFS中。别名在其字段之一中包含一个分号。dumpA;(Richard&John,1993)(Albert,1994)显示HDFS中数据的表格，但分号使John转到下一列。|Name|Year||--------------|------||Richard&|John||Albert|1994|Tryingtousestorelikethisisalsonotworkingasexpected:STOREAINTO'/user/hive/warehouse/test.db/names'usingPigStorage('\t')

hadoop Apache code section 分号 apache-pig cloudera

hadoop - VARCHAR(254) 与 VARCHAR(255)

我读过这个question关于MySQL中VARCHAR(254)和VARCHAR(255)的区别。HiveQL中是否有必须考虑的类似内容？也许HiveQL实现了一些类似于MySQL的存储引擎，在设计表时应牢记这一点。最佳答案 Hive不像mysql那样在列长度上有悬崖。相反，考虑因素是关于压缩和列存储与行存储。这是一个关于其中一些压缩和存储选项的引用。http://www.adaltas.com/blog/2012/03/13/hdfs-hive-storage-format-compression/您可以考虑文本、序列、RC/

VARCHAR hadoop section stackoverflow hive hiveql

hadoop - Cloudera-scm-server.log 在两个地方显示错误

我正在尝试运行Cloudera-Manager，但在以下屏幕截图中给出了错误并用红笔标记。谁能帮我解决这些错误？？最佳答案错误非常简单。ClouderaManager无法使用指定的凭据连接到数据库。您是否能够使用/etc/cloudera-scm-server/db.properties中提供的凭据手动连接？关于hadoop-Cloudera-scm-server.log在两个地方显示错误，我们在StackOverflow上找到一个类似的问题： http

Cloudera-scm-server Cloudera section image 凭据 hadoop cloudera-manager

spring for hadoop 使用 FsShell autowired 报错

我在基于springboot的hadoop上使用spring唯一文件设置FsShell只做了需要的但正如这篇文章发生错误错误是:errorisCouldnotautowire.Nobeansof'FsShell'typefound.请帮帮我最佳答案我想念依赖compile('org.springframework.data:spring-data-hadoop-boot:2.4.0.BUILD-SNAPSHOT')正在运行但我正在使用compile('org.springframework.data:spring-data-ha

autowired FsShell section spring hadoop spring-boot spring-data

java - Hadoop 命令行配置不覆盖默认值？

我无法访问Hadoop的命令行配置参数Tool实现。我正在执行命令:hadoopjar-DSomeProperty=NewValuerun(String[]args)方法开始:Configurationconfiguration=this.getConf();configuration.set("SomeProperty","DefaultValue");Optionsoptions=newOptions();GenericOptionsParserparser=newGenericOptionsParser(configuration,options,args);args=parse

Hadoop java code SomeProperty section mapreduce

hadoop - MapReduce 作业失败，错误为写入数据失败

我正在尝试将数据从teradata导出到hadoop。但我的导出查询因出现错误“无法写入数据”而失败。请查看下面的Mapreduce和应用程序日志:LogType:syslogLogUploadTime:TueMar0822:59:27-08002016LogLength:49312016-03-0822:47:07,414WARN[main]org.apache.hadoop.metrics2.impl.MetricsConfig:Cannotlocateconfiguration:triedhadoop-metrics2-maptask.properties,hadoop-metr

MapReduce hadoop apache 1457504560070

hadoop - Cygwin 上的 Nutch 1.11

我正尝试在Windows7机器上通过Cygwin运行Nutch。我在尝试爬行时无法通过注入(inject)器阶段。这是我遇到的错误:2016-03-0913:42:45,454错误util.Shell-无法在hadoop二进制路径中找到winutils二进制文件java.io.IOException:无法在Hadoop二进制文件中找到可执行文件null\bin\winutils.exe。稍后会引发NullPointerException:2016-03-0913:42:46,445错误crawl.Injector-注入(inject)器:java.lang.NullPointerExc

hadoop Cygwin section NullPointerException code nutch

hadoop - ALTER TABLE (Hive) 中的动态数据

我的查询出现错误，我不完全确定原因:ALTERTABLErevenueADDPARTITION(ds=from_unixtime(unix_timestamp(),'yyyy-MM-dd'))LOCATIONCONCAT('s3://userenroll-analytics/prod/revenue/avro/',from_unixtime(unix_timestamp(),'yyyy/MM/dd'))错误:Errorwhilecompilingstatement:FAILED:ParseExceptionline1:38cannotrecognizeinputnear'from_un

hadoop ALTER section 39 unix_timestamp hive hue beeswax

hadoop - 如何使用 apache pig 构建非结构化数据

我有一个包含以下行的文件:3124,"hello...",ku43125,"hello,hi",ab2我想加载包含三列的文件。我使用了PigStorage(',')但它也将"hello,hi"一分为二。我想要它在一个字段下。我怎样才能做到这一点？最佳答案您可以编写自己的自定义UDF或使用piggybank.jar中的CSVLoader--Getpiggybank.jarthatiscompatiblewithyourpigversionandregisteritinyourpigscriptbypointingtotheloca

结构化 hadoop section code piggybank apache-pig

165 166 167168169 170 171