hadoop-examples

hadoop - 是否为 Oozie 操作配置队列可选

我正在浏览大量Oozie示例，我最感兴趣的三个操作是Sqoop、Hive和Pig操作。在某些示例中，mapreduce.job.queuename属性(旧版本为mapred.queue.name)通常配置为default，例如这个:...mapreduce.job.queuenamedefault另一方面，其他示例没有指定任何队列(也没有指定全局配置)。是否需要配置队列？如果我没有指定会发生什么？最佳答案 Doesconfiguringthequeuenecessary?否没有必要。WhatwouldhappenifIdidn't

hadoop - 在 spark 中使用 hadoop 配置连接到 Hbase

我正在尝试在spark的MapPartitionFunction中创建hbase连接。Causedby:java.io.NotSerializableException:org.apache.hadoop.conf.Configuration我试过下面的代码SparkConfconf=newSparkConf().setAppName("EnterPriseRiskScore").setMaster("local");conf.set("spark.serializer","org.apache.spark.serializer.KryoSerializer");conf.set("s

hadoop Hbase section hbaseConfiguration 34 apache-spark apache-spark-sql spark-dataframe

hadoop - hive 字符串中的右字符

在hive中没有获取字符串左右部分的命令。对于Left，不难找到解决方法:SELECTSUBSTR('abcdefgh',1,2);ab提取字符串右侧两个字符的最优雅方法是什么？最佳答案显然可以在SUBSTR中使用负数，这样你就可以得到相关的子字符串，如下所示:SELECTSUBSTR('abcdefgh',-2,2);gh 关于hadoop-hive字符串中的右字符，我们在StackOverflow上找到一个类似的问题： https://stackove

hadoop hive section code SUBSTR hiveql

hadoop - 为什么SQOOP默认启动4个映射器？

我只是想了解为什么SQOOP默认启动4个映射器？在某些情况下，如果我们将映射器增加到8个，则有可能为我们提供更好的性能。那么，选择默认映射器作为4时考虑了哪些标准？提前致谢。最佳答案我会引用7.2.4.ControllingParallelism来自ApacheSqoop的官方网站。默认使用四个任务。通过将此值增加到8或16，一些数据库可能会看到性能得到提高。DonotincreasethedegreeofparallelismgreaterthanthatavailablewithinyourMapReducecluster;

射器 hadoop section strong hdfs sqoop mapper

hadoop 停留在 “running job”

我想从doc运行hadoop字数统计程序.但是程序卡在了runningjob16/09/0210:51:13WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable16/09/0210:51:13INFOclient.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803216/09/0210:51:13WARNmapreduce.JobResourceUploader:

running hadoop 1472783047951 mapreduce hive

hadoop - Giraph 作业始终以本地模式运行

我在Hadoop2.6.0上运行Giraph1.1.0。mapredsite.xml看起来像这样mapreduce.framework.nameyarnTheruntimeframeworkforexecutingMapReducejobs.Canbeoneoflocal,classicoryarn.mapreduce.map.memory.mb4096mapreduce.reduce.memory.mb8192mapreduce.map.java.opts-Xmx3072mmapreduce.reduce.java.opts-Xmx6144mmapred.tasktracker.ma

hadoop Giraph lt gt property mapreduce illegalargumentexception

hadoop - Hadoop 在 N 层架构中的什么位置？

我对Hadoop及其生态系统还很陌生。我想知道Hadoop在哪里以及如何适合典型的N层架构或任何现代架构？从Hadoop获得结果非常棒，但我如何以及以何种方式整理数据结果以在我的表示层上显示它们？最佳答案 “典型的n层系统”？不在2层客户端服务器中；不在三层。可以将数据的Map/reduce计算添加到任何系统中。Hadoop是集群上的map/reduce，具有基于冗余数据的分布式文件系统。这会让我想到数据的预定批处理。将数据传送到Hadoop的方式可以是实时的，也可以是从事务数据库到报告数据库的批处理ETL过程。这些都不是“典型”

hadoop section 典型 database-design architecture hadoop2 bigdata

hadoop - 配置单元执行错误

我是avro和hive的新手，在学习它的过程中我有些困惑。使用tblproperties('avro.schema.url'='somewhereinHDFS/categories.avsc')。如果我像这样运行这个create命令createtablecategories(idInt,dep_IdInt,nameString)storedasavrofiletblproperties('avro.schema.url'='hdfs://quickstart.cloudera/user/cloudera/data/retail_avro_avsc/categories.avsc')但为

配置单 hadoop code schema avro apache-hive

hadoop - hadoop中local和yarn的区别

我一直在尝试按照here中的说明在单个节点上安装Hadoop.有两组指令，一组用于在本地运行MapReduce作业，另一组用于YARN。在本地运行MapReduce作业和在YARN上运行有什么区别？最佳答案如果您使用本地，则map和reduce任务在同一个jvm中运行。通常我们要调试代码的时候会用到这种模式。而如果我们使用MRV2中的yarn资源管理器，mappers和reducers将在不同的节点和不同的jvms中运行，并且在同一节点中运行(如果它是伪分布式模式)。关于hadoo

hadoop local section 中运 mapreduce

hadoop - 如何安装 Hortonworks 的 HDP？

我是这方面的新手，我想知道如何按照下一个规范安装Hortonworks、HDP(http://hortonworks.com/products/data-center/hdp/)提供的解决方案:我有2台虚拟机和另一台要使用的本地机器，我我想在配置ApacheSPARK时将2个虚拟机用作主节点和工作节点。但我的问题是:我必须做什么才能正确安装HDP？我必须在我的本地机器上安装te解决方案并配置ApacheSPARK以将这2个虚拟机用作主节点和工作节点？或者我必须在我拥有的3台机器上安装HDP？我再说一遍，我是这方面的新手，如果您能提供任何答案或评论，这对我都将非常有帮助。非常感谢!

Hortonworks hadoop blockquote ambari section apache-spark configuration virtual

51 52 535455 56 57