li_草庐IT

java - Hadoop 映射器输出到 HBase 表和一个缩减器

我正在尝试编写一个MapReduce作业来解析CSV文件，将数据存储在HBase中，并一次性执行reduce函数。理想情况下我想要Mapper输出好的记录到HBaseTableGOODMapper输出坏记录到HBase表BADMapper使用key将所有好的数据发送到reducer还想更新第三个表以指示存在新数据。该表将包含有关数据和日期的基本信息。每个CSV文件很可能只有一两条记录。我知道如何使用HBaseMultiTableOutputFormat执行1和2，但不确定如何执行3和4。非常感谢任何有关如何执行此操作的指示。我对如何做到这一点有一些想法:对于1和2，我将Immutabl

射器缩减 section Mapper li java hadoop mapreduce hbase multiple-tables

hadoop - map reduce 中的reducer 数量

我在MR的驱动类中设置了3个reducer。这意味着将创建三个分区..但是mapper只发出两个唯一的键，比如male和female。在这种情况下，Reducer和reduce函数将运行多少次？最佳答案你的问题有点含糊，但我可以对可能发生的情况提出两种解释:1。二级还原Reducer1减少所有男性结果Reducer2减少所有女性结果Resucer3减少Reducer1和2的输出。2。拆分作业Reducer1减少所有男性结果Reducer2减少了女性结果的前半部分Reducer3减少了女性结果的后半部分

reducer hadoop section li

arrays - 如何在 Hive 的数组中搜索项目？

我使用Hive创建了一个包含以下字段的表:IDBIGINT，MSISDN字符串，DAYTINYINT,MONTHTINYINT，年份，性别TINYINT，RELATIONSHIPSTATUSTINYINT,教育字符串，LIKES_AND_PREFERENCES字符串这是通过以下SQL命令填充数据的:Insertoverwritetabletemp_outputSelecta.ID,a.MSISDN,a.DAY,a.MONTH,a.YEAR,a.GENDER,a.RELATIONSHIPSTATUS,b.NAME,COLLECT_SET(c.NAME)FROMtemp_basic_inf

中搜何在 section li RELATIONSHIPSTATUS arrays hadoop hive

hadoop - 文件的最小数据大小是多少才能看到 hadoop 的优势？

我对这个主题做了很多研究，但对找到的答案还不满意。有人说它不仅仅取决于大小，还有许多其他影响因素，而其他人则说它需要在几个TB的大小范围内才能看到hadoop的真实本质。那么，在类似Java程序上测试Hadoop功能的最小输入数据大小是多少？最佳答案的确，这取决于不同的事情。我想这至少取决于以下几点:文件大小数据类型和格式集群规模和性能集群之间的网络连接计算和分析类型一般来说，您拥有的数据越多且越复杂，与“常规”Java程序相比，Hadoop的性能就越好。我不能给你一定的限制。“Hadoop买家指南”(RobertD.Schne

hadoop 的 section li 取决于 mapreduce bigdata

security - Kerberos 中的服务票证 - Hadoop 安全

我正在尝试使用kerberos保护我的hadoop集群。我能够使用kinit命令生成TGT。但除此之外，我被困住了。1)我想知道现实中的“serviceTicket”是什么意思。(不作为描述)；我们可以使用哪个命令/代码来使用服务票证？2)'.keyTab'文件和'.keyStore'文件有什么用？Hadoop-Kerberos故事用户使用kinit命令向KDC发送认证请求。KDC发回加密票证。用户通过提供密码解密票。4。现在已通过身份验证，用户发送服务票证请求。5。KDC验证票证并发回服务票证。用户向hdfs@KERBEROS.com出示服务票据。hdfs@KERBEROS.com解

票证 security strong li hadoop kerberos spn mit-kerberos

hadoop - Apache Spark 如何实现比 Hadoop MapReduce 快 100 倍的速度以及在什么场景下？

ApacheSpark[http://spark.apache.org/]声称在内存方面比ApacheHadoop快100倍。它是如何实现这种惊人的加速的？这种加速仅适用于迭代机器学习算法还是适用于ETL(提取-转换-加载)任务，如JOIN和GROUPBY？Spark的RDD(弹性分布式数据集)和DataFrames都可以提供这种加速吗？Spark社区有针对上述部分场景的benchmark测试结果吗？最佳答案 Spark在内存中进行数据处理。不会像MapReduce那样有中间文件，所以没有I/O或者可以忽略不计。它并没有在所有情况

MapReduce hadoop section Spark li apache-spark bigdata distributed-computing

apache - Kerberos 升级

我们想升级Kerberos(服务器和客户端)当前:1.6.3-133.27.1目标:1.6.3-133.49.97.1问题是如果我们用包管理器升级它，下面会发生什么？KDC数据库所有主要信息所有以前生成的key表Kerberos配置是否一切都像以前一样工作，还是一切都必须重新配置？此处提供的升级步骤http://web.mit.edu/kerberos/krb5-1.4/krb5-1.4.4/doc/krb5-install/Upgrading-Existing-Kerberos-V5-Installations.html用于我们升级MAJOR版本时(例如1.1到1.2.x)

Kerberos apache section li hadoop

hadoop - 很少有 Hive 面试问题

我最近在一家公司的面试中遇到了一些问题。由于我是Hadoop的新手，谁能告诉我正确答案？问题:Hive中“排序依据”和“分组依据”之间的区别。它们是如何工作的？如果我们在Hive中的任何SQL查询中使用“限制1”，Reducer是否工作。如何优化Hive性能？“内表”和“外表”的区别Hive和SQL的主要区别是什么请提供一些有用的资源，以便我可以更好地学习。谢谢最佳答案 PFB的答案:1。Hive中“排序依据”和“分组依据”之间的区别。它们是如何工作的？答。SORTBY按reducer对数据进行排序，它提供了reducer中行的排

少有 hadoop Hive section li hiveql hadoop2 hadoop-streaming

java - 机器学习/数据挖掘/大数据 : Popular language for programming and community support

我不确定这个问题是否正确，但我要求解决我的疑问。对于机器学习/数据挖掘，我们需要了解数据，这意味着您需要学习Hadoop，它在Java中有实现>用于MapReduce(如果我错了请纠正我)。Hadoop还提供streamingapi以支持其他语言(如python)我认识的大多数研究生/研究人员都使用python解决ML问题我们经常看到hadoop和Java组合的招聘信息我发现Java和Python(据我观察)是该领域使用最广泛的语言。我的问题是在这个领域工作的最流行的语言是什么。决定应该选择哪种语言/框架的因素有哪些我同时了解Java和Python，但总是感到困惑:我是否开始使用Jav

大数 programming code section li java python hadoop machine-learning bigdata

hadoop - 试图了解 HBase

以下是我的问题:Hbase是否在其内部工作中使用Map/Reduce从Hadoop中提取数据？HBase能否与其他框架(如Amazondynamo)一起使用，或者它必须以Hadoop作为基础框架？Hbase好学吗？我可以练习的设置HBase实例的最佳方法是什么上？最佳答案当您尝试访问其中的单元格或行时，HBase不使用map/reduce。基本上，Hadoop存储数据以便它知道在哪里可以找到键(键按字典顺序存储)。您可以在thispost中查看详细信息拉尔斯·乔治。HBase确实支持map/reduce，因此您可以将其用作您创建

hadoop HBase section li nosql mapreduce