hadoop-mapreduce

hadoop - 使用 jar 命令执行 WordCount 程序时 hadoop 中出现 "No such file or directory"

我是Hadoop的新手，正在尝试执行WordCount问题。到目前为止我所做的事情-引用以下链接设置Hadoop单节点集群。http://www.bogotobogo.com/Hadoop/BigData_hadoop_Install_on_ubuntu_single_node_cluster.php引用下面的链接写出字数统计问题https://kishorer.in/2014/10/22/running-a-wordcount-mapreduce-example-in-hadoop-2-4-1-single-node-cluster-in-ubuntu-14-04-64-bit/问题

hadoop - 如何使用接受多列作为参数的 java 为配置单元编写 UDAF？

我想根据日期、var_currecy_code、fxd_crncy_code。我们的hive表中有所有数据，现在我们需要使用hiveUDAF根据最大日期和上面提到的更多输入来计算currency_rate。最佳答案 HiveUDF可以接受元组作为参数。在函数中，您检查元组的长度，并为您的逻辑提取必要的顺序关于hadoop-如何使用接受多列作为参数的java为配置单元编写UDAF？，我们在StackOverflow上找到一个类似的问题： https://

多列配置单 section stackoverflow questions hadoop hive user-defined-functions

hadoop - Apache Spark 在 Hadoop YARN 上工作的问题

我对大数据非常陌生，尤其是ApacheSpark/HadoopYARN。我将Hadoop单节点安装到我的虚拟机中以进行一些尝试，我也添加了Spark。我认为环境已经安装好，因为我可以访问:http://172.30.10.64:50070->Hadoop概述http://172.30.10.64:8080->星火概述然后我创建了一个pythonic文件来计算单词数:frompysparkimportSparkConf,SparkContextfromoperatorimportaddimportsys##ConstantsAPP_NAME="HelloWorldofBigData"##

hadoop Apache spark code apache-spark hdfs

hadoop - Spark : Execute python script with Spark based on Hadoop Multinode

我正在寻找基于HadoopMultinodes的Spark使用，我对我的集群模式pythonic脚本有疑问。我的配置:我进入了我的Hadoop集群:1个名称节点(主节点)2个数据节点(从节点)所以我想在Python中执行我的脚本以使用这个集群。我知道Spark可以用作独立模式，但我想使用我的节点。我的python脚本:这是一个非常简单的脚本，可以用来计算文本中的字数。importsysfrompysparkimportSparkContextsc=SparkContext()lines=sc.textFile(sys.argv[1])words=lines.flatMap(lambda

Spark Multinode 2018 1521023754917 INFO hadoop apache-spark pyspark cluster-computing

hadoop - 如何在 Pig 中合并 map

我是Pig的新手，请多多包涵。我有两个具有相同模式的数据源:属性映射。我知道某些属性会有一个可识别的重叠属性。例如记录A:{"Name":{"First":"Foo","Last":"Bar"},"FavoriteFoods":{["Oranges","Pizza"]}}记录B:{"Name":{"First":"Foo","Last":"Bar"},"FavoriteFoods":{["BuffaloWings"]}}我想合并Name上的记录，这样:合并:{"Name":{"First":"Foo","Last":"Bar"},"FavoriteFoods":{["Oranges",

何在 hadoop code section strong merge apache-pig

hadoop - Pig Latin 中 AVG() 函数的问题

我正在尝试生成数据集中列出的性能(double)的AVG()。我收到一个ERROR1066:UnabletoopeniteratorforaliasTEST异常，我认为这是因为TEST是空的并且无法迭代。代码:flat_bus=FOREACHbussGENERATEnear,name,FLATTEN(categories)AScategory,stars;bus_grouped=GROUPflat_busBYcategory;category_avg=FOREACHbus_groupedGENERATEgroupasgrp,AVG(bus_grouped.stars);TEST=LIM

hadoop Latin section code strong apache-pig

hadoop - 使用 MapReduce 查找非对称对

我正在尝试分析包含follower和followee对的社交网络数据。我想使用MapReduce(Hadoop)找到非对称对(A跟随B但B不跟随A)。然而，对于这对数据，我不确定mappers和onereducer应该如何处理数据，因为分离对将影响结果。谁能给我解释一下如何使用MapReduce从海量数据中找到非对称对？非常感谢。附注我希望有一种方法可以使用多个Mappers来解决此类问题，即使我可能只需要使用一个Reducer。最佳答案这是我解决问题的方法。(它有效，但它可能不是最佳解决方案。如果有人有更好的答案，请告诉我。)

MapReduce hadoop strong code section distributed-computing

hadoop - RDD 拆分给出缺少的参数类型

我正在尝试拆分最初从DF创建的RDD。不确定为什么会出错。不写每个列名，但sql包含所有列名。所以，sql没有问题。valdf=sql("SELECTcol1,col2,col3,...fromtableName")rddF=df.toJavaRDDrddFtake(1)res46:Array[org.apache.spark.sql.Row]=Array([2017-02-26,100102-AF,100134402,119855,1004445,0.0000,0.0000,-3.3,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0.0000,0

出缺分给 0.0000 code hadoop apache-spark rdd

hadoop - 如何将 pyspark 输出写入 impala 表？

我将pyspark用于我的问题陈述，在这里，我想合并我的输出并将其作为我的其他模型的输入。但是在hdfs中，我的输出被分成几部分，因此很难将它们组合起来。所以我想将输出结果直接存储到impala表中，我该怎么做呢？最佳答案要将存储在HDFS中的文件内容公开为表，您可以定义一个外部表:CREATEEXTERNALTABLEtable_name(column_1string,...)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/some/path/

pyspark hadoop section strong code hdfs bigdata impala

hadoop - 动态模式的解决方案 - HIVE/AVRO

要求跟上目标ORC表的架构演变。我从源接收JSON事件。我们计划将它们转换为AVRO(因为它支持模式演化)。由于模式可以每天/每周更改，我们需要不断摄取新数据JSON文件，将它们转换为AVRO并将所有数据(旧/新)存储在ORC配置单元表中。我们如何解决这个问题？最佳答案您可以采用以下方法，这是解决此问题的众多不同方法之一。1。创建HBASE表首先读取AVRO数据并在HBASE中创建表。(您可以使用spark高效地完成此操作)即使在未来，HBASE表也会负责模式的演变。2。创建Hive包装表创建指向HBASE表的配置单元包装表(存

hadoop HIVE section 中创包装 schema

67 68 697071 72 73