草庐IT

apache-spark-2.3

全部标签

hadoop - HBase 索引器与 Apache HBase 一起工作

我在使用ApacheHbase构建时遇到以下错误。我正在运行以下邮件mvn-ecleaninstall-DskipTests-Dhbase.api=0.98```[错误]构建错误[信息]----------------------------------------------------------------------[INFO]构建POM时出错(可能不是该项目的POM)。项目ID:null:akuma:jar:1.9原因:找不到父项目:org.kohsuke:pom项目:null:akuma:jar:1.9项目null:akuma:jar:1.9[信息]------------

mysql - 线程 "main"java.lang.IncompatibleClassChangeError : Found class org. apache.hadoop.mapreduce.JobContext 中的异常,但接口(interface)是预期的

我正在使用hadoop1.0.3和sqoop1.4.6。我正在尝试将一个表从MySQL导入到hdfs。我收到以下错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundclassorg.apache.hadoop.mapreduce.JobContext,butinterfacewasexpectedatorg.apache.sqoop.config.ConfigurationHelper.getJobNumMaps(ConfigurationHelper.java:65)atcom.cloudera.

scala - Spark : how to zip an RDD with each partition of the other RDD

假设我有一个RDD[U],它总是只包含1个分区。我的任务是用位于n个分区上的另一个RDD[T]的内容填充这个RDD。最终输出应该是RDD[U]的n个分区。我最初尝试做的是:valnewRDD=firstRDD.zip(secondRDD).map{case(a,b)=>a.insert(b)}但是我得到一个错误:Can'tzipRDDswithunequalnumbersofpartitions我可以在RDDapi中看到documentation有一个名为zipPartitions()的方法。是否有可能,如果可以,如何使用此方法将RDD[T]中的每个分区压缩为RDD[U]的单个分区并执

scala - 在我的用例中通过高效使用 Spark 或 pig 组?

我有一千万条记录,是customerID和cityIDpair。有几千万唯一的客户ID,只有几百个唯一的城市ID。我想进行合并以获取针对特定客户ID聚合的所有城市ID,并拉回所有记录。我想在Hadoop上使用Pig按客户ID分组来执行此操作,并想知道这是否是最有效的方法。还想知道在Hadoop中排序是否有开销(我不关心customer1是否在customer2之前,只要为customer1和customer2正确聚合了所有城市)?您认为Spark更好吗?这里是一个输入的例子,CustomerID1City1CustomerID2City2CustomerID3City1Customer

hadoop - 预期 org.apache.hadoop.hive.ql.io.orc.OrcStruct,收到 org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow

当我读取orcfile并将数据写入orcfile时,出现以下错误:expectedorg.apache.hadoop.hive.ql.io.orc.OrcStruct,receivedorg.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow是不是MapoutputValue.class不对?thisismyprogram:packagecom.baifendian.basicPlatform.hive.ql.io.orc;importjava.io.IOException;importjava.util.List;importjava.

Hadoop 2.7、Spark、Hive、JasperReports、Sqoop - 架构

首先,这不是一个寻求帮助以逐步部署以下组件的问题。我要问的是关于应该如何设计架构的建议。我打算做的是使用现有数据开发一个报告平台。以下是我通过研究收集的数据。我有一个包含大量记录的现有RDBMS。所以我正在使用Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。我所知道的是部署了一个Hadoop2集群,如下所示192.168.X.A-名称节点192.168.X.B-第二个名称节点192.168.X.C-从站1192.168.X.D-从站2192.

java - Amazon EMR 中的 org.apache.hadoop.mapred.FileAlreadyExistsException

我正在尝试在AmazonEMR中运行WordCount程序,但我收到错误消息:Exceptioninthread"main"org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectorys3://mywordcountbuckett/run0alreadyexistsatorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:146)atorg.apache.hadoop.mapre

hadoop - hadoop 集群所有数据节点上的 Apache DrillBit 服务

我正在使用一个10节点的hadoop集群,如下所示:1-名称节点1-资源管理器8-数据节点我的复制因子设置为3。我打算使用ApacheDrill来查询hadoop数据。是否需要在所有节点上安装drillbit还是我只能在3个节点上安装它?提前致谢。 最佳答案 您可以将其安装在任意数量的节点上。在分布式模式下运行Drill时,确保-Zookeeper在集群上运行编辑drill-override.conf:drill.exec:{cluster-id:"",zk.connect:":,:,:"}所有节点(运行drill的节点)必须具有相

scala - 从终端在 Spark scala 中添加外部库

我正在尝试为spark添加外部库,因为我已尝试将这些库放在/usr/lib/spark/lib中。当我成功添加库后运行我的代码时出现错误:未找到。我不知道还有什么地方可以放置jar文件,我使用的是CDH5.7.0 最佳答案 我在深入挖掘后找到了解决方案,我通过在从终端打开sparkshell的同时添加jar解决了这个问题。我使用了下面的代码:spark-shell--jars"dddd-xxx-2.2.jar,xxx-examples-2.2.jar" 关于scala-从终端在Spark

java.lang.NoSuchMethodError : org. apache.hadoop.tracing.TraceUtils.wrapHadoopConf 错误

我正在尝试执行此中可用的MapReduce单元测试link我正在运行BasicMRTest.java我的POM.xml是4.0.0cooltooltool1.0.0-SNAPSHOTclouderahttps://repository.cloudera.com/artifactory/cloudera-repos/org.apache.hadoophadoop-mapreduce-client-core2.7.2jarprovidedorg.apache.hadoophadoop-common2.7.2org.apache.hadoophadoop-test2.6.0-mr1-cdh5