草庐IT

apache-spark-1.6

全部标签

json - Apache spark 存储和查询 json 数据是一个很好的用例吗?

架构-关于架构的简要描述,我正在开发一个人们查询并等待答案的回答引擎(与搜索引擎不同的东西)。后端寻找自动答案,或者如果没有直接找到答案,它会将带有置信度分数的片段发送到界面。生成的任何片段和答案都存储在Mongodb集合中。每个查询都会得到一个唯一的URL和snippetid,我将这个id保存在Mongodb中,每当用户从其他搜索引擎跳转到URL时,就会进行从Mongodb集合中获取数据的查询。一开始这个架构运行良好,但现在数据在增加,我非常需要更好的架构。我应该将数据存储在Hadoop中并可以编写MR程序来获取数据。我应该优先使用spark和shark我应该坚持使用Mongodb我

java - Apache Spark 中的持久化选项

您好,我是ApacheSpark的新手,我正在使用Java中的Apachesparksql查询配置单元表。这是我的代码SparkConfsparkConf=newSparkConf().setAppName("Hive").setMaster("local");JavaSparkContextctx=newJavaSparkContext(sparkConf);HiveContextsqlContext=neworg.apache.spark.sql.hive.HiveContext(ctx.sc());org.apache.spark.sql.Row[]results=sqlCont

hadoop - HBase 索引器与 Apache HBase 一起工作

我在使用ApacheHbase构建时遇到以下错误。我正在运行以下邮件mvn-ecleaninstall-DskipTests-Dhbase.api=0.98```[错误]构建错误[信息]----------------------------------------------------------------------[INFO]构建POM时出错(可能不是该项目的POM)。项目ID:null:akuma:jar:1.9原因:找不到父项目:org.kohsuke:pom项目:null:akuma:jar:1.9项目null:akuma:jar:1.9[信息]------------

mysql - 线程 "main"java.lang.IncompatibleClassChangeError : Found class org. apache.hadoop.mapreduce.JobContext 中的异常,但接口(interface)是预期的

我正在使用hadoop1.0.3和sqoop1.4.6。我正在尝试将一个表从MySQL导入到hdfs。我收到以下错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundclassorg.apache.hadoop.mapreduce.JobContext,butinterfacewasexpectedatorg.apache.sqoop.config.ConfigurationHelper.getJobNumMaps(ConfigurationHelper.java:65)atcom.cloudera.

scala - Spark : how to zip an RDD with each partition of the other RDD

假设我有一个RDD[U],它总是只包含1个分区。我的任务是用位于n个分区上的另一个RDD[T]的内容填充这个RDD。最终输出应该是RDD[U]的n个分区。我最初尝试做的是:valnewRDD=firstRDD.zip(secondRDD).map{case(a,b)=>a.insert(b)}但是我得到一个错误:Can'tzipRDDswithunequalnumbersofpartitions我可以在RDDapi中看到documentation有一个名为zipPartitions()的方法。是否有可能,如果可以,如何使用此方法将RDD[T]中的每个分区压缩为RDD[U]的单个分区并执

scala - 在我的用例中通过高效使用 Spark 或 pig 组?

我有一千万条记录,是customerID和cityIDpair。有几千万唯一的客户ID,只有几百个唯一的城市ID。我想进行合并以获取针对特定客户ID聚合的所有城市ID,并拉回所有记录。我想在Hadoop上使用Pig按客户ID分组来执行此操作,并想知道这是否是最有效的方法。还想知道在Hadoop中排序是否有开销(我不关心customer1是否在customer2之前,只要为customer1和customer2正确聚合了所有城市)?您认为Spark更好吗?这里是一个输入的例子,CustomerID1City1CustomerID2City2CustomerID3City1Customer

hadoop - 预期 org.apache.hadoop.hive.ql.io.orc.OrcStruct,收到 org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow

当我读取orcfile并将数据写入orcfile时,出现以下错误:expectedorg.apache.hadoop.hive.ql.io.orc.OrcStruct,receivedorg.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow是不是MapoutputValue.class不对?thisismyprogram:packagecom.baifendian.basicPlatform.hive.ql.io.orc;importjava.io.IOException;importjava.util.List;importjava.

Hadoop 2.7、Spark、Hive、JasperReports、Sqoop - 架构

首先,这不是一个寻求帮助以逐步部署以下组件的问题。我要问的是关于应该如何设计架构的建议。我打算做的是使用现有数据开发一个报告平台。以下是我通过研究收集的数据。我有一个包含大量记录的现有RDBMS。所以我正在使用Scoop-将数据从RDBMS提取到HadoopHadoop-存储平台Hive-数据仓库Spark-因为Hive更像是批处理Hive上的Spark会加快速度JasperReports-生成报告。我所知道的是部署了一个Hadoop2集群,如下所示192.168.X.A-名称节点192.168.X.B-第二个名称节点192.168.X.C-从站1192.168.X.D-从站2192.

java - Amazon EMR 中的 org.apache.hadoop.mapred.FileAlreadyExistsException

我正在尝试在AmazonEMR中运行WordCount程序,但我收到错误消息:Exceptioninthread"main"org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectorys3://mywordcountbuckett/run0alreadyexistsatorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:146)atorg.apache.hadoop.mapre

hadoop - hadoop 集群所有数据节点上的 Apache DrillBit 服务

我正在使用一个10节点的hadoop集群,如下所示:1-名称节点1-资源管理器8-数据节点我的复制因子设置为3。我打算使用ApacheDrill来查询hadoop数据。是否需要在所有节点上安装drillbit还是我只能在3个节点上安装它?提前致谢。 最佳答案 您可以将其安装在任意数量的节点上。在分布式模式下运行Drill时,确保-Zookeeper在集群上运行编辑drill-override.conf:drill.exec:{cluster-id:"",zk.connect:":,:,:"}所有节点(运行drill的节点)必须具有相