草庐IT

Spark-MongoDB

全部标签

apache-spark - Yarn 的 "Application Type"在哪里/如何定义?

如果向ApacheYARN集群提交新作业,状态页面通常会指示作业实际是如何提交的(除其他事项外):ApplicationType:SPARK这表明用户很可能使用spark-submit向资源管理器发布了一个新作业。是否可以像更改应用程序名称一样通过参数更改该字符串的值? 最佳答案 应用类型在Spark设置yarn应用上下文时设置。AFAIK,无法更改某些配置的方式。如果它真的很重要,您将不得不在源代码中覆盖它。下面的实现,https://github.com/apache/spark/blob/01c3dfab158d40653f8

mongodb - Hadoop 与 MongoDB 存储

我有一个将NoSQLDB与Hadoop结合使用并对其进行基准测试的项目。我选择了MongoDB作为数据库,但我一直对某些事情感到困惑,并且有一些问题需要澄清:MongoDB会取代HDFS还是它们会协同工作以及如何协同工作?单独对MongoDB进行基准测试与对Hadoop进行基准测试有何不同?因为我觉得它们是同一回事。我找到了用于基准测试的YCSB工具。它可以将它们放在一起进行基准测试吗?我知道MongoDB可以在集群上工作,当monogo在Hadoop之上时,数据将由MongoDB或Hadoop在节点之间共享吗?我希望你澄清这些概念并提前感谢你。 最佳答案

apache-spark - 齐柏林飞艇 : Not Showing Hive Database/tables in HDP3. 0

我已经安装了Hortonworkshdp3.0并配置了Zeppelin。当我运行spark或sql时,Zeppelin只显示默认数据库(这是Spark的默认数据库,位置为“/apps/spark/warehouse”,而不是Hive的默认数据库)。这可能是因为hive.metastore.warehouse.dir属性不是从hive-site.xml设置的,而zeppelin是从Spark配置(spark.sql.warehouse.dir)中选择的。我对spark也有类似的问题,这是由于spark-conf目录中的hive-site.xml文件,我能够通过将hive-site.xml

Mongodb_Hadoop MapReduce

我正在尝试运行mongodb和hadoopmapreduce我收到以下警告和错误请帮助我解决这些提前谢谢13/06/2010:42:55WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable13/06/2010:42:55WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToo

使用 Spark 抽取 MySQL 数据到 Hive 时某列字段值出现异常(字段错位)

文章目录源数据描述问题复现问题解析问题解决源数据描述在MySQL中建立了表order_info,其字段信息如下所示:+--------------------+------------------+------+-----+-------------------+-----------------------------+|Field|Type|Null|Key|Default|Extra|+--------------------+------------------+------+-----+-------------------+-----------------------------

Spark编程实验二:RDD编程初级实践

目录一、目的与要求二、实验内容三、实验步骤1、pyspark交互式编程2、编写独立应用程序实现数据去重3、编写独立应用程序实现求平均值问题4、三个综合实例四、结果分析与实验体会一、目的与要求1、熟悉Spark的RDD基本操作及键值对操作;2、熟悉使用RDD编程解决实际具体问题的方法。二、实验内容1、pyspark交互式编程给定数据集data1.txt,包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,

mongodb - 如何使用 mongo-hadoop 从 Pig 上的 BSON 文件加载数组?

我正在尝试使用com.mongodb.hadoop.pig.BSONLoader(https://github.com/mongodb/mongo-hadoop/blob/master/pig/README.md)将数据从MongoDBBSON文件加载到Pig中,但我遇到了困难。MongoDB上的数据包括可变大小的数组,我不确定如何将其加载到pig中(作为元组?)。这是来自MongoDB的示例记录:{"_id":{"$oid":"52fbbca6e4b029a79cd17ff7"},"field":"value","variableSizeArray":["value1","value

hadoop - 在 spark yarn 集群中,容器如何工作取决于 RDD 分区的数量?

我有一个关于ApacheSpark(yarn集群)的问题虽然在这段代码中,创建了10个分区但是在yarncluster中,只需要3个contatinervalsc=newSparkContext(newSparkConf().setAppName("SparkCount"))valsparktest=sc.textFile("/spark_test/58GB.dat",10)valtest=sparktest.flatMap(line=>line.split("")).map(word=>(word,1))在sparkyarn集群中,容器如何工作取决于RDD分区的数量?*因为我只有一点

scala - Spark/Scala 拆分

我有这个代码:rdd.map(_.split("-")).filter(row=>{...})当我执行row.length时:This-is-a-test----on-split--这是一个测试--------输出分别是9和4。如果它为空,则不计算尾随分隔字符。如果我希望两个输出均为10,这里的解决方法是什么? 最佳答案 您可以通过将-1作为限制参数传递给split来完成您想要的操作,如下所示:rdd.map(_.split("-",-1)).filter(row=>{...})顺便说一句,预期结果是11,而不是10(因为如果您想保

hadoop - 如何在 Spark 上运行 Mahout

我最近注意到有一些关于在Spark而不是MapReduce上运行Mahout算法的讨论。但是我找不到任何文档。有人能告诉我是否可以在Spark上运行Mahout算法吗?如果是这样,对我们可以运行的算法有什么限制吗? 最佳答案 是的,mahout现在可以在Spark上运行(即新版本v0.10.0)。记录了不同引擎上可用的算法here.这些在Spark上可用:MahoutDistributedBLAS.DistributedRowMatrixAPIwithRandMatlablikeoperators.DistributedALS,SP