sparking

java - 使用 Hadoop、Apache Spark、HBase 实现 lambda 架构

我想用一个简单的例子来实现lambda架构。我无法将我的技术堆栈融入lambda架构的每一层。我想实时找出Twitter推文中的前10个热门主题标签。我列出了来自http://lambda-architecture.net/的每一层野兔的用途.所有进入系统的数据被分派(dispatch)到批处理层以及用于处理的速度层。批处理层有两个功能:(i)管理主数据集(一组不可变的，仅附加的原始数据集)，以及(ii)预先计算批处理View。服务层索引批量View，以便可以查询它们以低延迟、特别的方式。速度层补偿更新到服务层，只处理最近的数据。任何传入的查询都可以通过合并批处理的结果来回答View和

python-2.7 - 在 spark 环境中运行 python 程序时出错

我正在使用spark1.3.0。我在sparkpythonshell中运行python程序时遇到问题。这是我提交作业的方式:/bin/spark-提交程序名.py我发现的错误是，NameError:名称'sc'未定义在那条线上。有什么想法吗？提前致谢最佳答案 ##ImportsfrompysparkimportSparkConf,SparkContext##CONSTANTSAPP_NAME="MySparkApplication"##OTHERFUNCTIONS/CLASSES##Mainfunctionalitydefmain

中运时出 section spark python-2.7 hadoop apache-spark pyspark

hadoop - 尝试在 Spark 中使用 Jena elephas 的 TriplesInputFormat 读取 RDF 文件时出现 NullPointerException

我尝试使用ApacheJenaElephas将RDF文件加载到SparkRDD中。RDF文件是Turtle格式。代码如下。importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.jena.hadoop.rdf.io.input.TriplesInputFormatimportorg.apache.hadoop.io.LongWritableimportorg.apache.jena.hadoop.rdf.types.TripleWritableimportorg.apache

时出 NullPointerException 11 INFO 15 hadoop apache-spark rdf jena

hadoop - Spark 的 oozie 等价物是什么？

我们有非常复杂的管道，我们需要对其进行组合和调度。我看到Hadoop生态系统为此提供了Oozie。当我在Mesos或Standalone上运行Spark并且没有Hadoop集群时，基于Spark的作业有哪些选择？最佳答案与Hadoop不同，使用Spark链接事物非常容易。所以写一个SparkScala脚本可能就足够了。我的第一个建议是捆绑。如果你喜欢保持它像SQL一样，你可以试试SparkSQL。如果你有一个非常复杂的流程，值得看看谷歌数据流https://github.com/GoogleCloudPlatform/Dataf

等价物 hadoop section Spark https apache-spark bigdata apache-spark-1.5

hadoop - 如何在 spark 中使用 `wholeTextFile` 保存来自 `saveATextFile` RDD 的结果？

我在wholeTextFileRDD中使用spark在HDFS中创建了许多文件，我希望能够使用将它们保存在特定目录中anRDD.saveAsTextFile()问题是它会尝试创建一个全新的目录。我只想将这些结果放在现有目录中。我该怎么做呢？我已经查看了文档here，但path参数似乎没有任何改变。谢谢。最佳答案你有几个选择:滚动您自己的saveAsTextFile实现，不检查输出目录是否已经存在。写入临时文件夹，然后将文件移动到现有目录。RDD.saveAsTextFile使用TextOutputFormat，一种HadoopO

saveATextFile wholeTextFile code section saveAsTextFile hadoop apache-spark hdfs pyspark

hadoop - 如何估计 Hortonworks Hadoop 集群上的 spark 执行器数量？

我设置了一个HortonworksHadoop集群:Hortonworks版本为2.3.2。1个NameNode，1个辅助NameNode，10个DataNodeSpark1.4.1并部署在所有数据节点上。YARN已安装。当我运行一个spark程序时，执行器只在4个节点上运行，而不是在整个数据节点上运行。如何估算此类Hadoop集群上的spark执行器数量？最佳答案你请求的执行者数量默认是4个，如果你想请求更多，你必须在命令行调用--num-executors=x参数或者设置spark.executors.instances在配

Hortonworks hadoop section spark apache-spark hadoop-yarn hortonworks-data-platform

java - 错误 Livy Spark Server hue 3.9

我在具有HDP2.3的5台主机的集群上安装了hue3.9。我的Ambari版本是2.1.2。问题是Hue初始设置屏幕显示:SparkTheappwillnotworkwithoutarunningLivySparkServer之前出现了几个问题，但我必须解决它们。关注此主题Errorinrunninglivysparkserverinhue和这个网站http://gethue.com/new-notebook-application-for-spark，我尝试了几件事，但是当我以root用户启动livy-spark时，出现以下错误:[root@m1bin]#/usr/local/hue

Server Spark section hue java hadoop apache-spark bigdata

hadoop - 在使用 ./spark-ec2 部署的集群上更改 JDK

我已经使用Spark部署了一个AmazonEC2集群，如下所示:~/spark-ec2-kspark-i~/.ssh/spark.pem-s2--region=eu-west-1--spark-version=1.3.1launchspark-cluster我先将我需要的文件复制到master，然后从master复制到HDFS，使用:ephemeral-hdfs/bin/hadoopfs-put~/ANTICOR_2_10000.txt~/user/root/ANTICOR_2_10000.txt我有一个我想运行的jar，它是用JDK8编译的(我使用了很多Java8特性)所以我用scp

spark-ec hadoop code spark section amazon-ec2 apache-spark spark-ec2

scala - Yarn 集群模式下 Spark 作业的 ClassNotFoundException

所以我试图在通过Oozie工作流启动的Yarn-cluster模式下运行Spark作业，但遇到了以下错误(下面的相关堆栈跟踪)java.sql.SQLException:ERROR103(08004):Unabletoestablishconnection.atorg.apache.phoenix.exception.SQLExceptionCode$Factory$1.newException(SQLExceptionCode.java:388)atorg.apache.phoenix.exception.SQLExceptionInfo.buildException(SQLExce

ClassNotFoundException scala java ConnectionQueryServicesImpl apache hadoop apache-spark hadoop-yarn apache-phoenix

scala - 如何在 Scala 中从 Spark 检索和更新 HBase 表

似乎没有适当的资源或文档或书籍可用于访问HBase表，就像我们为HIVe所做的那样，我正在创建Hbase配置和扫描并尝试Put但缺少一些链接如何做到这一点(只是从论坛复制和粘贴和github但无法理解)，任何人都可以发布端到端代码来详细检索和更新Hbase表吗？？或推荐从spark访问的任何Hbase书籍/博客最佳答案你可以引用下面的问题:HowtoreadfromhbaseusingSpark还可以使用以下库来编写数据:SparkHBaseconnector它有一个很好的关于读取和写入数据到Hbase的文档，而且如果你擅长SQ

何在 scala section stackoverflow noreferrer hadoop apache-spark hive hbase

197 198 199200201 202 203