spark-ml

hadoop - 在 Spark 集群和 YARN 上运行的 Apache Zeppelin

我在ApacheZeppelin中创建并运行了一个%pyspark程序，该程序在带有yarn-client的Spark集群上运行。该程序正在从HDFS读取Dataframe中的文件，并执行一个简单的groupby命令并成功打印输出。我使用的是Zeppellin版本0.6.2和Spark2.0.0。我可以看到作业在YARN中运行(参见application_1480590511892_0007):但是当我同时检查SparkUI时，这个工作什么也没有:问题1:这份工作不应该出现在这两个窗口中吗？此外，上面SparkUI图像中已完成的应用程序是带有%python解释器的Zeppelin作业，

scala - 在 Spark 中创建的数据之上创建 Hive 表

我在Spark下创建了ORC格式的数据，如下所示:varselect:String="SELECT..."sqlContext.sql(select).write.format("orc").save("/tmp/out/20160101")select="SELECT..."sqlContext.sql(select).write.format("orc").save("/tmp/out/20160102")&soon...现在我正尝试在Hive中创建一个外部表，如下所示:CREATEEXTERNALTABLE`mydb.mytable`(`col1`string,`col2`dec

中创 scala code section hadoop apache-spark hive orc

hadoop - 在 hadoop 上安装 spark

我在我的mac上安装了hadoop2.7。然后我想在上面安装Spark。但是没有关于这个的任何文档。任何人都可以逐步解释如何在hadoop上安装spark吗？最佳答案安装ApacheSpark的步骤1)打开ApacheSpark网站http://spark.apache.org/2)单击“下载”选项卡，将打开一个新页面3)选择Pre-builtforHadoop2.7andlater4)选择直接下载5)单击下载Spark:spark-2.0.2-bin-hadoop2.7.tgz并将其保存在您想要的位置。6)转到下载的Tar文件

hadoop spark section apache-spark installation

hadoop - Spark 作为Mapreduce 的存储层

我面临一个独特的问题，想在这里征求您的意见。我有一个遗留的map-reduce应用程序，其中多个map-reduce作业顺序运行，中间数据来回写入HDFS。由于将中间数据写入HDFS，具有小数据的作业从HDFS的特性中得不偿失，并且比非Hadoop等效作业花费的时间要长得多。最终我计划将我所有的mapreduce作业转换为SparkDAG，但这是一个巨大的变化，所以我有理由拖延。作为短期解决方案，我真正想要的是更改存储层，以便我继续受益于map-reduce并行性，但不会为存储层付出太多代价。在那个方向上，我正在考虑使用Spark作为存储层，其中map-reduce作业将通过Spark

Mapreduce hadoop section Spark map-reduce caching apache-spark distributed-computing

java - Spark-Hive 错误，我该如何解决？

我尝试编写一个简单的代码来使用SparkSql访问Hive表:SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").master("local[*]").config("hive.metastore.uris","thrift://localhost:9083").enableHiveSupport().getOrCreate();try{Datasetdf=spark.sql("selectsurvey_response_valuefromhealth");df.show();}catch(E

Spark-Hive Spark Dataset apache java hadoop apache-spark intellij-idea apache-spark-sql

python - 在 Yarn 上运行 Spark 官方 python 机器学习示例失败

我可以通过以下方式在yarn上成功运行pi.py示例:./bin/spark-submit--masteryarn--deploy-modeclusterexamples/src/main/python/pi.py.但是当我运行./bin/spark-submit--masteryarn--deploy-modeclusterexamples/src/main/python/ml/logistic_regression_with_elastic_net.py时，失败了。错误消息:容器以非零退出代码1退出通过比较这两个文件，我发现在将frompyspark.ml.classificati

python Spark code section hadoop apache-spark machine-learning hadoop-yarn

hadoop - Spark - Snappy 库不可用

我正在尝试保存Mllib模型。我在Spark中运行的代码:model=RandomForest.trainClassifier(train_data,numClasses=2,categoricalFeaturesInfo=categoricalFeaturesInfo,numTrees=numTrees,featureSubsetStrategy="auto",impurity=impurity,maxDepth=maxDepth,maxBins=maxBins)model.save(sc,"file:///path/to/models/model_name")错误信息是:nativ

hadoop Snappy local code pyspark apache-spark-mllib

java - 来自 spark 本地的 Azure 特定读取文件

我正在为Azurewasbonspark苦苦挣扎我正在阅读从磁盘加载一个.json.gz文件并将其加载到hdfs。我在其他系统上广泛使用了以下代码。valfile_a_raw=sqlContext.read.json('/home/users/repo_test/file_a.json.gz')但是，在Azure上，这会返回:java.io.FileNotFoundException:Filewasb://server-2017-03-07t08-13-41-314z@server.blob.core.windows.net/home/users/repo_test/file_a.js

Azure spark code section java hadoop apache-spark

hadoop - 这是正确的 apache spark 使用场景吗？

我曾经是一名sql和c#开发人员，并且刚刚进入spark和hadoop世界。这是我日常工作的场景:我们有一些包含股票和基金价格数据的巨型表格。要获得有关股票或基金的表现或统计数据，我们必须检索每种工具的历史数据并进行数学计算。我们在c#中以多线程方式进行计算(即在我们的c#代码中，我们创建多个线程来从数据库加载数据并进行计算)。由于我对spark和Hadoop的经验极其有限，如果我们从c#迁移到spark，我的感受是:我需要将所有计算转换为python。我需要将SQL数据加载到HadoopSpark将负责运行我的函数，我不再需要编写多线程代码。Spark在内存中加载数据并进行并行计算，

hadoop apache c#spark section apache-spark

hadoop - Hortonworks Oozie Spark 操作 - NullPointerException

我在HDP2.5.3和oozie4.2.0上运行。spark操作设置为以yarn-client模式运行。SparkJob用于从hive表中获取数据，对其进行处理并将其存储在HDFS中。但是当我尝试从SparkAction提交Spark应用程序时，我得到了NullPointerException。workflow.xml${job_tracker}${name_node}hive2.jdbc.url${hive_beeline_server}hive2.server.principal${hive_kerberos_principal}${job_tracker}${name_node}

NullPointerException Hortonworks gt lt name hadoop apache-spark oozie hortonworks-data-platform oozie-workflow

183 184 185186187 188 189