草庐IT

spark-ml

全部标签

hadoop - 在 Spark 集群和 YARN 上运行的 Apache Zeppelin

我在ApacheZeppelin中创建并运行了一个%pyspark程序,该程序在带有yarn-client的Spark集群上运行。该程序正在从HDFS读取Dataframe中的文件,并执行一个简单的groupby命令并成功打印输出。我使用的是Zeppellin版本0.6.2和Spark2.0.0。我可以看到作业在YARN中运行(参见application_1480590511892_0007):但是当我同时检查SparkUI时,这个工作什么也没有:问题1:这份工作不应该出现在这两个窗口中吗?此外,上面SparkUI图像中已完成的应用程序是带有%python解释器的Zeppelin作业,

scala - 在 Spark 中创建的数据之上创建 Hive 表

我在Spark下创建了ORC格式的数据,如下所示:varselect:String="SELECT..."sqlContext.sql(select).write.format("orc").save("/tmp/out/20160101")select="SELECT..."sqlContext.sql(select).write.format("orc").save("/tmp/out/20160102")&soon...现在我正尝试在Hive中创建一个外部表,如下所示:CREATEEXTERNALTABLE`mydb.mytable`(`col1`string,`col2`dec

hadoop - 在 hadoop 上安装 spark

我在我的mac上安装了hadoop2.7。然后我想在上面安装Spark。但是没有关于这个的任何文档。任何人都可以逐步解释如何在hadoop上安装spark吗? 最佳答案 安装ApacheSpark的步骤1)打开ApacheSpark网站http://spark.apache.org/2)单击“下载”选项卡,将打开一个新页面3)选择Pre-builtforHadoop2.7andlater4)选择直接下载5)单击下载Spark:spark-2.0.2-bin-hadoop2.7.tgz并将其保存在您想要的位置。6)转到下载的Tar文件

hadoop - Spark 作为Mapreduce 的存储层

我面临一个独特的问题,想在这里征求您的意见。我有一个遗留的map-reduce应用程序,其中多个map-reduce作业顺序运行,中间数据来回写入HDFS。由于将中间数据写入HDFS,具有小数据的作业从HDFS的特性中得不偿失,并且比非Hadoop等效作业花费的时间要长得多。最终我计划将我所有的mapreduce作业转换为SparkDAG,但这是一个巨大的变化,所以我有理由拖延。作为短期解决方案,我真正想要的是更改存储层,以便我继续受益于map-reduce并行性,但不会为存储层付出太多代价。在那个方向上,我正在考虑使用Spark作为存储层,其中map-reduce作业将通过Spark

java - Spark-Hive 错误,我该如何解决?

我尝试编写一个简单的代码来使用SparkSql访问Hive表:SparkSessionspark=SparkSession.builder().appName("JavaSparkHiveExample").master("local[*]").config("hive.metastore.uris","thrift://localhost:9083").enableHiveSupport().getOrCreate();try{Datasetdf=spark.sql("selectsurvey_response_valuefromhealth");df.show();}catch(E

python - 在 Yarn 上运行 Spark 官方 python 机器学习示例失败

我可以通过以下方式在yarn上成功运行pi.py示例:./bin/spark-submit--masteryarn--deploy-modeclusterexamples/src/main/python/pi.py.但是当我运行./bin/spark-submit--masteryarn--deploy-modeclusterexamples/src/main/python/ml/logistic_regression_with_elastic_net.py时,失败了。错误消息:容器以非零退出代码1退出通过比较这两个文件,我发现在将frompyspark.ml.classificati

hadoop - Spark - Snappy 库不可用

我正在尝试保存Mllib模型。我在Spark中运行的代码:model=RandomForest.trainClassifier(train_data,numClasses=2,categoricalFeaturesInfo=categoricalFeaturesInfo,numTrees=numTrees,featureSubsetStrategy="auto",impurity=impurity,maxDepth=maxDepth,maxBins=maxBins)model.save(sc,"file:///path/to/models/model_name")错误信息是:nativ

java - 来自 spark 本地的 Azure 特定读取文件

我正在为Azurewasbonspark苦苦挣扎我正在阅读从磁盘加载一个.json.gz文件并将其加载到hdfs。我在其他系统上广泛使用了以下代码。valfile_a_raw=sqlContext.read.json('/home/users/repo_test/file_a.json.gz')但是,在Azure上,这会返回:java.io.FileNotFoundException:Filewasb://server-2017-03-07t08-13-41-314z@server.blob.core.windows.net/home/users/repo_test/file_a.js

hadoop - 这是正确的 apache spark 使用场景吗?

我曾经是一名sql和c#开发人员,并且刚刚进入spark和hadoop世界。这是我日常工作的场景:我们有一些包含股票和基金价格数据的巨型表格。要获得有关股票或基金的表现或统计数据,我们必须检索每种工具的历史数据并进行数学计算。我们在c#中以多线程方式进行计算(即在我们的c#代码中,我们创建多个线程来从数据库加载数据并进行计算)。由于我对spark和Hadoop的经验极其有限,如果我们从c#迁移到spark,我的感受是:我需要将所有计算转换为python。我需要将SQL数据加载到HadoopSpark将负责运行我的函数,我不再需要编写多线程代码。Spark在内存中加载数据并进行并行计算,

hadoop - Hortonworks Oozie Spark 操作 - NullPointerException

我在HDP2.5.3和oozie4.2.0上运行。spark操作设置为以yarn-client模式运行。SparkJob用于从hive表中获取数据,对其进行处理并将其存储在HDFS中。但是当我尝试从SparkAction提交Spark应用程序时,我得到了NullPointerException。workflow.xml${job_tracker}${name_node}hive2.jdbc.url${hive_beeline_server}hive2.server.principal${hive_kerberos_principal}${job_tracker}${name_node}