草庐IT

sparking

全部标签

hadoop - 无法在 dse 4.5 中运行 spark master 并且缺少 slaves 文件

我在DSE4.5中有5个节点集群正在运行。5个节点中有1个节点已启用hadoop_enabled和spark_enabled,但sparkmaster未运行。ERROR[Thread-709]2014-07-0211:35:48,519ExternalLogger.java(line73)SparkMaster:Exceptioninthread"main"org.jboss.netty.channel.ChannelException:Failedtobindto:/54.xxx.xxx.xxx:7077有人对此有任何想法吗?我也尝试导出SPARK_LOCAL_IP但这也不起作用DS

hadoop - Apache Spark 移动/重命名成功处理的文件

我想使用sparkstreaming(1.1.0-rc2Java-API)来处理一些文件,并在处理成功后移动/重命名它们,以便将它们推送到其他作业。我考虑过使用生成的RDD名称中包含的文件路径(newAPIHadoopFile),但我们如何确定文件处理是否成功结束?也不确定这是实现它的正确方法,因此欢迎任何想法。编辑:这里有一些伪代码更清楚:logs.foreachRDD(newFunction2,Time,Void>(){@OverridepublicVoidcall(JavaRDDlog,Timetime)throwsException{StringfileName=log.nam

hadoop - 小文件和 hadoop/spark - 每个原始文件都是一个计算单元

场景我有一个场景,我想可扩展地处理包含许多小文件(~0.7MB平均输入文件大小)的数据。因为这不适用于包含许多小文件的hdfsduetothe"smallfilesproblem",我想我会将一种类型的所有输入文件(我们称之为A型)合并到一个hdfs文件中,并将另一种类型的文件(我们称之为B型)合并到另一个hdfs文件中,依此类推。然而,在我的例子中,我需要保留原始输入文件与其内容之间的关系——因为每个输入文件都应该作为一个单元单独处理,在我的例子中,在map-reduce作业中,这是由自然引起的我的数据。问题是:我应该如何标记每个输入文件在它到达的聚合文件中的边界?理想情况下,我会将

scala - 如何在我的 Spark 应用程序中使用 OpenHashSet?

根据private[spark],我知道OpenHashSet在spark中是私有(private)的,但是当数据非常大时,通常我们需要更快的HashMap或HashSet实现。我如何在自己的代码中使用这些数据结构?或者是还有其他选择吗?谢谢! 最佳答案 好吧,它是开源的,因此您可以fork/复制它,重命名包以避免冲突,并删除private[spark]限制。但是,当然这取决于Paul提到的您的具体用例。参见thisquestion法律问题。 关于scala-如何在我的Spark应用程序

java - Spark SQL - 从另一个配置单元表错误将数据插入配置单元表

我想使用SparkSQL将数据从另一个hive表插入到hive表中。我遇到了以下错误。我的代码:SparkConfconf=newSparkConf().setAppName("GetHiveTableData");JavaSparkContextsc=newJavaSparkContext(conf);JavaHiveContexthiveCtx=newJavaHiveContext(sc);JavaSchemaRDDrdd=hiveCtx.sql("INSERTINTOTABLEtable1(aggregation_date,subnetwork,last_5_max)select

hadoop - Spark over Yarn - 不正确的 Application Master 选择

我正在尝试使用以下命令在Yarn上使用Spark触发一些作业(这只是一个示例,实际上我使用的是不同数量的内存和内核):./bin/spark-submit--classorg.mypack.myapp\--masteryarn-cluster\--num-executors3\--driver-memory4g\--executor-memory2g\--executor-cores1\lib/myapp.jar\当我查看WebUI以查看幕后真正发生的事情时,我注意到YARN正在选择一个不是SparkMaster的节点作为ApplicationMaster。这是一个问题,因为真正的Sp

hadoop - Spark : Hive Insert overwrite throws ClassNotFoundException

我有这段代码将schemaRDD(person)保存到存储为parquet(person_parquet)的Hive表中hiveContext.sql("insertoverwritetableperson_parquetselect*fromperson")但是它抛出一个错误:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.ClassNotFoundException:org.apache.hadoop.hive.ql.security.authorizatio

hadoop - 如何从 CDH 5.4.4 上的 Spark 查询 Hive

我正在运行CDH5.4.4(它捆绑了Spark1.3.0)并希望将Hive表读入Spark数据帧。查看文档,建议我们可以执行以下操作:frompyspark.sqlimportHiveContextsqlContext=HiveContext(sc)results=sqlContext.sql("SHOWTABLES").collect()...假设Spark是使用-Phive和-Phive-thriftserver标志集构建的。我不确定Cloudera的构建是否设置了这些标志。当我运行代码片段时,它返回以下错误:15/07/1016:54:10WARNHiveMetaStore:Re

hadoop - Spark ThriftServer 无法以安全模式启动

在具有kerberos的Hadoop-2.7.1安全集群上配置了Spark-1.4.1和Hive-1.2.1。在未启用sasl的情况下启动外部元存储。我可以使用直线在Hiveserver2中执行基本操作。尝试启动SparkThrift服务器时,出现与委托(delegate)token相关的异常。命令spark-submit--classorg.apache.spark.deploy.history.HistoryServer--masteryarn-clientC:\Spark\lib\spark-core_2.10-1.4.0.jarSpark异常15/07/2816:07:31IN

hadoop - 从 ResourceManager GUI 访问终止的 Spark 作业日志

我在YARN上运行Spark应用程序,当我使用以下方法终止作业时:yarnapplicationkill-applicationIdapplication_XYZ我无法从HadoopGUI(ResourceManager)转到被杀死的应用程序的SparkJobGUI。当我直接打开Spark历史服务器并尝试显示不完整的应用程序应用程序日志时,它起作用了。当作业完成(未终止)时,日志可以这样显示:HadoopGUI->Sparkhistoryserver。我正在使用YARN日志聚合服务来聚合日志。另外,我可以使用以下方法访问应用程序日志:yarnlogs-applicationIdappl