sparking

hadoop - 无法在 dse 4.5 中运行 spark master 并且缺少 slaves 文件

我在DSE4.5中有5个节点集群正在运行。5个节点中有1个节点已启用hadoop_enabled和spark_enabled，但sparkmaster未运行。ERROR[Thread-709]2014-07-0211:35:48,519ExternalLogger.java(line73)SparkMaster:Exceptioninthread"main"org.jboss.netty.channel.ChannelException:Failedtobindto:/54.xxx.xxx.xxx:7077有人对此有任何想法吗？我也尝试导出SPARK_LOCAL_IP但这也不起作用DS

中运 hadoop scala at SparkILoop apache-spark datastax-enterprise cassandra-2.0

hadoop - Apache Spark 移动/重命名成功处理的文件

我想使用sparkstreaming(1.1.0-rc2Java-API)来处理一些文件，并在处理成功后移动/重命名它们，以便将它们推送到其他作业。我考虑过使用生成的RDD名称中包含的文件路径(newAPIHadoopFile)，但我们如何确定文件处理是否成功结束？也不确定这是实现它的正确方法，因此欢迎任何想法。编辑:这里有一些伪代码更清楚:logs.foreachRDD(newFunction2,Time,Void>(){@OverridepublicVoidcall(JavaRDDlog,Timetime)throwsException{StringfileName=log.nam

命名 hadoop section String 中包 apache-spark

hadoop - 小文件和 hadoop/spark - 每个原始文件都是一个计算单元

场景我有一个场景，我想可扩展地处理包含许多小文件(~0.7MB平均输入文件大小)的数据。因为这不适用于包含许多小文件的hdfsduetothe"smallfilesproblem"，我想我会将一种类型的所有输入文件(我们称之为A型)合并到一个hdfs文件中，并将另一种类型的文件(我们称之为B型)合并到另一个hdfs文件中，依此类推。然而，在我的例子中，我需要保留原始输入文件与其内容之间的关系——因为每个输入文件都应该作为一个单元单独处理，在我的例子中，在map-reduce作业中，这是由自然引起的我的数据。问题是:我应该如何标记每个输入文件在它到达的聚合文件中的边界？理想情况下，我会将

hadoop spark section code 文件 hdfs apache-spark

scala - 如何在我的 Spark 应用程序中使用 OpenHashSet？

根据private[spark]，我知道OpenHashSet在spark中是私有(private)的，但是当数据非常大时，通常我们需要更快的HashMap或HashSet实现。我如何在自己的代码中使用这些数据结构？或者是还有其他选择吗？谢谢! 最佳答案好吧，它是开源的，因此您可以fork/复制它，重命名包以避免冲突，并删除private[spark]限制。但是，当然这取决于Paul提到的您的具体用例。参见thisquestion法律问题。关于scala-如何在我的Spark应用程序

何在 OpenHashSet section stackoverflow questions scala hadoop hashmap apache-spark hashset

java - Spark SQL - 从另一个配置单元表错误将数据插入配置单元表

我想使用SparkSQL将数据从另一个hive表插入到hive表中。我遇到了以下错误。我的代码:SparkConfconf=newSparkConf().setAppName("GetHiveTableData");JavaSparkContextsc=newJavaSparkContext(conf);JavaHiveContexthiveCtx=newJavaHiveContext(sc);JavaSchemaRDDrdd=hiveCtx.sql("INSERTINTOTABLEtable1(aggregation_date,subnetwork,last_5_max)select

配置单 Spark section ParseDriver parse java hadoop apache-spark cloudera-cdh

hadoop - Spark over Yarn - 不正确的 Application Master 选择

我正在尝试使用以下命令在Yarn上使用Spark触发一些作业(这只是一个示例，实际上我使用的是不同数量的内存和内核):./bin/spark-submit--classorg.mypack.myapp\--masteryarn-cluster\--num-executors3\--driver-memory4g\--executor-memory2g\--executor-cores1\lib/myapp.jar\当我查看WebUI以查看幕后真正发生的事情时，我注意到YARN正在选择一个不是SparkMaster的节点作为ApplicationMaster。这是一个问题，因为真正的Sp

不正 Application Spark Master section hadoop apache-spark hadoop-yarn

hadoop - Spark : Hive Insert overwrite throws ClassNotFoundException

我有这段代码将schemaRDD(person)保存到存储为parquet(person_parquet)的Hive表中hiveContext.sql("insertoverwritetableperson_parquetselect*fromperson")但是它抛出一个错误:java.lang.RuntimeException:org.apache.hadoop.hive.ql.metadata.HiveException:java.lang.ClassNotFoundException:org.apache.hadoop.hive.ql.security.authorizatio

ClassNotFoundException overwrite apache hive java hadoop apache-spark hiveql apache-spark-sql

hadoop - 如何从 CDH 5.4.4 上的 Spark 查询 Hive

我正在运行CDH5.4.4(它捆绑了Spark1.3.0)并希望将Hive表读入Spark数据帧。查看文档，建议我们可以执行以下操作:frompyspark.sqlimportHiveContextsqlContext=HiveContext(sc)results=sqlContext.sql("SHOWTABLES").collect()...假设Spark是使用-Phive和-Phive-thriftserver标志集构建的。我不确定Cloudera的构建是否设置了这些标志。当我运行代码片段时，它返回以下错误:15/07/1016:54:10WARNHiveMetaStore:Re

hadoop Spark code section hive apache-spark pyspark

hadoop - Spark ThriftServer 无法以安全模式启动

在具有kerberos的Hadoop-2.7.1安全集群上配置了Spark-1.4.1和Hive-1.2.1。在未启用sasl的情况下启动外部元存储。我可以使用直线在Hiveserver2中执行基本操作。尝试启动SparkThrift服务器时，出现与委托(delegate)token相关的异常。命令spark-submit--classorg.apache.spark.deploy.history.HistoryServer--masteryarn-clientC:\Spark\lib\spark-core_2.10-1.4.0.jarSpark异常15/07/2816:07:31IN

ThriftServer hadoop apache java org apache-spark hive kerberos

hadoop - 从 ResourceManager GUI 访问终止的 Spark 作业日志

我在YARN上运行Spark应用程序，当我使用以下方法终止作业时:yarnapplicationkill-applicationIdapplication_XYZ我无法从HadoopGUI(ResourceManager)转到被杀死的应用程序的SparkJobGUI。当我直接打开Spark历史服务器并尝试显示不完整的应用程序应用程序日志时，它起作用了。当作业完成(未终止)时，日志可以这样显示:HadoopGUI->Sparkhistoryserver。我正在使用YARN日志聚合服务来聚合日志。另外，我可以使用以下方法访问应用程序日志:yarnlogs-applicationIdappl

ResourceManager hadoop section Spark application apache-spark

231 232 233234235 236 237