spark-submit

hadoop - 管理报告，当我们的数据库是 Cassandra ...Spark 或 Solr ...或两者？

我的数据库是Cassandra(datastaxenterprise=>linux)。由于它不支持group-by、aggregate等报告，根据其基本原理，完全使用Cassandra不是一个好的决定。我用谷歌搜索了这个赤字，发现了一些结果this,和this还有thisone.可是我真的糊涂了!Hive单独使用附加表。Solr更适合全文搜索等。还有Spark...它对分析很有用，但是，我不明白它最终是否使用Hadoop。我会有很多报告，至少需要索引和分组。但是我不想使用额外的表来增加开销。而且，我是.Net(而非Java)开发人员，我的应用程序也基于.NetFramework。

Cassandra 两者 strong section hadoop solr apache-spark apache-hive

hadoop - yarn模式提交spark应用时出现异常

异常:java.lang.NoSuchMethodError:org.apache.http.client.utils.URLEncodedUtils.parse(Ljava/lang/String;Ljava/nio/charset/Charset;)Ljava/util/List; 最佳答案这是库版本冲突的情况。你应该检查几件事:你的运行时类路径是什么，特别是检查来自hadoop安装的库。如果有的话，你的fat-jar带来了哪些图书馆。您使用--jar选项添加的库。您还应该检查spark依赖于哪些库。一切都应该是一致的，但你的

时出 hadoop section strong apache-spark hadoop-yarn

hadoop - 无法通过 Gremlin Shell 安装 Hadoop 和 Spark

我正在尝试通过Gremlinshell安装hadoop-gremlin和spark-gremlin。我下载了Gremlinconsole3.2.0-incubating.当我运行bin/gremlin.sh时，gremlin控制台启动时没有错误。但是，我无法安装spark-gremlin或hadoop-gremlin。gremlin>:installorg.apache.tinkerpopspark-gremlin3.2.0-incubating==>ErrorgrabbingGrapes--[unresolveddependency:com.github.jeremyh#jBCryp

Gremlin hadoop 34 code apache-spark tinkerpop

hadoop - Apache Spark 通过跨集群访问 hdfs 中的数据

我在AmazonEMR上运行Spark，假设其公共(public)DNS为23.21.40.15。现在我正在这个集群上执行我的SparkJar，我想将我的Spark作业的输出写入公共(public)DNS为29.45.56.72的其他AmazonEMRHDFS。我可以访问我自己的集群HDFS，即23.21.40.15，但我无法写入集群29.45.56.72。我需要做什么才能让我的spark作业可以跨集群访问HDFS??如果可能，谁能分享一个示例代码？？最佳答案当您在spark作业中设置输出目录时，您可以设置凭据以像这样访问它:h

hadoop Apache section code Spark apache-spark amazon-emr databricks

hadoop - 使用 spark/scala，我使用 saveAsTextFile() 到 HDFS，但是 hiveql("select count(*) from...) return 0

我创建了如下外部表...hive-e"createexternaltabletemp_db.temp_table(achar(10),bint)PARTITIONEDBY(PART_DATEVARCHAR(10))ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'STOREDASTEXTFILELOCATION'/work/temp_db/temp_table'"我在IntelliJIDEA中将saveAsTextFile()与scala一起使用，如下所示...itemsRdd.map(_.makeTsv).saveAsTextFile("hdfs://w

saveAsTextFile hadoop code temp_table temp hive hdfs hiveql

hadoop - Hbase Upsert 与 Spark

我有sparkstreaming工作，在这个过程中有些人正在做一些聚合，现在我想将该记录插入到HBase但它不是典型的插入我想做UPSERT如果rowkey可用而不是列值sum(newvalue+oldvalue)应该发生。有人在java中共享伪代码吗？我该如何实现？最佳答案像这样的……byte[]rowKey=null;//ProvidedTabletable=null;//ProvidedlongnewValue=1000;//Providedbyte[]FAMILY=newbyte[]{0};//Definedbyte[]

hadoop Upsert section byte QUALIFIER apache-spark hbase

performance - 我如何评估我的 spark 应用程序

你好我刚刚创建了我的第一个spark应用程序，现在我可以访问一个集群(12个节点，每个节点有2个处理器Intel(R)Xeon(R)CPUE5-26502.00GHz，每个处理器有8个内核)，我想知道帮助我调整应用程序和观察其性能的标准是什么。我已经访问过spark的官方网站，它在谈论数据序列化，但我无法确切地了解它是什么或如何指定它。它也在谈论“内存管理”、“并行级别”，但我不明白如何控制这些。还有一件事，我知道数据的大小有影响，但我拥有的所有files.csv文件的大小都很小，我怎样才能获得大文件(10GB、20GB、30GB、50GB,100GB,300GB,500GB)请尽量为

performance spark section strong csv hadoop apache-spark cluster-computing

hadoop - 从 sbt 文件中的 spark 库中排除 hadoop 依赖

我正在开发spark1.3.0。我的build.sbt看起来如下:libraryDependencies++=Seq("org.apache.spark"%%"spark-core"%"1.3.0"%"provided","org.apache.spark"%%"spark-sql"%"1.3.0"%"provided","org.apache.spark"%%"spark-streaming"%"1.3.0"%"provided","org.apache.spark"%%"spark-mllib"%"1.3.0"%"provided","org.springframework.sec

hadoop 中排 34 spark section apache-spark sbt spark-streaming hadoop2

hadoop - 在 spark-submit 执行时覆盖 core-site.xml 属性值

有没有办法在执行sparksubmit时覆盖core-site属性值？我可以在spark-env.sh中使用HADOOP_CONF_DIR变量来指向一个新的核心站点文件，但我只想覆盖几个值以便为每个spark作业使用不同的存储帐户。最佳答案找到了我自己问题的答案。hadoop相关的配置可以通过预先固定“spark.hadoop”到属性键来覆盖，然后提交给sparkconf。即Spark提交--sparkconfspark.hadoop.io.file.buffer.size12952查看源代码:https://github.co

行时 spark-submit section spark hadoop apache-spark

hadoop - CentOS 7 上的 Spark 和 IPython

我正在试验Hadoop和Spark，因为我工作的公司正准备开始加速Hadoop，并希望使用Spark和其他资源对我们的数据进行大量机器学习。大部分都落在我身上，所以我正在通过自己的学习来准备。我有一台机器，我已将其设置为单节点Hadoop集群。这是我所拥有的:CentOS7(最小服务器安装，为GUI添加了XOrg和OpenBox)python2.7Hadoop2.7.2星火2.0.0我按照这些指南进行了设置:http://www.tecmint.com/install-configure-apache-hadoop-centos-7/http://davidssysadminnotes

IPython hadoop Spark section apache-spark pyspark

225 226 227228229 230 231