sparking_草庐IT

java - 使用 spark 读取 hbase 表

我有一个包含216列的表“Gazelle”，我想在javaPairRDD中获取它们的一些列。我试图点击此链接:Howtoreadfromhbaseusingspark还有这个:howtofetchallofdatafromhbasetableinspark为了导入我需要的所有jar，我已将此依赖项添加到我的pom文件中:'http://maven.apache.org/xsd/maven-4.0.0.xsd">4.0.0fr.aid.cimspark-poc1.0-SNAPSHOTorg.apache.sparkspark-core_2.101.1.0org.apache.hbaseh

hbase spark gt lt java maven hadoop apache-spark

hadoop - Spark : Silently execute sc. wholeTextFiles

我正在使用input=sc.wholeTextFiles(hdfs://path/*)在Spark中加载大约200k个文本文件然后我运行println(input.count)事实证明，我的sparkshell输出了大量文本(这是每个文件的路径)，过了一会儿它就挂起而没有返回我的结果。我相信这可能是由于wholeTextFiles输出的文本量所致。你知道有什么方法可以静默运行这个命令吗？还是有更好的解决方法？谢谢! 最佳答案您的文件有多大？来自wholeTextFilesAPI:Smallfilesarepreferred,lar

wholeTextFiles Silently code section hadoop apache-spark

hadoop - 无法在 Spark-1.2.0 上部署工作人员

我是spark的新手，将spark-1.2.0与hadoop2.4.1结合使用。我已经设置了主节点和四个从节点。但是我的两个节点没有启动。我在spark-1.2.0/conf/目录下的slaves文件中定义了节点的IP地址。但是当我尝试运行./sbin/start-all.sh时，错误如下:failedtolaunchorg.apache.spark.deploy.worker.Workercouldnotfindorloadmainclassorg.apache.spark.deploy.worker.Worker这发生在两个节点上。其他两个工作正常。我还在主服务器和从服务器中设置了

上部工作人员 code spark section hadoop bigdata apache-spark

hadoop - Spark : Export graph data to anything (Hive, 文本等)

我有一个以这种方式创建的星图valgraph=Graph(vertices,edges,defaultArticle).cache我的顶点是RDD[(Long,(String,Option[String],List[String],Option[String])]我的边是RDD[Edge[长]]如何将此图形/边/顶点保存到Hive/文本文件/其他任何内容，以及如何读回它？我查看了SparkSQL文档和Spark核心文档，但我仍然没有成功。如果我执行saveAsTextFile()，那么当我读回它时，它是一个RDD[String]，这不是我需要的....编辑:Daniel提供了另存为对象

anything hadoop code section String hive apache-spark rdd

macos - 在 Spark 和 Hadoop 之间共享数据(Mahout)

我的应用程序使用Spark进行一些数据处理并将其保存为RDD；我正在使用“本地”属性初始化SparkContext。我想在此数据集上使用Mahout，但在2个应用程序之间共享此数据的最佳方式是什么？我是大数据生态系统的新手，所以答案对我来说并不是很明显。附注我还在本指南的帮助下在本地安装了Hadoophttp://amodernstory.com/2014/09/23/installing-hadoop-on-mac-osx-yosemite/并能够运行它。最佳答案由于您的数据位于RDD中，因此只能从创建它的上下文中访问它，除非

Hadoop Mahout section installing-hadoop-on-mac-osx-yose macos apache-spark bigdata

hadoop - 调用 Spark SaveAsTextFile 方法时如何获取生成的文件名

我是Spark、Hadoop以及所有相关产品的新手。我的全局需求是构建一个实时应用程序来获取推文并将其存储在HDFS上，以便构建基于HBase的报告。我想在调用saveAsTextFileRRD方法时获取生成的文件名，以便将其导入Hive。请随时询问更多信息，在此先致谢。最佳答案 saveAsTextFile将创建一个序列文件目录。所以如果你给它路径“hdfs://user/NAME/saveLocation”，一个名为saveLocation的文件夹将被创建，里面装满了序列文件。您应该能够通过将目录名称传递给HBase将其加载到

SaveAsTextFile hadoop section stackoverflow apache-spark hive spark-streaming

scala - Zeppelin 集群模式不适用于 spark 1.2 Ambari、Hortonworks Cluster

我正在尝试部署一个集群并在其上运行一些示例Spark/scala代码，虽然当我在独立模式下使用默认参数使用zeppelin时一切正常，但我无法让它在集群模式下工作。我尝试在spark中使用spark-class和start-master标准shell文件手动创建spark集群，然后通过spark://..Zeppelin的URL，但是在运行代码后，我不断收到不同的异常错误(例如缺少javasys.process._库)，一段时间后，sparkworker的状态在SparkMasterUI中变为DEAD我还尝试将yarn-client而不是spark-URL放入zeppelinspark

Hortonworks Zeppelin section spark scala hadoop apache-spark ambari apache-zeppelin

java - 多节点 hadoop 集群中的 Apache Spark Sql 问题

您好，我正在使用Sparkjavaapi从配置单元获取数据。此代码在hadoop单节点集群中工作。但是当我尝试在hadoop多节点集群中使用它时，它会抛出错误org.apache.spark.SparkException:Detectedyarn-clustermode,butisn'trunningonacluster.DeploymenttoYARNisnotsupporteddirectlybySparkContext.Pleaseusespark-submit.注意:对于单节点，我使用master作为本地，对于多节点，我使用yarn-cluster。这是我的java代码Spar

hadoop Apache scala spark java apache-spark apache-spark-sql

hadoop - Mapreduce Vs Spark Vs Storm Vs Drill——对于小文件

我知道spark进行内存计算并且比MapReduce快得多。我想知道spark对于sayrecords我在后端使用MapReduce的hive中进行数据质量检查。每个文件大约需要8分钟，这对我来说很糟糕。spark会给我更好的表现吗？比方说2-3分钟？我知道我必须做一个基准测试，但在我真正开始使用Spark之前，我试图了解这里的基础知识。我记得第一次创建RDD是一项开销，因为我必须为每个传入的文件创建一个新的RDD，这会花费我一些钱。我很困惑哪种方法对我来说是最好的方法-spark、drill、storm还是Mapreduce本身？最佳答案

于小文 mdash section noreferrer drill hadoop apache-spark hive apache-storm apache-drill

scala - Spark streaming 和 Dstream 如何工作？

我对Spark有相当多的经验。但是，我是第一次学习Sparkstreaming，发现它很难理解。很难理解应用程序的流程。例如，对于下面网站给出的例子http://ampcamp.berkeley.edu/3/exercises/realtime-processing-with-spark-streaming.html第3部分的代码。进一步的练习，我们有valwords=statuses.flatMap(status=>status.split(""))valhashtags=words.filter(word=>word.startsWith("#"))valcounts=hashta

streaming Dstream code section RDD scala hadoop apache-spark bigdata