sparking

hadoop - Apache Spark DataFrame 是否为每次处理从数据库加载数据，或者除非另有说明，否则它是否使用相同的数据？

我们有一个用例，我们需要搜索满足特定条件的特定记录。我们需要识别记录的这些条件有多种。我们计划使用apacheSparkDataframes。ApacheSpark数据帧是否为我们计划执行的每个搜索从db加载表数据，或者它是否在spark集群节点之间加载和分发表数据一次，然后在这些节点上运行搜索条件，直到它被明确告知加载数据来自数据库？最佳答案如果您使用.cache()或.persist()命令创建数据帧，那么它会尝试将数据帧持久保存在内存中。如果您不使用.cache创建它，那么它会按需从源数据集中读取数据。如果没有足够的可用内

另有 DataFrame section Spark 数据 hadoop apache-spark apache-spark-sql

hadoop - 是否可以在 SPARK 中覆盖 Hadoop 配置？

是否可以在SPARK中覆盖Hadoop配置，以便自动解析NameNodeIP？目前，由于现有的Hadoop配置(我无法修改，因为它可能会影响我的常规HDFS)，我得到了UnknownHostException。最佳答案任何以spark.hadoop.前缀传入的内容都将被视为Hadoop配置覆盖。valconf=newSparkConfconf.set("spark.hadoop.HADOOPCONFKEY","VALUE")valsc=newSparkContext(conf)或者您传递到hadoopRDDconf中的任何内容都

hadoop section code apache-spark

hadoop - 是否可以在单 Spark 上下文中收听两个 dtsream？

我使用Spark1.4.1。我想同时收听两个不同的流，并在两个流中找到共同的事件。例如:假设一个温度数据流和另一个压力数据流。我想同时收听这两个流，并在两者都很高时发出警报。我有两个问题是否可以在一个spark中处理两个不同的流上下文。是否可以在单个驱动程序中拥有多个具有可变窗口大小的spark上下文。关于如何处理上述情况的任何其他想法也将不胜感激。谢谢最佳答案您可以从同一个StreamingContext创建多个DStream。例如valdstreamTemp:DStream[String,Int]=KafkaUtils.cr

文中收听 section code hadoop apache-spark apache-spark-sql pyspark spark-streaming

java - 将两个存在于 hive 中的 spark 表连接起来

我已经在eclipse中编写了Java程序来连接spark中的两个表，但是在package附近出现错误这是下面的错误Thetypescala.reflect.api.TypeTags$TypeTagcannotberesolved.Itisindirectlyreferencedfromrequired.classfiles这是我写的程序packagejoins;importorg.apache.spark.SparkConf;importorg.apache.spark.SparkContext;importorg.apache.spark.api.java.JavaSparkCon

spark java sqlContext table scala hadoop apache-spark-sql

scala - 使用自定义 Hadoop 输入格式在 Spark 中处理二进制文件

我开发了一个基于hadoop的解决方案来处理二进制文件。这使用经典的hadoopMR技术。二进制文件大约10GB，分为73个HDFSblock，写成map进程的业务逻辑分别在这73个block上运行。我们在Hadoop中开发了一个customInputFormat和CustomRecordReader，将key(intWritable)和value(BytesWritable)返回给map函数。该值只是HDFSblock的内容(二进制数据)。业务逻辑知道如何读取这些数据。现在，我想将这段代码移植到spark中。我是spark的初学者，可以在spark中运行简单的示例(wordcount

自定 Hadoop code section scala apache-spark

python - 仅映射 spark 中的作业(与 hadoop 流相比)

我有一个函数process_line可以将输入格式映射到输出格式有些行已损坏，需要忽略。我成功地将此代码作为python流作业运行:forinput_lineinsys.stdin:try:output_line=process_line(input_line.strip())print(output_line)except:sys.stderr.write('Errorwithline:{l}\n'.format(l=input_line))continue如何在pyspark中运行等效代码？这是我尝试过的:input=sc.textFile(input_dir,1)output=l

python hadoop section line output apache-spark pyspark hadoop-streaming

scala - Spark 中的 RDD 持久化

这个问题在这里已经有了答案:(Why)doweneedtocallcacheorpersistonaRDD(5个答案)关闭7年前。我有一个关于RDD何时存储在内存中的问题。假设我有这段代码:valdataset=originalDataset.flatMap(data=>modifyDatasetFormat(data,mappingsInMap)).persist(StorageLevel.MEMORY_AND_DISK)到目前为止，我有一个RDD存储在每个工作节点的内存中。问题:如果我对这个RDD进行另一个转换或操作，这个持久性是否会停止存在并且我应该创建另一个或者它与它没有任何关

持久 scala section code notice hadoop apache-spark rdd

scala - Spark - SQL : value implicits is not a member of org. apache.spark.sql.SQLContext

您好，请找到下面的代码和相应的错误:即使我使用了导入语句，但仍然出现错误importorg.apache.spark.sql._valsparkConf=newSparkConf().setAppName("new_proj")implicitvalsc=newSparkContext(sparkConf)valsqlContext=neworg.apache.spark.sql.SQLContext(sc)importsqlContext._importsqlContext.implicits._valprojects=sqlContext.read.json("/part-m-00

SQLContext implicits spark 34 apache scala hadoop sbt apache-spark-sql spark-streaming

hadoop - 在现有的 Hortonworks HDP 集群中安装 Spark 1.5

我是Hadoop的新手，想知道如何在现有的Hadoop集群上安装Spark1.5.1。4个节点，Ubuntu14.04。Hadoop2.3.2。安巴里版本2.1.2.1。已关注tutorial，但是有Ubuntu12的spark版本，我无法在我们的系统上安装它。所以在第1步之后我坚持了下来。sudoapt-getinstallspark_2_3_2_1_12-master-y出现错误:Readingpackagelists...DoneBuildingdependencytreeReadingstateinformation...DoneE:Unabletolocatepackages

中安 Hortonworks section Spark hadoop apache-spark hortonworks-data-platform

python-2.7 - 将本地 IPython 笔记本连接到气隙集群上的 Spark

我有一台用于日常工作的W7机器。我的公司在私有(private)云上也有一个气隙Hadoop集群。我只能通过腻子访问云。当我想在集群上使用Spark时，我会启动putty，然后执行以下两项操作之一:只需从shell启动pyspark使用VNC访问集群上的RedHatGUI并从那里以Spark模式启动IPythonnotebook有没有办法使用我的本地W7IPython笔记本连接到Spark？在DanielDarabos发表评论后经过一些尝试和错误后进行编辑我按照thistutorial在我的W7机器上本地安装了Spark.然后，我创建了一个新的pyspark配置文件，并在thistut

气隙本连 SparkContext Spark python-2.7 hadoop ipython-notebook putty pyspark

183 184 185186187 188 189