spark-ml_草庐IT

hadoop - 是否可以在单 Spark 上下文中收听两个 dtsream？

我使用Spark1.4.1。我想同时收听两个不同的流，并在两个流中找到共同的事件。例如:假设一个温度数据流和另一个压力数据流。我想同时收听这两个流，并在两者都很高时发出警报。我有两个问题是否可以在一个spark中处理两个不同的流上下文。是否可以在单个驱动程序中拥有多个具有可变窗口大小的spark上下文。关于如何处理上述情况的任何其他想法也将不胜感激。谢谢最佳答案您可以从同一个StreamingContext创建多个DStream。例如valdstreamTemp:DStream[String,Int]=KafkaUtils.cr

文中收听 section code hadoop apache-spark apache-spark-sql pyspark spark-streaming

java - 将两个存在于 hive 中的 spark 表连接起来

我已经在eclipse中编写了Java程序来连接spark中的两个表，但是在package附近出现错误这是下面的错误Thetypescala.reflect.api.TypeTags$TypeTagcannotberesolved.Itisindirectlyreferencedfromrequired.classfiles这是我写的程序packagejoins;importorg.apache.spark.SparkConf;importorg.apache.spark.SparkContext;importorg.apache.spark.api.java.JavaSparkCon

spark java sqlContext table scala hadoop apache-spark-sql

scala - 使用自定义 Hadoop 输入格式在 Spark 中处理二进制文件

我开发了一个基于hadoop的解决方案来处理二进制文件。这使用经典的hadoopMR技术。二进制文件大约10GB，分为73个HDFSblock，写成map进程的业务逻辑分别在这73个block上运行。我们在Hadoop中开发了一个customInputFormat和CustomRecordReader，将key(intWritable)和value(BytesWritable)返回给map函数。该值只是HDFSblock的内容(二进制数据)。业务逻辑知道如何读取这些数据。现在，我想将这段代码移植到spark中。我是spark的初学者，可以在spark中运行简单的示例(wordcount

自定 Hadoop code section scala apache-spark

python - 仅映射 spark 中的作业(与 hadoop 流相比)

我有一个函数process_line可以将输入格式映射到输出格式有些行已损坏，需要忽略。我成功地将此代码作为python流作业运行:forinput_lineinsys.stdin:try:output_line=process_line(input_line.strip())print(output_line)except:sys.stderr.write('Errorwithline:{l}\n'.format(l=input_line))continue如何在pyspark中运行等效代码？这是我尝试过的:input=sc.textFile(input_dir,1)output=l

python hadoop section line output apache-spark pyspark hadoop-streaming

scala - Spark 中的 RDD 持久化

这个问题在这里已经有了答案:(Why)doweneedtocallcacheorpersistonaRDD(5个答案)关闭7年前。我有一个关于RDD何时存储在内存中的问题。假设我有这段代码:valdataset=originalDataset.flatMap(data=>modifyDatasetFormat(data,mappingsInMap)).persist(StorageLevel.MEMORY_AND_DISK)到目前为止，我有一个RDD存储在每个工作节点的内存中。问题:如果我对这个RDD进行另一个转换或操作，这个持久性是否会停止存在并且我应该创建另一个或者它与它没有任何关

持久 scala section code notice hadoop apache-spark rdd

scala - Spark - SQL : value implicits is not a member of org. apache.spark.sql.SQLContext

您好，请找到下面的代码和相应的错误:即使我使用了导入语句，但仍然出现错误importorg.apache.spark.sql._valsparkConf=newSparkConf().setAppName("new_proj")implicitvalsc=newSparkContext(sparkConf)valsqlContext=neworg.apache.spark.sql.SQLContext(sc)importsqlContext._importsqlContext.implicits._valprojects=sqlContext.read.json("/part-m-00

SQLContext implicits spark 34 apache scala hadoop sbt apache-spark-sql spark-streaming

hadoop - 在现有的 Hortonworks HDP 集群中安装 Spark 1.5

我是Hadoop的新手，想知道如何在现有的Hadoop集群上安装Spark1.5.1。4个节点，Ubuntu14.04。Hadoop2.3.2。安巴里版本2.1.2.1。已关注tutorial，但是有Ubuntu12的spark版本，我无法在我们的系统上安装它。所以在第1步之后我坚持了下来。sudoapt-getinstallspark_2_3_2_1_12-master-y出现错误:Readingpackagelists...DoneBuildingdependencytreeReadingstateinformation...DoneE:Unabletolocatepackages

中安 Hortonworks section Spark hadoop apache-spark hortonworks-data-platform

python-2.7 - 将本地 IPython 笔记本连接到气隙集群上的 Spark

我有一台用于日常工作的W7机器。我的公司在私有(private)云上也有一个气隙Hadoop集群。我只能通过腻子访问云。当我想在集群上使用Spark时，我会启动putty，然后执行以下两项操作之一:只需从shell启动pyspark使用VNC访问集群上的RedHatGUI并从那里以Spark模式启动IPythonnotebook有没有办法使用我的本地W7IPython笔记本连接到Spark？在DanielDarabos发表评论后经过一些尝试和错误后进行编辑我按照thistutorial在我的W7机器上本地安装了Spark.然后，我创建了一个新的pyspark配置文件，并在thistut

气隙本连 SparkContext Spark python-2.7 hadoop ipython-notebook putty pyspark

hadoop - 从 Spark-JobServer(本地实例)连接到 Hadoop

我运行一个虚拟机，上面有Hadoop和Spark-JobServer的本地实例。我在HDFS上创建了一个名为“test.txt”的文件，我想从Spark-JobServer打开它。为此，我编写了以下代码:valtest1=sc.textFile("hdfs://quickstart.cloudera:8020/test.txt")valtest2=test1.countreturntest2但是，当我想运行这些行时，我在Spark-JobServer中遇到错误:"Inputpathdoesnotexist:hdfs://quickstart.cloudera:8020/test.txt

Spark-JobServer JobServer code test section hadoop apache-spark

hadoop - Spark 无法检索特定列中的所有 Hbase 数据

我的Hbase表有3000万条记录，每条记录都有raw:sample列，raw是columnfamilysample是column。这个栏目很大，大小从几KB到50MB不等。当我运行下面的Spark代码时，它只能得到4万条记录，但我应该得到3000万条记录:valconf=HBaseConfiguration.create()conf.set("hbase.zookeeper.quorum","10.1.1.15:2181")conf.set(TableInputFormat.INPUT_TABLE,"sampleData")conf.set(TableInputFormat.SCAN

hadoop Spark code 34 section apache-spark mapreduce hbase