草庐IT

apache-spark-1.3

全部标签

apache nutch提取和更新阶段

我有一个疑问,关于Nutch获得链接以更新CrawldB的方式。有问题的命令是bin/nutchupdatedbcrawl/crawldb$s1我需要编写一个自定义解析器,在此之前,我已经检查了Nutch的源代码,就我而言,我负责通过从文档中提取并将其放入ASOutlink来提供更新CRAWLDB的链接来更新CRAWLDB[]在Parsedata中。至少这就是我从中了解的这个.如果我错了,请纠正我,因为我不希望我的爬行者在第一次迭代后停下来,因为它不会有更新crawldb的链接。看答案纽约都使用parse-html或者parse-tika为了解析您的爬行URL(通常是HTML)在此阶段,提取和

hadoop - Apache Spark - Python - 如何在 Pyspark 中使用范围函数

我有几行空格分隔的输入数据:NameCompanyStart_DateEnd_DateNareshHDFC2017-01-012017-03-31AnoopICICI2017-05-012017-07-30我需要输出为:NareshHDFC201701NareshHDFC201702NareshHDFC201703AnoopICICI201705AnoopICICI201706AnoopICICI201707我已经为这些数据制作了一个文本文件,并将其放在我的Hadoop集群上,我已经编写了代码,但在获取输出时遇到了一些问题。请帮忙。我不知道如何从条目中提取月份并将它们放入范围函数中,所

apache-spark - 使用 Spark 写入外部 Hadoop

我正在使用Java-Spark。我正在尝试写入外部HDFS目录,如下所示:df.write().mode(mode).save("hdfs://myservername:8020/user/path/to/hdfs");并得到一个异常(exception)hostdetails:localhostis:...destinationhostis:...如何从Spark写入“外部”hdfs目录而不写入本地Hadoop/HDFS?谢谢 最佳答案 检查HDFSNamenode主机名是否可以从Spark集群访问,您也可以使用ip地址。hdfs

java - Apache Pig,程序运行问题

REGISTER/home/hadoop/pigg/trunk/contrib/piggybank/java/piggybank.jar;--UsethePigStoragefunctiontoloadtheexcitelogfileintotherawbagasanarrayofrecords.--Input:(user,time,query)A=LOAD'hadoop-test-data.csv'USINGPigStorage(',')AS(user:chararray,site:chararray,view:int,click:int);B=FOREACHAGENERATEorg

Spark在Windows下的环境搭建及pyspark的使用

  一、JDK的安装    Spark是一个用于大数据处理的开源框架,它是用Scala编写的,而Scala是一种运行在Java虚拟机(JVM)上的编程语言,因此它依赖于Java的运行环境。所以首先需要安装JDK(JavaTMPlatformStandardEditionDevelopmentKit),并将环境变量配置好。可参考我的另一篇博客:http://t.csdnimg.cn/6Kj8w二、Spark的安装1.下载Spark        从Spark官网进行下载:ApacheSpark™-UnifiedEngineforlarge-scaledataanalytics,点击Downloa

hadoop - 在 Apache Spark 中使用 Reduce

我正在尝试使用Apachespark加载一个文件,并将该文件分发到我集群中的多个节点,然后聚合结果并获取它们。我不太明白该怎么做。根据我的理解,reduce操作使Spark能够组合来自不同节点的结果并将它们聚合在一起。我的理解正确吗?从编程的角度来看,我不明白我将如何编写这个reduce函数。我究竟如何将主数据集分成N个部分,并使用转换列表要求它们并行处理?reduce应该接受两个元素和一个将它们组合起来的函数。这两个元素应该是Spark上下文中的RDD,还是可以是任何类型的元素?另外,如果你有N个不同的分区并行运行,如何减少将它们的所有结果聚合为一个最终结果(因为reduce函数只聚

apache - 创建分区 View 时 Hive 出错

我有一个“日志”表,该表当前按年、月和日进行分区。我想在“日志”表的顶部创建一个分区View,但遇到了这个错误:hive>CREATEVIEWlog_viewPARTITIONEDON(pagename,year,month,day)ASSELECTpagename,year,month,day,uid,propertiesFROMlog;FAILED:SemanticException[Error10093]:RightmostcolumnsinviewoutputdonotmatchPARTITIONEDONclause创建分区View的正确方法是什么?

hadoop - Spark RDD : Get row number

如何从当前正在处理的RDD中获取行号:valrdd2=rdd1.filter(row=>{//getrownumber}true}) 最佳答案 valrdd2=rdd1.zipWithIndex.filter{case(row,index)=>{//rownumberisindex.(butisnotfixed,unlessRDDissorted)} 关于hadoop-SparkRDD:Getrownumber,我们在StackOverflow上找到一个类似的问题:

scala - 在 Spark RDD Println Error 中,如何显示 [Ljava.lang.String;@8e6606 等数据

我在使用Scala时遇到ApacheSpark的一个问题。我正在尝试创建一个Spark应用程序,它根据用户输入打印一个RDD。输入数据是这样的:List("aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf","aaaa","aaaa","dfddf")代码是这样的:valwSchemaString="col1col2col3col4";valwSchema=StructType(wSchemaString.split("").map(fieldName=>Struc

hadoop - Apache Spark S3 错误

我正在尝试将amazons3连接到Sparkstreaming。我在本地机器上运行代码并尝试从s3流式传输到Spark,但出现以下错误:java.io.IOException:NoFileSystemforscheme:s3n你能帮我解决同样的问题吗? 最佳答案 您可以通过在您的spark上下文的hadoop配置中指定s3n方案的实现来解决它:sparkContext.hadoopConfiguration.set("fs.s3.impl","org.apache.hadoop.fs.s3native.NativeS3FileSys