草庐IT

apache-spark-1.3

全部标签

java - Hadoop:LongWritable 无法转换为 org.apache.hadoop.io.IntWritable

我想取输入文件中给出的温度的平均值,我的Mapper和Reducer语法对我来说似乎没问题,但我仍然收到以下错误:UnabletoloadrealminfofromSCDynamicStore13/02/1708:03:28INFOmapred.JobClient:TaskId:attempt_201302170552_0009_m_000000_1,Status:FAILEDjava.lang.ClassCastException:org.apache.hadoop.io.LongWritablecannotbecasttoorg.apache.hadoop.io.IntWritab

【快速全面掌握 WAMPServer】05.整明白 Apache

网管小贾/sysadm.cc阿帕奇Apache是一个非常著名的软件基金组织,始建于1999年,有可能比在坐的小伙伴年龄还要大。号称世界最大的开源软件基金组织Apache目前为止已拥有数量众多的开源软件,它为地球村的村民们做出了巨大而杰出的贡献。不过从狭义的角度来讲,通常我们所说的Apache则是指ApacheHTTPServer,是一款非常流行的开源网页服务器软件。没错,这个软件同样也是Apache软件基金组织众多软件之一,因此注意哈,后面我们谈及的Apache单纯只是在说一款网页服务器软件!网页服务器软件,简单地说就是你可以拿它来做一个网站,可以解析网页文件并提供http(s)连接访问服务。

Linux:apache优化(2)—— 网页传输压缩

网页传输压缩客户端在请求httpd服务器数据,httpd服务器在返回数据包给客户端时,先对返回的数据进行压缩,压缩之后再传输作用:配置Apache的网页压缩功能,是使用Gzip压缩算法来对Apache服务器发布的网页内容进行压缩后再传输到客户端浏览器。通常在cpu有空闲,网站带宽占用高时,会启用压缩; 优势:1)加快网页加载的速度,改善用户的浏览体验2)降低网络传输带宽,服务器节省流量3)网页压缩有利于搜索引擎的抓取 方式:Apache能实现网页压缩功能的模块有mod_gzip模块和mod_deflate模块注意:编译安装时需要使用以下配置项;--enable-deflate         

Linux:apache优化(1)—— 长链接/保持连接

系统:CentOS 7.9apache版本为:2.4.25需要使用源码包进行安装才能够使用这些扩展模块在使用这些扩展模块前要先下载zlib-devel  安装--enable-deflate选项需要的网页压缩传输的软件包yum-yinstallzlib-devel在配置编译安装时需要使用扩展配置./configure--prefix=/usr/local/httpd--enable-cgi--enable-rewrite--enable-so--enable-deflate--enable-expires长链接作用:HTTP协议是TCP的子协议,HTTP建立连接时需要先建立TCP连接,断开时也

scala - Spark 作业失败,退出状态为 15

我正在尝试在spark中运行简单的字数统计作业,但在运行作业时出现异常。Formoredetailedoutput,checkapplicationtrackingpage:http://quickstart.cloudera:8088/proxy/application_1446699275562_0006/Then,clickonlinkstologsofeachattempt.Diagnostics:Exceptionfromcontainer-launch.Containerid:container_1446699275562_0006_02_000001Exitcode:15

hadoop - Spark 将数据写入分区的 Hive 表非常慢

我想以普通可读文本格式将Spark数据帧存储到Hive表中。为此,我首先做了sqlContext.sql("SETspark.sql.hive.convertMetastoreParquet=false")我的DataFrame是这样的:final_data1_df=sqlContext.sql("selecta,bfromfinal_data")我正在尝试通过以下方式编写它:final_data1_df.write.partitionBy("b").mode("overwrite").saveAsTable("eefe_lstr3.final_data1")但这很慢,甚至比HIVE写

hadoop - Spark vs MapReduce,为什么Spark比MR快,原理?

据我所知,Spark将每个节点的磁盘(HDFS)中的数据预加载到每个节点的RDD中进行计算。但正如我猜测的那样,MapReduce必须还将数据从HDFS加载到内存,然后在内存中进行计算。那么..为什么Spark更快速?仅仅因为当MapReduce想要进行计算而Spark预加载数据时,MapReduce每次都将数据加载到内存中?非常感谢。 最佳答案 Spark使用弹性分布式数据集(RDD)的概念,它允许透明地将数据存储在内存中,并在需要时将其保存到磁盘。另一方面,在Mapreduce中,在Map和reduce任务之后数据将被洗牌和排序

hadoop - Spark 写入 hdfs 不使用 saveAsNewAPIHadoopFile 方法

我在CDH5.2.0上使用Spark1.1.0,并试图确保我可以读取和写入hdfs。我很快意识到.textFile和.saveAsTextFile调用旧的api并且似乎与我们的hdfs版本不兼容。deftestHDFSReadOld(sc:SparkContext,readFile:String){//THISWILLFAILWITH//(TID0,dl1rhd416.internal.edmunds.com):java.lang.IllegalStateException:unreadblockdata//java.io.ObjectInputStream$BlockDataInpu

python - spark 1.3.0、python、avro 文件、在 spark-defaults.conf 中设置的驱动程序类路径,但从属设备看不到

我正在使用带有python的spark1.3.0。我有一个使用以下命令读取avro文件的应用程序:conf=NonerddAvro=sc.newAPIHadoopFile(fileAvro,"org.apache.avro.mapreduce.AvroKeyInputFormat","org.apache.avro.mapred.AvroKey","org.apache.hadoop.io.NullWritable",KeyConverter="org.apache.spark.examples.pythonconverters.AvroWrapperToJavaConverter",

hadoop - Spark : Unable to instantiate org. apache.hadoop.hive.metastore.HiveMetaStoreClient

我正在运行Hadoop2.7.0、hive1.1.0和spark1.3.1。我在mysql数据库中有我的Metastore数据库。我可以从HiveShell创建和查看数据。hive(dwhdb)>select*fromdwhdb.test_sample;OKtest_sample.emp_id test_sample.emp_name test_sample.emp_dept test_sample.emp_salEid1 EName1 EDept1 100.0Eid2 EName2 EDept1 102.0Eid3 EName3 EDept1 101.0Eid4 EName4 EDe