草庐IT

apache-spark-1.6

全部标签

hadoop - 我从哪里可以获得 Apache Hama-0.6.2 或旧版本的 HAMA?

任何人都可以向我提供apachehama0.6.2或更早版本的链接吗?我只在官方网站上获得0.6.3。但我需要早期版本 最佳答案 你可以在mavenrepo中找到它。http://search.maven.org/#search%7Cgav%7C1%7Cg%3A%22org.apache.hama%22%20AND%20a%3A%22hama-core%22 关于hadoop-我从哪里可以获得ApacheHama-0.6.2或旧版本的HAMA?,我们在StackOverflow上找到一个

hadoop - java.io.IOException :java. lang.ClassCastException : org. apache.hadoop.hbase.client.Result 无法转换为 org.apache.hadoop.io.Writable

尝试了一个从hive处理hbase中的表的示例。CREATEEXTERNALTABLE命令成功,但是select语句给出类转换异常环境:hive0.12.0,hbase0.96.1,hadoop2.2,Virtualbox上的Ubuntu12.04hive>SHOWTABLES;OKhbatablese_myhiveTimetaken:0.309seconds,Fetched:1row(s)hive>SELECT*FROMhbatablese_myhive;OK**异常失败java.io.IOException:java.lang.ClassCastException:org.apac

apache - Hbase Master 和 Region 服务器无法启动

Hadoop在分布式模式下成功运行。在分布式模式下启动HBase时出现以下错误。尝试了hbase-site.xml配置中的所有内容。不知道如何处理这个问题?014-03-1013:55:42,493INFOorg.apache.zookeeper.ClientCnxn:Openingsocketconnectiontoserverip-112-11-1-111.ec2.internal/112.11.1.111:2181.WillnotattempttoauthenticateusingSASL(Unabletolocatealoginconfiguration)2014-03-101

hadoop - Spark 独立模式 : Worker not starting properly in cloudera

我是spark的新手,在使用cloudera管理器中提供的包裹安装spark之后。我已经配置了以下来自clouderaenterprise的链接中所示的文件:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.8.1/Cloudera-Manager-Installation-Guide/cmig_spark_installation_standalone.html完成此设置后,我通过运行/opt/cloudera/parcels/SPARK/lib/spark/sbin/start-all.s

hadoop - 安装 Spark Cluster,Hive 的问题

我正在尝试启动Spark/Shark集群,但一直遇到同样的问题。我已按照https://github.com/amplab/shark/wiki/Running-Shark-on-a-Cluster上的说明进行操作并按照说明处理Hive。我认为SharkDriver正在使用另一个版本的Hadoopjar,但不确定原因。这是详细信息,任何帮助都会很棒。星火/鲨鱼0.9.0ApacheHadoop2.3.0Amplabshive0.11斯卡拉2.10.3Java7我已经安装了所有东西,但我收到了一些弃用警告,然后是一个异常:14/03/1411:24:47信息Configuration.d

exception - AWS EC2 上的 Spark 在开始我的工作时抛出 EOFException

我正在尝试在我使用他们提供的Spark-ec2脚本创建的Spark集群上运行我的Spark作业。我能够运行SparkPi示例,但每当我运行我的工作时,我都会收到此异常:Exceptioninthread"main"java.io.IOException:Calltoec2-XXXXXXXXXX.compute-1.amazonaws.com/10.XXX.YYY.ZZZZ:9000failedonlocalexception:java.io.EOFExceptionatorg.apache.hadoop.ipc.Client.wrapException(Client.java:1107

maven - Apache Bigtop 未构建

我正在关注theseinstructionforsettingupApacheBigtop,最终支持我运行Oozie。我正在尝试使用Bigtop,因为如果我想在Hadoop2+上运行我的Oozie安装,Oozie网站建议使用Bigtop。运行步骤后makehadoop-deb我收到以下错误消息(完整消息HERE):[INFO]------------------------------------------------------------------------[INFO]ReactorSummary:[INFO][INFO]ApacheHadoopMain...........

scala - Spark - 使用 BytesWritable 类型按键排序

我想使用hadoop示例RandomWriter进行基准测试并生成文件。键和值的类型都是BytesWritable。那么我该如何使用Spark对这个文件进行排序呢?看来我不能直接调用sortByKey()。 最佳答案 您要做的是在RDD中使用.sortBy方法。,正确的?这就是为什么您找不到OrderedRDDFunctions的.sortByKey方法的原因。正如@JustinPihony指出的那样,这需要对key进行隐式排序,在本例中(AFAIK)将定义为:implicitvalrandomWriterOrdering=newO

hadoop - 带有自定义 Hadoop 文件系统的 Spark

我已经有一个带有Yarn的集群,配置为使用core-site.xml中的自定义Hadoop文件系统:fs.custom.implpackage.of.custom.class.CustomFileSystem我想在这个Yarn集群上运行一个Spark作业,它从这个CustomFilesystem读取一个输入RDD:finalJavaPairRDDfiles=sparkContext.wholeTextFiles("custom://path/to/directory");有什么方法可以在不重新配置Spark的情况下做到这一点?即,我能否将Spark指向现有的core-site.xml,

scala - Apache-Spark 内部作业调度

我在Spark中发现了这个功能,它允许您在spark上下文中安排不同的任务。我想在一个程序中实现这个特性,在这个程序中我映射我的输入RDD(fromatextsource)到一个键值RDD[K,V]随后生成一个复合键值RDD[(K1,K2),V]和一个包含一些特定值的过滤RDD。进一步的管道涉及在RDD和join操作上从MLlib调用一些统计方法,然后将结果外部化到磁盘。我正在尝试了解spark的内部公平调度程序将如何处理这些操作。我尝试阅读作业调度文档,但对pools、users和tasks的概念感到更加困惑。pools到底是什么,它们是特定的'tasks'可以组合在一起还是它们是l