草庐IT

apache-spark-1.3

全部标签

scala - 序列化和自定义 Spark RDD 类

我正在用Scala编写自定义SparkRDD实现,并且正在使用Sparkshell调试我的实现。我现在的目标是:customRDD.count毫无异常(exception)地成功。现在这就是我得到的:15/03/0623:02:32INFOTaskSchedulerImpl:Addingtaskset0.0with1tasks15/03/0623:02:32ERRORTaskSetManager:Failedtoserializetask0,notattemptingtoretryit.java.lang.reflect.InvocationTargetExceptionatsun.r

scala - 对 Spark 中的 Double/Int 值进行空检查

我是Spark的新手,如何检查Double中的Null值和scala或Spark中的Int值。像String我们可以这样做:valvalue=(FirstString.isEmpty())match{casetrue=>SecondStringcase_=>FirstString}我搜索了很多,但只找到了字符串值。您能否也建议我使用其他数据类型。提前致谢。 最佳答案 null仅适用于Scala中的AnyRef(即非原始类型)类型。AnyVal类型不能设置为null。例如://thebelowareAnyVal(s)andwontco

hadoop - Apache Yarn 公平调度程序一次只允许一个应用程序

我们有一个hadoop集群,配置了ClouderaCDH5.4.2发行版和Yarn公平调度程序,用于调度和管理资源。我们有18个工作节点,总计963GB主内存和288个vcores。现在的问题是我一次只能运行一个应用程序,无论该应用程序的资源需求有多小。例如这里是动态资源池状态:状态YARN使用288个vcores和942GiB内存。资源池使用此表和右侧的图表仅包含来自YARN的指标。资源池名称已分配内存已分配VCores已分配容器待处理容器根0B000用户10B001默认0B000用户222GiB11111对于用户2,即使在288个vcores和942GiB内存中只分配了22GB和1

Hadoop:在 Apache Mahout 中实现贝叶斯算法时出错

我在Mahout中执行贝叶斯算法时遇到问题。我用Maven构建它,作业文件在目标目录中。使用Hadoop从终端运行时,出现ClassNotFoundException错误。应该怎么办?$HADOOP_HOME/bin/hadoopjarmahout-core-0.3-SNAPSHOT.joborg.apache.mahout.classifier.bayes.mapreduce.bayes.bayesdriver-itest-ooutputExceptioninthread"main"java.lang.ClassNotFoundException:org.apache.mahout.

hadoop - 为什么我得到 "security.Groups: Group mapping impl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping; cacheTimeout=300000"?

$hdfsdfs-rmrcrawl11/04/1608:49:33INFOsecurity.Groups:Groupmappingimpl=org.apache.hadoop.security.ShellBasedUnixGroupsMapping;cacheTimeout=300000我正在使用hadoop-0.21.0和defaultSingleNodeSetupconfiguration. 最佳答案 这不是警告,只是标准消息。但是,它不应该在INFO级别输出,因为它确实会随每条消息一起打印。在主干中,它已移至DEBUG,因此您

apache - 使用 apache mahout 算法的开源应用程序

我正在使用hadoop开发一个项目。现在我想在hadoop上测试一个数据密集型应用程序。我检查了apachemahout机器学习算法。是否有使用apahcemahout机器学习算法在hadoop上运行的开源应用程序? 最佳答案 您可以从观看官方Mahout页面开始-PoweredbyMahout您可以在其中找到Mahout软件的商业和学术用途列表。我想其中一些应该是开源的,但我自己还没有检查过。 关于apache-使用apachemahout算法的开源应用程序,我们在StackOverf

字节跳动 MapReduce - Spark 平滑迁移实践

摘要:本文整理自字节跳动基础架构工程师魏中佳在本次CommunityOverCodeAsia2023中的《字节跳动MapReduce-Spark平滑迁移实践》主题演讲。随着字节业务的发展,公司内部每天线上约运行100万+Spark作业,与之相对比的是,线上每天依然约有两万到三万个MapReduce任务,从大数据研发和用户角度来看,MapReduce引擎的运维和使用也都存在着一系列问题。在此背景下,字节跳动Batch团队设计并实现了一套MapReduce任务平滑迁移Spark的方案,该方案使用户仅需对存量作业增加少量的参数或环境变量即可完成从MapReduce到Spark的平缓迁移,大大降低了迁

hadoop - JBoss Drools 与 Apache Hadoop 的集成

我使用JBossDrools创建了一个网络服务,以根据一些输入获取计算数据。现在想把规则引擎分布在几个节点上,实现高可用和并行计算。任何人都可以为我提供一些指南和有用的链接来启动此要求。感谢您的帮助! 最佳答案 您可以将Drools服务部署到许多节点。使用DroolsGuvnor定义服务配置并将服务部署到您想要的所有节点。在DroolsGuvnordocumentation,你可以阅读:ServiceConfigisaspecialassetthatdefinesanexecutionserviceconfiguration.Thi

mongodb - 如何将 _id 数据从 mongodb 加载到 Apache Pig

我是Hadoop和ApachePig的新手。我在mongodb中有一个名为用户的集合,具有以下结构。我想通过以下方式将_id加载到ApachePig中:B=LOAD'mongodb://localhost:27017/test.user'USINGcom.mongodb.hadoop.pig.MongoLoader('_id:chararray,firstName:chararray,email:chararray')AS(UID,NAME,EMAIL);但我无法加载它。名称和电子邮件已完美加载。我正在使用这些jar文件REGISTER//avro-1.7.5.jarREGISTER/

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版,我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时,它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d