草庐IT

apache-spark-2.3

全部标签

apache - 使用 apache mahout 算法的开源应用程序

我正在使用hadoop开发一个项目。现在我想在hadoop上测试一个数据密集型应用程序。我检查了apachemahout机器学习算法。是否有使用apahcemahout机器学习算法在hadoop上运行的开源应用程序? 最佳答案 您可以从观看官方Mahout页面开始-PoweredbyMahout您可以在其中找到Mahout软件的商业和学术用途列表。我想其中一些应该是开源的,但我自己还没有检查过。 关于apache-使用apachemahout算法的开源应用程序,我们在StackOverf

字节跳动 MapReduce - Spark 平滑迁移实践

摘要:本文整理自字节跳动基础架构工程师魏中佳在本次CommunityOverCodeAsia2023中的《字节跳动MapReduce-Spark平滑迁移实践》主题演讲。随着字节业务的发展,公司内部每天线上约运行100万+Spark作业,与之相对比的是,线上每天依然约有两万到三万个MapReduce任务,从大数据研发和用户角度来看,MapReduce引擎的运维和使用也都存在着一系列问题。在此背景下,字节跳动Batch团队设计并实现了一套MapReduce任务平滑迁移Spark的方案,该方案使用户仅需对存量作业增加少量的参数或环境变量即可完成从MapReduce到Spark的平缓迁移,大大降低了迁

hadoop - JBoss Drools 与 Apache Hadoop 的集成

我使用JBossDrools创建了一个网络服务,以根据一些输入获取计算数据。现在想把规则引擎分布在几个节点上,实现高可用和并行计算。任何人都可以为我提供一些指南和有用的链接来启动此要求。感谢您的帮助! 最佳答案 您可以将Drools服务部署到许多节点。使用DroolsGuvnor定义服务配置并将服务部署到您想要的所有节点。在DroolsGuvnordocumentation,你可以阅读:ServiceConfigisaspecialassetthatdefinesanexecutionserviceconfiguration.Thi

mongodb - 如何将 _id 数据从 mongodb 加载到 Apache Pig

我是Hadoop和ApachePig的新手。我在mongodb中有一个名为用户的集合,具有以下结构。我想通过以下方式将_id加载到ApachePig中:B=LOAD'mongodb://localhost:27017/test.user'USINGcom.mongodb.hadoop.pig.MongoLoader('_id:chararray,firstName:chararray,email:chararray')AS(UID,NAME,EMAIL);但我无法加载它。名称和电子邮件已完美加载。我正在使用这些jar文件REGISTER//avro-1.7.5.jarREGISTER/

hadoop - Spark 在 yarn-cluster 上提交 - Hive 错误

我正在使用使用spark1.6的HDP2.4发行版,我正在尝试在yarn-cluster上提交spark作业。当我在yarn-client和本地提交作业时,它正在运行。但是当使用yarn-cluster提交作业时会出现以下错误。java.lang.RuntimeException:Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCausedby:java.lang.NoClassDefFoundError:Couldnotinitializeclassorg.apache.d

hadoop - Apache Phoenix 非法数据。预期长度至少为 4 个字节,但有 2 个

我有一个像下面这样创建的Phoenix表Phoenix顶部的Hive外部表如下所示createExternaltableTABLE_NAME(rowKeySTRING,unique_idstring,USERNAMEstring,DAYstring,MONTHstring,YEARstring,APPIDINT)STOREDBY'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITHSERDEPROPERTIES("hbase.columns.mapping"="details:unique_id,details:USERNAME,d

hadoop - 如何在 spark sql 的配置单元上下文对象中查找登录/连接/当前用户?

如何在sparksql的配置单元上下文对象中找到登录/连接/当前用户?可以使用任何sql查询或Unix命令。?我试过了!我是谁;hive命令提示符中的命令。是不是最优解我需要在sql查询中获取登录的用户,并想使用sparksql将其插入到表中 最佳答案 在PySpark中,使用这个sqlContext._sc.sparkUser()或sqlContext.sql('selectcurrent_user()').show() 关于hadoop-如何在sparksql的配置单元上下文对象中查

java - 带有 datafu : Cannot resolve UDF's 的 apache PIG

我正在尝试从这里开始快速入门:http://datafu.incubator.apache.org/docs/datafu/getting-started.html我几乎尝试了所有方法,但我确定这一定是我的错。我已经试过了:导出PIG_HOME、CLASSPATH、PIG_CLASSPATH使用-cpdatafu-pig-incubating-1.3.0.jar启动pig在本地和hdfs中注册datafu-pig-incubating-1.3.0.jar=>都成功(至少没有显示错误)没有任何帮助在pig身上试试这个:registerdatafu-pig-incubating-1.3.0

hadoop - 需要通过 Spark 加载 Hana 表,没有 Spark Vora 集成

我有一个要求,我必须将数据从Hadoop加载到SAPHana。我已经使用MySql、DB2和其他一些带有Spark的RDBMS,并使用HSBCSparkDataframeAPI在1.5.0及更高版本中加载,也使用Cassandra和Hive但不是Hana。是否可以在不对Hana进行任何修改的情况下这样做不能以任何方式接触Hana安装的一面。 最佳答案 如果您更愿意留在Hadoop端,则可以使用Sqoop。带有Hive适配器的SAPBusinessObjects数据服务也能正常工作。 关于

scala - Intellij Idea - 运行 Spark 应用程序时禁用信息消息

在运行使用ApacheSpark和Hbase/Hadoop库的应用程序时,我收到了很多消息。例如:0[main]DEBUGorg.apache.hadoop.metrics2.lib.MutableMetricsFactory-fieldorg.apache.hadoop.metrics2.lib.MutableRateorg.apache.hadoop.security.UserGroupInformation$UgiMetrics.loginSuccesswithannotation@org.apache.hadoop.metrics2.annotation.Metric(abou