草庐IT

apache-spark-2.3

全部标签

scala - Spark : Custom key compare method for reduceByKey

我需要在Scala中使用我自己的类作为键/值对中的键。特别是,我有一个包含两个变量id1和id2的简单类,我希望元素仅根据id2和不是id1。我在网上找不到任何关于如何以及在何处可以重写reduceByKey()方法的比较方法的信息,以便它可以根据我的自定义compare()方法。感谢任何帮助。谢谢你。 最佳答案 您不能覆盖reduceByKey的比较,因为它无法利用这样一个事实,即您的数据通常在整个集群中的不同执行程序上按key进行混洗。不过,您可以更改key(请注意,根据您使用的转换/操作,这可能会重新洗牌周围的数据)。RDD中

hadoop - 如何将位于 HDFS 上的类型安全配置文件添加到 spark-submit(集群模式)?

我有一个Spark(Spark1.5.2)应用程序,可以将数据从Kafka流式传输到HDFS。我的应用程序包含两个Typesafe配置文件来配置某些东西,比如Kafka主题等。现在我想在集群中使用spark-submit(集群模式)运行我的应用程序。我项目的所有依赖项的jar文件存储在HDFS上。只要我的配置文件包含在jar文件中,一切正常。但这对于测试目的是不切实际的,因为我总是必须重建jar。因此我排除了项目的配置文件,并通过“driver-class-path”添加了它们。这适用于客户端模式,但如果我现在将配置文件移动到HDFS并在集群模式下运行我的应用程序,它找不到设置。您可以

hadoop - 获取 emr-ddb-hadoop.jar 以连接 DynamoDB 和 EMR Spark

我有一个DynamoDB表,我需要连接到EMRSparkSQL以在该表上运行查询。我得到了带有发布标签emr-4.6.0和Spark1.6.1的EMRSparkCluster。我指的是文档:AnalyseDynamoDBDatawithSpark连接到主节点后,我运行命令:spark-shell--jars/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jar它给出警告:Warning:Localjar/usr/share/aws/emr/ddb/lib/emr-ddb-hadoop.jardoesnotexist,skipping.稍后,当我使用导

Linux中搭建和配置Apache服务器的详细步骤

Apache是一款强大的开源Web服务器,广泛用于搭建和托管网站。在Linux系统上,搭建和配置Apache服务器是一个常见的任务,本文将提供详细的步骤和示例代码,帮助大家轻松完成这项任务。步骤1:安装Apache服务器首先,需要在Linux系统上安装Apache服务器。具体命令因Linux发行版而异,以下是一些示例:Ubuntu/Debiansudoaptupdatesudoaptinstallapache2CentOS/RHELsudoyuminstallhttpd步骤2:启动和启用Apache服务安装完成后,启动并启用Apache服务,确保它会在系统启动时自动运行。#启动Apache服务

hadoop - Apache hive : How to convert string to timestamp?

我正在尝试将REC_TIME列中的字符串转换为配置单元中的时间戳格式。例如:2016年7月31日星期日09:28:20=>2016-07-3109:28:20SELECTxxx,UNIX_TIMESTAMP(REC_TIME,"EMddHH:mm:sszyyyy")FROMwlogsLIMIT10;当我执行上面的SQL时,它返回一个NULL值。 最佳答案 试试这个:selectfrom_unixtime(unix_timestamp("SunJul3109:28:20UTC2016","EEEMMMddHH:mm:sszzzyyyy

hadoop - 由于空间问题导致 Spark 作业失败

我正在使用pyspark在Spark中编写批处理程序。以下是输入文件及其大小base-track.dat(3.9g)base-attribute-link.dat(18g)base-release.dat(543m)这些是每行一条记录的文本文件,每个字段由一个特殊字符分隔(引用代码)我正在对属性链接执行一些过滤操作并将它们分组并与其他表连接。我正在通过spark-submit将此程序提交到一个由Ambari管理的具有9个数据节点的Hadoop集群。每个数据节点包含140GB的RAM和3.5TB的磁盘空间。以下是我的pyspark代码importsysfrompysparkimportS

java - Apache Pig - 具有多个匹配条件的 MATCHES

我正在尝试采用逻辑匹配标准,例如:(("Foo"OR"FooBar"ORFooBar)AND("test"OR"testA"OR"TestB"))ORTestZ并将其应用为与pig中的文件匹配result=filterinputfieldsbytextmatches(someregexexpressionhere));问题是我不知道如何将上面的逻辑表达式转换为matches方法的正则表达式。我摆弄过各种各样的东西,我最接近的是这样的:((?=.*?\bFoo\b|\bFooBar\b))(?=.*?\bTestZ\b)有什么想法吗?如果可能,我还需要尝试以编程方式进行此转换。一些例子:

hadoop - Spark 1.0.2(也是 1.1.0)卡在一个分区上

我在apachespark中遇到了一个奇怪的问题,我将不胜感激。从hdfs读取数据(并进行一些从json到对象的转换)后,下一阶段(处理所述对象)在处理完2个分区(总共512个)后失败。这种情况发生在大型数据集上(我注意到的最小数据集约为700兆,但可能会更低,我还没有缩小范围)。编辑:700megs是tgz文件大小,未压缩是6gigs。编辑2:同样的事情发生在spark1.1.0我在一台32核、60演出的机器上使用本地主机运行spark,设置如下:spark.akka.timeout=200spark.shuffle.consolidateFiles=truespark.kryose

hadoop - 使用 hive/sql 和 spark 读取 json 键值

我正在尝试将此json文件读入配置单元表,顶级键即1,2..,此处不一致。{"1":"{\"time\":1421169633384,\"reading1\":130.875969,\"reading2\":227.138275}","2":"{\"time\":1421169646476,\"reading1\":131.240628,\"reading2\":226.810211}","position":0}我的hive表中只需要时间和读数1,2,因为列会忽略位置。我还可以结合使用配置单元查询和sparkmap-reduce代码。感谢您的帮助。更新,这是我正在尝试的valhqlC

hadoop - org.apache.hadoop.hbase.TableNotFoundException : SYSTEM. 目录异常与凤凰 4.5.2

我一直在尝试将Phoenix4.5.2集成到我现有的hadoop集群中。HadoopVersion:2.7.1HBaseVersion:1.1.2当我尝试从我的phoenix客户端创建表时,出现以下异常。但我能够从HBase控制台成功创建表。org.apache.phoenix.exception.PhoenixIOException:SYSTEM.CATALOGatorg.apache.phoenix.util.ServerUtil.parseServerException(ServerUtil.java:108)atorg.apache.phoenix.query.Connecti