apache-karaf

hadoop - 组织.apache.ignite.IgniteException : For input string: "30s" in ignite hadoop execution

我想在apacheignite上执行Hadoop的字数统计示例。我在ignite中使用IGFS作为HDFS配置的缓存，但是在通过Hadoop提交作业以在ignite上执行后，我遇到了以下错误。提前感谢任何可以帮助我的人!Usingconfiguration:examples/config/filesystem/example-igfs-hdfs.xml[00:47:13]__________________________[00:47:13]/_/___/|//_/___/__/[00:47:13]_///(77//////_/[00:47:13]/___/\___/_/|_/___/

apache-spark - 使用 Airflow dag run 创建 EMR 集群，任务完成后 EMR 将终止

我有Airflow作业，它们在EMR集群上运行良好。我需要的是，假设我有4个Airflow作业需要EMR集群，假设20分钟才能完成任务。为什么我们不能在DAG运行时创建一个EMR集群，一旦作业完成，它就会终止创建的EMR集群。最佳答案当然，那将是对资源最有效的利用。让我警告你:这里面有很多细节；我会尽力列出尽可能多的内容。我鼓励您添加自己的综合答案，列出您遇到的任何问题和解决方法(一旦您解决了这个问题)关于集群创建/终止对于集群的创建和终止，您有EmrCreateJobFlowOperator和EmrTerminateJobFl

apache-spark EMR code noreferrer airflow hadoop amazon-emr

java - 如何对 Linux 上的 Apache Accumulo 安装进行故障排除？

我正在尝试在RHEL7.x上安装开源Accumulo。我有2GB的交换空间。我已经安装了Java1.8、Hadoop3和Zookeeper。我已经为Accumulo1.9.2运行了bootstrap_config.sh脚本。我运行了这个(并期望它能工作):/bin/accumulo-1.9.2/bin/accumuloinit但是我得到这个错误:[start.Main]ERROR:Uncaughtexceptionjava.util.ServiceConfigurationError:org.apache.accumulo.start.spi.KeywordExecutable:Pro

Accumulo Apache java ServiceLoader linux hadoop apache-zookeeper

apache-spark - 将 6000 亿条记录从 1 个配置单元表加载到另一个

我在1个数据库中有一个配置单元外部表，其中包含大约6000亿条记录和100列。我需要将数据原样复制到其他数据库中的同一张表中。我正在尝试编写一个spark代码，但它需要永远。对我如何编写代码有什么建议吗？我是spark新手! 最佳答案不要复制，让它留在原处。在另一个数据库中创建外部表，其位置指向数据位置。USEYOUR_DATABASE;CREATEEXTERNALTABLEabc...LOCATION'hdfs://your/data';如有必要，使用MSCKREPAIRTABLEabc;或ALTERTABLEabcRECOVE

配置单 apache-spark section code hadoop hive

hadoop - 如何为开源 apache-hadoop 集成/安装 Beeline UI Editor

我们可以为开源hadoop版本配置BeelineUI吗？如果是这样怎么办？有任何网址/文件吗？我是大数据的新手。决定在我的项目中使用HIVE作为暂存区。我公司目前使用开源apache-spark，即spark-2.3.2-bin-hadoop2.7。数据从oracle馈送到-->Parquet，然后Spark处理数据...展望future，他们希望使用HIVE作为暂存区来处理数据。该团队需要HIVE的编辑器。在网上我发现Beeline可以用于它。但是我们可以为开源hadoop版本配置BeelineUI吗？如果是这样怎么办？有任何网址/文件吗？我需要使用哪个版本？

hadoop 何为 section Beeline 存区 hive apache-spark-sql

apache-spark - 如何在 NiFi 中从 GetFilesProcessor 读取文件

下面是我的流程:GetFile>ExecuteSparkInteractive>PutFile我想从ExecuteSparkInteractive处理器中的GetFile处理器读取文件，应用一些转换并将其放在某个位置。下面是我的流程我在spark处理器的code部分写了sparkscala代码:valsc1=sc.textFile("local_path")sc1.foreach(println)流程中没有任何事情发生。那么如何使用GetFile处理器读取spark处理器中的文件。第二部分:我尝试了以下流程只是为了练习:ExecuteScript>PutFile>LogMessage我

GetFilesProcessor 何在 code section ExecuteSparkInteractive apache-spark hadoop bigdata apache-nifi

apache-spark - 从 Spark 访问 Openstack Swift - SwiftAuthenticationFailedException

我正尝试从Spark2.4访问OpenstackSwift，但出现错误。org.apache.hadoop.fs.swift.exceptions.SwiftAuthenticationFailedException:Authenticateastenant'78axxxxxxxxxxxxxxxxxxxxxxxxxxxx'PasswordCredentials{username='xxxxxxxxxxxx'}sc.hadoopConfiguration.set(s"fs.swift.service.ovh.auth.url","https://auth.cloud.ovh.net/v3

SwiftAuthenticationFailedExceptio apache-spark 34 swift service hadoop openstack openstack-swift

apache-spark - Pyspark - 按组添加行

在Pyspark2.2中，我实际上是在尝试按用户添加行。如果我的主Dataframe如下所示:main_list=[["a","bb",5],["d","cc",10],["d","bb",11]]main_pd=pd.DataFrame(main_list,columns=['user',"group",'value'])main_df=spark.createDataFrame(main_pd)main_df.show()+----+-----+-----+|user|group|value|+----+-----+-----+|a|bb|5||d|cc|10||d|bb|11|+

apache-spark Pyspark code group 34 dataframe hadoop apache-spark-sql

scala - 异常线程 "main"scala.MatchError :Map() (of class org. apache.spark.sql.catalyst.util.CaseInsensitiveMap)

我正在尝试将数据从Excel工作表加载到Hive表。它在下面抛出错误.Map(treatemptyvaluesasnulls->true,location->"input",useheader->true,inferschema->true,addcolorcolumns->false,sheetname->"INPUT")(ofclassorg.apache.spark.sql.catalyst.util.CaseInsensitiveMap)使用的代码:valdf=spark.read.format("com.crealytics.spark.excel").option("loc

scala CaseInsensitiveMap 34 section spark apache-spark hadoop apache-spark-sql

apache-spark - 如何增加在 Yarn UI 上显示的 "memory total"？

我在EMR(emr-5.20.0)上有一个集群，其中一个m5.2xlarge作为NodeMaster，两个m4.large作为core，三个m4.large作为nodeworker。该集群的内存内存总和为62GB，但在YARNUI中显示的总内存为30GB。有人可以帮助我了解这个值是如何计算的吗？我已经检查了Yarn-site.xml和spark-default.conf中的配置，它们是根据AWS推荐配置的:https://docs.aws.amazon.com/pt_br/emr/latest/ReleaseGuide/emr-hadoop-task-config.html#emr-h

apache-spark amp section emr config hadoop pyspark hadoop-yarn apache-zeppelin

332 333 334335336 337 338