草庐IT

spark-ec

全部标签

java - 解决Apache Spark中的依赖性问题

构建和部署Spark应用程序时的常见问题是:java.lang.ClassNotFoundExceptionobjectxisnotamemberofpackagey编译错误。java.lang.NoSuchMethodError如何解决这些问题? 最佳答案 apachespark的类路径是动态构建的(以适应每个应用程序的用户代码),这使得它容易受到此类问题的攻击。@user7337271的答案是正确的,但还有一些问题,这取决于您使用的集群管理器(“master”)。首先,spark应用程序由这些组件组成(每个组件都是单独的jvm,

node.js - 从 ECS 集群中的 docker nodejs EC2 容器连接到 Redis Elasticache 集群

我正在构建一个身份验证服务器,用于存储用户访问token并跟踪它们我想使用redis。我已经成功创建并部署了一个小的nodejs应用程序,并将其包装到一个只返回token的docker容器中。然后我将它推送到AWS中的ECR存储库并创建了一个运行的任务和完美运行的EC2实例。到目前为止一切顺利。当我尝试连接到我创建的集群时,问题就来了。我正在使用thisnodejsredismodule,效果很好。我已经更改了VPC,因此所有集群和实例都处于相同的网络配置下。也许这就是我搞砸的地方,因为我不是部署方面的专家,更不是网络安全组方面的专家。此外,我已经成功地从同一VPC下的另一个EC2实例

amazon-web-services - 连接到 EC2 实例上的 redis 时连接被拒绝

我正在尝试通过lambda函数连接到EC2实例上的本地redis数据库。但是,当我尝试执行代码时,我在日志中收到以下错误{"errorType":"Error","errorMessage":"Redisconnectionto127.0.0.1:6379failed-connectECONNREFUSED127.0.0.1:6379","code":"ECONNREFUSED","stack":["Error:Redisconnectionto127.0.0.1:6379failed-connectECONNREFUSED127.0.0.1:6379","atTCPConnectWr

使用Apache Spark Job在HDP中创建蜂巢表

我已经在Eclipse中写下了以下Scala程序,用于从HDFS中的位置读取CSV文件,然后将该数据保存到蜂巢表中[我使用的是在本地计算机上存在的VMware上运行的HDP2.4沙盒]:importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql.hive.HiveContextobjectHDFS2HiveFileRead{defmain(args:Array[String]){valconf=

主机名重定向到WordPress页面上的EC2 IP地址

我在WordPress网站上工作。它运行良好,但是当我输入WordPress页面时,它将被重定向到具有EC2实例地址作为其一部分的新域。我不知道为什么会发生这种情况?我在设置/常规中也设置了正确的域名。该网站是基于AWS的EC2实例。谢谢,期待你们听到这个问题。看答案如果正确设置,您应该验证几件事:从WordPressAdmin仪表板上验证设置>>一般有正确的域。(您已经做到了)。如果WP-config.php在其中配置了域。如果正确设置了网站URL和HOMERURL,请检查DB内部。检查您是否具有.htaccess,并且除了WordPress默认代码外是否有任何携带域名的代码。如

amazon-web-services - 位于不同区域的 EC2 实例之间的数据实时复制

我是AWS和后端架构的新手。我当前的配置是一个EC2实例(新加坡东南地区),它运行一个用于实时聊天应用程序的Twisted实时服务器。目前,在我的实现中,每当发送者向服务器发送消息时,如果接收者不在线,它就会存储在服务器上的python字典中。所以基本上它是将此消息存储在实例的RAM中。现在,我想让该应用程序在全局范围内可用,因此我将在不同区域的实例上运行它。所以我的问题是,我应该如何将存储在一个实例的RAM中的字典复制/复制到所有其他实例,以便它在所有区域都可用?(将消息存储在RAM而不是数据库中的原因是应用程序的性质。该应用程序涉及大量突发发送的消息,这要求它比持久性数据库存储的I

ruby-on-rails - Sidekiq 不会在 ec2 服务器重启时启动

我已经使用centos在ec2rails服务器上部署了我的网站。ec2服务器重启时如何运行sidekiq?我关注了这个http://dxta.github.io/blog/2014/03/06/init-script-for-sidekiq-in-centos/我写了一个如下所示的bash脚本,但是sidekiq没有按预期重启"#!/bin/bash##sidekiqInitscriptforsidekiq##chkconfig:345991#description:Startsandstopssidekiqmessageprocessor#Sourcefunctionlibrary.

ruby-on-rails - 在部署到 EC2 之后,sidekiq 现在报告 SocketError : getaddrinfo: Name or service not known

应用程序是Rails4.1.4,Ruby2.1.2。使用sidekiq3.2.6、redis3.1.0、celluloid0.15.2。sidekiq实现是默认的,除了连接到远程redis队列(弹性缓存)。当处理某些事件时,我们使用sidekiq来排队调用外部API。API可通过托管我们应用程序的服务器的curl访问。所有其他功能似乎仍按预期执行。此功能已在当前服务器实现/架构上运行数周。在成功部署(使用Capistrano,通过Jenkins)到弹性负载均衡器后面的EC2实例之后,自动缩放组sidekiq将不再连接(?)到elasticcache。SocketError:getadd

Spark Streaming实时数据处理

作者:禅与计算机程序设计艺术1.简介ApacheSpark™Streaming是一个构建在ApacheSpark™之上的快速、微批次、容错的流式数据处理系统,它可以对实时数据进行高吞吐量、低延迟地处理。SparkStreaming既可用于流计算场景也可用于离线批处理场景,而且可以将结构化或无结构化数据源(如Kafka、Flume、Kinesis)的数据实时流式传输到HDFS、HBase、Kafka等存储中。它具有高吞吐量、容错性、易扩展性、复杂的容错机制和丰富的API支持。本文主要介绍了SparkStreaming的相关知识,并通过例子帮助读者快速上手SparkStreaming。2.基本概念

redis - 在 ec2 上安装开源 Redis 服务器时出错

我正在ec2上安装开源Redis服务器。我已经使用我的pem成功连接到ec2。我已经下载了Redis。发出了以下命令:tarxvzfredis-stable.tar.gz>cdredis-stable.下一步:make&&makeinstall不工作。我收到以下错误:~/redis-stable$make&&makeinstallTheprogram'make'canbefoundinthefollowingpackages:*make*make-guileTry:sudoaptinstallubuntu@ip-xxx.xx.xx.xx:~/redis-stable$继续此安装过程需要