apache-spark-2.3

hadoop - Apache flume 和 Apache storm 有什么区别？

Apacheflume和Apachestorm有什么区别？是否可以使用storm将日志数据提取到Hadoop集群中？两者都用于流式数据，那么可以使用storm来替代flume吗？最佳答案 ApacheFlume是一项用于收集大量流数据(尤其是日志)的服务。Flume使用称为数据接收器的机制将数据推送给消费者。Flume可以立即将数据推送到许多流行的接收器，包括HDFS、HBase、Cassandra和一些关系数据库。ApacheStorm涉及流数据。它是批处理和流处理之间的桥梁，而Hadoop本身并不是为处理流处理而设计的。Sto

Apache hadoop section li apache-storm flume hortonworks-data-platform

scala - spark csv读取速度很慢，虽然我增加了节点数

我在GoogleComputeEngine上创建了两个集群，该集群读取100GB数据。集群一:1主-15GB内存-250GB磁盘10个节点-7.5GB内存-200GB磁盘第二组:1主-15GB内存-250GB磁盘150个节点-1.7GB内存-200GB磁盘我正在用它来读取文件:valdf=spark.read.format("csv").option("inferSchema",true).option("maxColumns",900000).load("hdfs://master:9000/tmp/test.csv")这也是一个包含55k行和850k列的数据集。Q1:虽然我增加了机

点数 scala section 的 Spark csv apache-spark hadoop google-compute-engine

hadoop - 在 Apache pig 工作中获取今天的日期

我想在我的一项假定每天运行的Pig作业的输出文件路径中使用今天的日期，有没有办法做到这一点。就像是/user/x/$todaysDate 最佳答案通过bash执行此操作:echo'/user/x/'`date+%Y-%m-%d`给出:/user/x/2012-10-14因此，您可以将脚本执行为:$pig-paramoutpath='/user/x/'`date+%Y-%m-%d`myscript.pig然后，在您的STORE命令中，使用$outpath:STOREabcINTO'$outpath';

hadoop Apache code section pre mapreduce apache-pig

配置安全的linux-apache服务器（5）

实验简介实验所属系列：Linux网络服务配置与安全实验对象：本科/专科信息安全专业、网络工程相关课程及专业：系统安全配置、服务器配置、计算机网络实验时数（学分）：2学时实验类别：实践实验类预备知识虚拟主机简介虚拟主机（VirtualHost）是指在一台主机上运行的多个Web站点，每个站点均有自己独立的域名或IP地址。虚拟主机允许为不同的IP地址、主机名或同一机器上的不同端口运行不同的服务器站点。譬如，可以在同一个web服务器上使用虚拟主机来运行http://www.example.com和http://www.anotherexample.com这两个网站。虚拟主机对用户是透明的，就好像每个站

linux-apache 配置 xff xff0c br linux 运维服务器

hadoop - Hadoop EC2 安装的 Spark 脚本 : IPC client connection refused

我试图在EC2的spark脚本设置的EC2集群上使用distcp在Hadoop和AmazonS3之间复制[root]#bin/hadoopdistcps3n://bucket/f1hdfs:///user/root/我得到的错误是INFOipc.Client:Retryingconnecttoserver:..Alreadytriedntime(s).Copyfailed:java.net.ConnectException:Callto..my_serverfailedonconnectionexcep\tion:java.net.ConnectException:Connection

connection refused section code pre hadoop amazon-ec2 apache-spark

hadoop - 如何使用 AVRO org.apache.avro.mapreduce 接口(interface)进行编程？

我所有的程序都是用hadoop的新MR1接口(interface)(org.apache.hadoop.mapreduce)编写的，所以我也想使用avro的新org.apache.avro.mapreduce。但这对我不起作用。该程序接受avro数据的输入并输出相同的数据。我的程序背后的主要思想是根据avro包装的键/值对hadoop的Mapper和Reducer进行子类化。这是我的工作驱动程序的一部分:AvroJob.setInputKeySchema(job,NetflowRecord.getClassSchema());AvroJob.setOutputKeySchema(job

mapreduce interface NetflowRecord class AvroKey hadoop avro

python - 使用 Spark，如何连接 master 或解决错误 :"WARN TaskSchedulerImpl: Initial job has not accepted any resources"

请告诉我如何解决以下问题。首先，我确认以下代码在master为“本地”时运行。然后我启动了两个EC2实例(m1.large)。但是，当master为“spark://MASTER_PUBLIC_DNS:7077”时，会出现错误消息“TaskSchedulerImpl”并且失败。当我从VALID地址更改为Master(spark://INVALID_DNS:7077)的INVALID地址时，会出现相同的错误消息。即，"WARNTaskSchedulerImpl:Initialjobhasnotacceptedanyresources;检查您的集群UI以确保工作人员已注册并有足够的内存"好

TaskSchedulerImpl amp section spark master python hadoop amazon-ec2 apache-spark

hadoop - Spark 在 hdfs 中只读

我已经使用HDFS设置了一个Spark集群配置，我知道在HDFS示例中Sparkall将读取默认文件路径:/ad-cpc/2014-11-28/Sparkwillreadin:hdfs://hmaster155:9000/ad-cpc/2014-11-28/有时我想知道如何在不重新配置我的集群(不使用hdfs)的情况下强制Spark在本地读取文件。请帮帮我!!! 最佳答案可以从Spark引用本地文件系统，前缀为file:///Eg:sparkContext.textFile("file:///>")此命令从本地文件系统读取文件。注

hadoop Spark section strong apache-spark distributed-computing

java - Apache Spark :-Nullpointer Exception on broadcast variables (YARN Cluster mode)

我有一个简单的spark应用程序，我试图在YARN集群上广播一个String类型的变量。但是每次我尝试访问广播变量值时，我都会在任务中得到空值。如果你们可以提出建议，那将非常有帮助，我在这里做错了什么。我的代码如下:-publicclassTestAppimplementsSerializable{staticBroadcastmongoConnectionString;publicstaticvoidmain(String[]args){StringmongoBaseURL=args[0];SparkConfsparkConf=newSparkConf().setAppName(Co

Nullpointer Exception section mongoConnectionString javaSchemaRDD java hadoop apache-spark cloud hadoop-yarn

hadoop - 部署 Spark 的最佳方式？

在YARN或EMR而非EC2上部署Spark是否有实质性优势？这将主要用于研究和原型(prototype)设计，并且可能使用Scala。我们不愿意不使用EC2主要是因为其他选项涉及额外的基础设施和复杂性，但也许它们也提供了实质性的好处？我们主要是从S3读取数据/向S3写入数据。最佳答案让我们区分不同的层:有基础设施层，即spark作业应该在哪些(虚拟)机器上运行。潜在的选择包括本地机器集群或从EC2租用的虚拟机集群。尤其是当从S3写入大量数据或向S3写入大量数据时，EC2可能是一个不错的选择，因为这两种服务都很好地集成并且通常在

hadoop Spark strong section noreferrer amazon-ec2 apache-spark hadoop-yarn amazon-emr

224 225 226227228 229 230