草庐IT

apache-spark-1.3

全部标签

hadoop - 在整个集群中使用 spark-submit 运行 Spark 作业

我最近在AmazonEMR上设置了一个Spark集群,其中有1个主节点和2个从节点。我可以运行pyspark,并使用spark-submit提交作业。但是,当我创建一个独立作业时,例如job.py,我创建了一个SparkContext,如下所示:sc=SparkContext("local","AppName")这看起来不对,但我不确定该放什么。当我提交作业时,我确定它没有使用整个集群。如果我想在我的整个集群上运行一个作业,比如每个从属4个进程,我必须做什么a.)作为参数传递给spark-submitb.)在脚本本身中作为参数传递给SparkContext()。

hadoop - Apache Apex 是依赖 HDFS 还是有自己的文件系统?

我了解ApacheApex在Hadoop和YARN上运行。它是否利用HDFS进行持久性和复制以防止数据丢失?还是它有自己的? 最佳答案 ApacheApex使用操作符状态的检查点来实现容错。Apex使用HDFS写入这些检查点以进行恢复。但是,用于检查点的存储是可配置的。Apex也有一个实现checkpointtoApacheGeode.Apex还使用HDFS上传工件,例如包含应用程序jar的应用程序包、其依赖项和启动应用程序所需的配置等。 关于hadoop-ApacheApex是依赖HD

scala - 用于 Spark 集成测试的 Hive 配置

我正在寻找一种方法来配置Hive以进行SparkSQL集成测试,以便将表写入临时目录或测试根目录下的某个位置。我的调查表明这需要同时设置fs.defaultFS和hive.metastore.warehouse.dir之前HiveContext被build。只需设置后者,如本answer中所述不适用于Spark1.6.1。valsqlc=newHiveContext(sparkContext)sqlc.setConf("hive.metastore.warehouse.dir",hiveWarehouseDir)表元数据位于正确的位置,但写入的文件位于/user/hive/wareho

hadoop - Spark Streaming StreamingContext 事件计数

sparkdocs状态:OnlyoneStreamingContextcanbeactiveinaJVMatthesametime.想象一下我计划从两个Kafka主题读取/处理数据的情况,其中一个作业从一个Kafka主题获取数据,另一个从另一个Kafka主题获取数据。我可以在同一个hadoop集群上同时触发这两个作业吗?它还指出,Onceacontexthasbeenstopped,itcannotberestarted.因此,如果由于某种原因我必须停止spark作业,有什么方法可以重新启动它?我是否通过oozie或其他方式触发它? 最佳答案

锁相环技术原理及FPGA实现(第一章1.3)

1.3VerilogHDL语言简介1.3.1HDL语言简介        PLD(可编程逻辑器件)出现后,需要有一种设计切入点(DesignEntry)将设计者的意图表现出来,并最终在具体器件上实现。早期主要有两种设计方式:一种是采取画原理图的方式,就像PLD出现之前将分散的TTL(Transistor-TransistorLogic)芯片组合成电路板一样进行设计,这种方式只是将电路板变成了一颗芯片而已;还有一种设计方式是用逻辑方程式来表现设计者意图,将多条方程式语句组成的文件经过编译器编译后产生相应文件,再由专用工具写到可编程逻辑器件中,从而实现各种逻辑功能。        随着PLD器件技

hadoop - 执行错误,从 org.apache.hadoop.hive.ql.exec.mr.MapRedTask 返回代码 1 (state=08S01,code=1)

我已经启动了metastore和hiveserver2#./hive--servicemetastore#./hive--servicehiveserver2当我执行以下查询时#./beeline-ujdbc:hive2://192.168.0.10:10000-e'selectcount(*)fromtest_tb'--hiveconfhive.root.logger=DEBUG,console--verbose=true抛出以下错误Error:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg

scala - Spark Hadoop 广播失败

运行spark-submit作业并收到“无法获取broadcast_58_piece0...”错误。我真的不确定我做错了什么。我是否过度使用了UDF?功能太复杂?作为我的目标的总结,我正在解析pdf中的文本,这些文本作为base64编码的字符串存储在JSON对象中。我正在使用ApacheTika获取文本,并尝试大量使用数据帧来简化操作。我写了一段代码,通过tika将文本提取作为“主”之外的一个函数在数据上作为RDD运行,并且运行完美。但是,当我尝试将提取作为数据帧上的UDF引入main时,它会以各种不同的方式出现问题。在我到达这里之前,我实际上是在尝试将最终数据框编写为:valid.t

scala - Spark(Scala)从驱动程序写入(和读取)本地文件系统

第一个问题:我有一个带有hadoop的2节点虚拟集群。我有一个运行Spark作业的jar。此jar接受作为cli参数:commands.txt文件的路径,该文件告诉jar运行哪些命令。我使用spark-submit运行作业,我注意到我的从节点没有运行,因为它找不到主节点本地的commands.txt文件。这是我用来运行它的命令:./spark-1.6.1-bin-hadoop2.6/bin/spark-submit--classuniv.bigdata.course.MainRunner--masteryarn\--deploy-modecluster--executor-memory

linux - 在现有的 Hadoop 集群上安装 Spark

我不是系统管理员,但我可能需要执行一些管理任务,因此需要一些帮助。我们有一个(远程)Hadoop集群,人们通常在集群上运行map-reduce作业。我打算在集群上安装ApacheSpark,以便集群中的所有机器都可以使用。这应该是可能的,我已经阅读了http://spark.apache.org/docs/latest/spark-standalone.html“只需将Spark作为单独的服务在同一台机器上启动,您就可以将Spark与现有的Hadoop集群一起运行……”如果您以前做过,请给我详细的步骤,以便创建Spark集群。 最佳答案

bash - 无法找到或加载主类 org.apache.hadoop.fs.FsShell

我知道这个问题可能已经回答了,好吧,我的问题仍然在这里:我使用CentOS7在vmware上为hadoop创建了一个虚拟机,我可以启动名称节点和数据节点,但是,当我尝试使用以下命令查看hdfs文件时:hdfsdfs-ls它抛出以下错误:Couldnotfindorloadmainclassorg.apache.hadoop.fs.FsShell我的谷歌搜索表明这可能与bash中的hadoop变量设置有关,这是我的设置:#.bashrc#Sourceglobaldefinitionsif[-f/etc/bashrc];then./etc/bashrcfiexportHADOOP_HOME