草庐IT

spark-avro

全部标签

hadoop - Apache Spark 在 Hadoop YARN 上工作的问题

我对大数据非常陌生,尤其是ApacheSpark/HadoopYARN。我将Hadoop单节点安装到我的虚拟机中以进行一些尝试,我也添加了Spark。我认为环境已经安装好,因为我可以访问:http://172.30.10.64:50070->Hadoop概述http://172.30.10.64:8080->星火概述然后我创建了一个pythonic文件来计算单词数:frompysparkimportSparkConf,SparkContextfromoperatorimportaddimportsys##ConstantsAPP_NAME="HelloWorldofBigData"##

hadoop - Spark : Execute python script with Spark based on Hadoop Multinode

我正在寻找基于HadoopMultinodes的Spark使用,我对我的集群模式pythonic脚本有疑问。我的配置:我进入了我的Hadoop集群:1个名称节点(主节点)2个数据节点(从节点)所以我想在Python中执行我的脚本以使用这个集群。我知道Spark可以用作独立模式,但我想使用我的节点。我的python脚本:这是一个非常简单的脚本,可以用来计算文本中的字数。importsysfrompysparkimportSparkContextsc=SparkContext()lines=sc.textFile(sys.argv[1])words=lines.flatMap(lambda

java - 在 Java 的 Spark Dataframe 中将 CSV 值转换为 Vector

我有一个包含两列的CSV文件id,featuresid列是一个字符串,features列是以逗号分隔的机器学习算法的特征值列表,即。“[1,4,5]”我基本上只需要在值上调用Vectors.parse()来获取vector,但我不想先转换为RDD。我想将其放入SparkDataframe,其中features列是org.apache.spark.mllib.linalg.Vector我正在使用databrickscsvapi将其读入数据框,并尝试将特征列转换为vector。有人知道如何在Java中执行此操作吗? 最佳答案 我找到了一

hadoop - 动态模式的解决方案 - HIVE/AVRO

要求跟上目标ORC表的架构演变。我从源接收JSON事件。我们计划将它们转换为AVRO(因为它支持模式演化)。由于模式可以每天/每周更改,我们需要不断摄取新数据JSON文件,将它们转换为AVRO并将所有数据(旧/新)存储在ORC配置单元表中。我们如何解决这个问题? 最佳答案 您可以采用以下方法,这是解决此问题的众多不同方法之一。1。创建HBASE表首先读取AVRO数据并在HBASE中创建表。(您可以使用spark高效地完成此操作)即使在未来,HBASE表也会负责模式的演变。2。创建Hive包装表创建指向HBASE表的配置单元包装表(存

apache-spark - Spark 2.0 : spark-infotheoretic-feature-selection java. lang.NoSuchMethodError : breeze. linalg.DenseMatrix

我正在尝试使用Spark的InfoGain第三方(https://github.com/sramirez/spark-infotheoretic-feature-selection)包的MRMR功能。但是我的集群是2.0,我得到了这个异常。即使我将所有必需的Jar文件添加到spark类路径。但它仍然不起作用。虽然它在本地机器上正常工作,但在集群上却不行。异常(exception):18/03/2901:16:43WARNTaskSetManager:Losttask3.0instage14.0(TID47,EUREDWORKER3):java.lang.NoSuchMethodErro

apache-spark - Spark 独立设置中的内存使用情况

我有一个spark设置,其中有一个worker有6个核心。现在我向工作人员广播一个对象x。我有三个问题-对于mapreduce作业,将生成我的objx的6个副本还是x的单个副本将由所有核心共享?x的生命周期是什么,即;它什么时候会被摧毁。我问是因为这个对象x占用了大量内存。如果我从文件中读取对象,是否有其他方法可以在所有6个内核之间共享该对象。 最佳答案 广播数据在每个执行器(java进程)中传输和存储一次,而不是每个内核一次。换句话说,如果您只有一个节点,并且将spark.executor.instances设置为2,并将spar

apache-spark - Spark 与 Hadoop yarn : Use the entire cluster nodes

我将Spark与HDFSHadoop存储和Yarn结合使用。我的集群包含5个节点(1个主节点和4个从节点)。主节点:48GbRAM-16个CPU内核从属节点:12GbRAM-16个CPU内核我正在执行两个不同的进程:WordCount方法和带有两个不同文件的SparkSQL。一切正常,但我在问一些问题,也许我不太了解Hadoop-Spark。第一个例子:WordCount我执行了WordCount函数并在两个文件(part-00000和part-00001)中得到了结果。part-00000的可用性是slave4和slave1,part-00001的可用性是slave3和slave4。

Hadoop自带的Serialization和AVRO序列化的关系?

我试图了解Avro并了解到它是Hadoop使用的数据序列化框架之一。在学习Hadoop的过程中,我了解到Hadoop使用的是自己的Serlization框架,而不是Java的Serialization,所以可以看到Hadoop中的Writable、WritableComparable。现在,经过AVRO之后,它说Avro被用作Serlization框架。因此我有点困惑。所以,当我们说Hadoop自己的序列化框架时,我们指的是Avro还是其他东西(它内置于“hadoop”本身)。谁能帮我理解一下? 最佳答案 Hadoop可写对象不是A

apache-spark - 用于点击流分析的 AWS S3 数据格式

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭4年前。Improvethisquestion我们使用Kafka队列从不同设备收集json格式的点击流数据。我们需要通过Hive(或者可能是Spark)分析这些数据。我们考虑使用每小时分区,我们将每小时调用我们的hive/spark作业。我阅读了有关不同文件格式的信息,但无法确定最佳文件格式以获得更好的查询性能。我们试图在s3中以avro格式保存json数据,但查询速度很慢。我们可能会将json数据以柱状格式插入

apache-spark - 解决 NoClassDefFoundError : org/apache/spark/Logging exception

我正在试用hbase-spark连接器。首先,我正在尝试this代码。我的pom依赖项是:org.apache.sparkspark-core_2.112.0.0org.apache.sparkspark-sql_2.112.0.0org.apache.hbasehbase-spark2.0.0-alpha4运行代码时出现以下异常:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/spark/Loggingatjava.lang.ClassLoader.defineClass1(NativeMethod)a