spark-structured-streaming

java - Spark : driver/worker configuration. 驱动程序是否在主节点上运行？

我在AWS上启动一个spark集群，有一个master和60个核心:下面是启动的命令，基本上每个核心2个executor，一共120个executor:spark-submit--deploy-modecluster--masteryarn-cluster--driver-memory180g--driver-cores26--executor-memory90g--executor-cores13--num-executors120然而，在作业跟踪器中，只有119个执行程序:我认为应该有1个驱动程序+120个工作执行程序。但是，我看到的是119个executor，其中包括1个driv

configuration 驱动 strong code image java scala amazon-web-services apache-spark

java - Spark SQL 失败，因为 "Constant pool has grown past JVM limit of 0xFFFF"

我在EMR4.6.0+Spark1.6.1上运行这段代码:valsqlContext=SQLContext.getOrCreate(sc)valinputRDD=sqlContext.read.json(input)try{inputRDD.filter("`first_field`isnotnullOR`second_field`isnotnull").toJSON.coalesce(10).saveAsTextFile(output)logger.info("DONE!")}catch{casee:Throwable=>logger.error("ERROR"+e.getMessa

amp Constant section code Spark java scala apache-spark amazon-emr

java - 尝试在 Spark DataFrame 上使用 map

我最近开始尝试使用Spark和Java。我最初使用RDD完成了著名的WordCount示例，一切都按预期进行。现在我正在尝试实现我自己的示例，但使用的是DataFrames而不是RDD。所以我正在从文件中读取数据集DataFramedf=sqlContext.read().format("com.databricks.spark.csv").option("inferSchema","true").option("delimiter",";").option("header","true").load(inputFilePath);然后我尝试选择一个特定的列并对每一行应用一个简单的转换

DataFrame Spark code section 34 java apache-spark java-8 apache-spark-sql

java - 合并两个在 Apache spark 中具有不同列名的数据集

我们需要合并两个具有不同列名的数据集，数据集之间没有公共(public)列。我们尝试了几种方法，两种方法都没有产生结果。请告诉我们如何使用ApachesparkJava合并两个数据集输入数据集1"405-048011-62815","CRCIndustries","630-0746","Dixonvalue","4444-444","3MINdustries","555-55","Dixoncouplingvalve"输入数据集2"222-2222-5555","Tata","7777-88886","WestSide","22222-22224","Reliance","33333-

列名 Apache 34 label sentence java apache-spark apache-spark-sql

java - 线程主java.lang.exceptionininitializerError中的异常在没有hadoop的情况下安装spark

我正在尝试安装spark2.3.0，更具体地说，它是spark-2.3.0-bin-hadoppo2.7'D:\spark\bin'已经添加到环境变量PATH中。同时，安装了JDK-10。未安装Hadoop。但是谷歌说spark可以在没有hadoop的情况下工作。这是错误信息C:\Users\a>spark-shellExceptioninthread"main"java.lang.ExceptionInInitializerErroratorg.apache.hadoop.util.StringUtils.(StringUtils.java:80)atorg.apache.hadoo

exceptionininitializerError java SparkSubmit apache spark apache-spark java-10

java - 避免 "cannot retry due to server authentication, in streaming mode"错误，不涉及任何 CXF

我已经在很多地方搜索过处理过这个HttpRetryException问题的其他人，但我发现的所有人都遇到过一些名为CXF的apache服务，我没有使用它。我使用的是java.net.HttpURLConnection。我创建一个连接，将setRequestProperty用于“授权”，获取输出流，写入一堆字节，然后尝试读取回复输入流。大多数时候这都有效，但有时我会遇到上述异常。我无法避免流式传输，因为有时我需要写入比内存中所能存储的更大的文件，而且无论如何，我发现的大多数搜索结果都表明这不是真正的问题。他们通常按照bindingProvider.getRequestContext().

authentication amp section HttpURLConnection code java http-authentication

Java Apache Spark : Long transformation chains result in quadratic time

我有一个使用ApacheSpark的Java程序。该程序最有趣的部分如下所示:longseed=System.nanoTime();JavaRDDannotated=documents.mapPartitionsWithIndex(newInitialAnnotater(seed),true);annotated.cache();for(intiter=0;itera.sum(b));//updateoverallcounts(*)seed=System.nanoTime();//copyoverallcountswhichCountChangerusestocomputeastoch

transformation quadratic mapPartitionsWithIndex annotated code java apache-spark

java - java8 Stream的filter()和map()方法是否使用迭代？

我在Person.java文件中有一个POJO:publicclassPerson{privateStringname;privateintage;publicPerson(Stringn,inta){name=n;age=a;}publicStringgetName(){returnname;}publicintgetAge(){returnage;}publicbooleanisAdult(){returngetAge()>=18;}}然后我有一个Demo.java文件，它创建一个人员列表并使用流来过滤和打印列表中的内容:importjava.util.*;publicclassD

java Stream code String person java-8 iteration java-stream

Java 8 Streams - 分组为单个值

这个问题在这里已经有了答案:Java8ListintoMap(23个回答)关闭2年前。我目前正在使用List>我试图在map中对各种键进行分组。这似乎可以很好地使用Java8Stream小号:Map>>>collect=list.stream().collect(Collectors.groupingBy(item->item.get("key1"),Collectors.groupingBy(item->item.get("key2"))));不出所料，这给了我一个Map>>>这适用于可能的分组结果大于1的情况。例如，我有各种示例，其中完成的分组将总是导致最低级别列表中的单个项目。行

Streams Java 34 code section java-8 java-stream

基于谓词的Java 8 Stream indexOf方法

这个问题在这里已经有了答案:StreamWaytogetindexoffirstelementmatchingboolean(6个回答)关闭4年前。我刚刚遇到这样的情况，我需要知道一个元素在列表中的索引(位置)，但只有一个谓词表达式来标识该元素。我找了一个类似的Stream函数intindex=list.stream().indexOf(e->"TESTNAME".equals(e.getName()));但无济于事。当然，我可以这样写:intindex=list.indexOf(list.stream().filter(e->"TESTNAME".equals(e.getName()

indexOf Stream section code list java java-8 java-stream

23 24 252627 28 29