草庐IT

apache-spark-2.3

全部标签

java - HashMap 作为 Spark Streaming 中的广播变量?

我有一些数据需要在sparkstreaming中分类。分类键值在程序开始时加载到HashMap中。因此,每个传入的数据包都需要与这些key进行比较并进行相应标记。我意识到spark有称为广播变量和累加器的变量来分发对象。教程中的示例使用简单的变量,例如etc。如何使用HashMap在所有sparkworker上共享我的HashMap。或者,是否有更好的方法来执行此操作?我正在用Java编写我的SparkStreaming应用程序。 最佳答案 在spark中,您可以用相同的方式广播任何可序列化的对象。这是最好的方法,因为您只需将数据发

java - Apache Camel : Aws-S3 consumer starts failing with connection pool timeout

我使用AWS-S3消费者定期轮询S3上特定位置的文件。在轮询一定次数后,它开始失败并出现给定的异常,Willtryagainatnextpoll.Causedby:[com.amazonaws.AmazonClientException-UnabletoexecuteHTTPrequest:Timeoutwaitingforconnectionfrompool]com.amazonaws.AmazonClientException:UnabletoexecuteHTTPrequest:Timeoutwaitingforconnectionfrompoolatcom.amazonaws.

java - "spark.memory.fraction"好像没有作用

在Spark中,当我从一个函数中从HDFS读取一个大约1GB的字符串时,我遇到了java.lang.OutOfMemoryError:Javaheapspace错误。我使用的执行程序内存是6GB。为了增加用户内存,我什至将spark.memory.fraction减少到0.3,但我仍然遇到同样的错误。似乎降低该值没有效果。我正在使用Spark1.6.1并使用Spark1.6核心库进行编译。我在这里做错了什么吗? 最佳答案 请参阅SparkConfSparkExecutorOOM:如何在Spark上设置内存参数一旦应用程序运行,您将看

java - 缓冲和刷新 Apache Beam 流数据

我有一个流媒体作业,初始运行时必须处理大量数据。DoFn之一调用支持批处理请求的远程服务,因此在使用有界集合时,我使用以下方法:privatestaticfinalclassFunctionextendsDoFnimplementsSerializable{privatestaticfinallongserialVersionUID=2417984990958377700L;privatestaticfinalintLIMIT=500;privatetransientQueuebuffered;@StartBundlepublicvoidstartBundle(Contextconte

java - 比较 Spark 中的两个数据帧(性能)

我需要比较我的spark应用程序中的两个数据帧。我浏览了以下帖子。HowtoobtainthedifferencebetweentwoDataFrames?但是,我不明白为什么最佳答案中的方法df1.unionAll(df2).except(df1.intersect(df2))比问题中的那个好df1.except(df2).union(df2.except(df1))谁能解释一下?据我了解,后者适用于两个较小的数据集,而前者适用于大型数据集。是因为后者将不同作为联合的一部分吗?即使那样,如果两个数据框有相同记录的可能性更大,那么在后一种情况下我们处理的是一个小数据集。

java - 如何告诉 Apache CXF 在 Spring 配置中使用 java.util.Date

我正在使用CXF来托管Web服务在Spring上下文中,这使得JAX-WS成为默认绑定(bind)。我正在使用Java-First,这意味着带注释的端点接口(interface)和类。由于JAX-WS的默认绑定(bind)使用XMLGregorianCalendar类作为日期,当我调用我的Web服务传递java.util.Date时,它被转换为服务器上的XMLGregorianCalendar。有很多帖子和文档介绍如何更改它以将日期值绑定(bind)到java.util.Date,但都与wsdl2java工具相关,例如:因为我使用的是Spring,所以我正在寻找一种在Spring上下文

java - Apache HttpClient 和 PEM 证书文件

我想以编程方式访问需要客户端证书的站点,我在PEM文件中拥有该证书。在此应用程序中,如果可以避免,我不想将它们添加到我的keystore、使用keytool或openssl。我需要直接在代码中处理它们。HttpClienthttpclient=newDefaultHttpClient();HttpGethttpget=newHttpGet("https://my.secure.site.com/url");//TODO:Specifyca.pemandclient.pemhere?HttpResponseresponse=httpclient.execute(httpget);Http

java - Apache Tiles 如果/否则

我想知道是否可以使用ApacheTiles2(或引用Tiles属性的JSTL,这会起作用)的if/else。基本上,我想要这个:有在TilesXML中。动机是我想在很多地方重用这个JSP,有些地方想显示两个div,有些地方只想显示一个。 最佳答案 使用JSTL示例: 关于java-ApacheTiles如果/否则,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/7028014/

java - 如何在 Apache 反向代理后面的子目录上设置 Play?

我有一个Apache2前端,可以处理两种请求:对根文件夹的请求(例如http://mysite.com/和http://mysite.com/help)由apache本身(PHP/Wordpress)提供服务。将对“/playapp”子文件夹的特定请求转发给Play!通过mod-proxy的反向代理:mod-proxy.confProxyPass/playapp/http://localhost:9000/ProxyPassReverse/playapp/http://localhost:9000/最终结果是请求http://mysite.com/playapp/Controller/

java - 更改 com.sun.org.apache.xml.internal.serialize.XMLSerializer & com.sun.org.apache.xml.internal.serialize.OutputFormat

使用com.sun.org.apache.xml.internal.serialize.XMLSerializer和com.sun.org.apache.xml.internal.serialize.OutputFormat导致使用java1.6编译时出现一些错误。我找到的解决方案是在添加xerces后使用org.apache.xml.serialize.XMLSerializer和org.apache.xml.serialize.OutputFormat。问题是这些类已被弃用。在不触及代码的情况下,我可以使用什么来替换它们?谢谢这是我使用的依赖项:xercesxercesImpl2.