apache-spark-1.6

java - 如何指定在 spark-submit 命令中使用哪个 java 版本？

我想在远程服务器上的yarn集群上运行spark流应用程序。默认的Java版本是1.7，但我想为我的应用程序使用1.8，它也在服务器中，但不是默认的。有没有办法通过spark-submit指定java1.8的位置，这样我就不会得到major.minor错误？最佳答案在我们的案例中，JAVA_HOME不够用，驱动程序在java8中运行，但后来我发现YARN中的Sparkworker是使用java7启动的(hadoop节点都安装了java版本)。我必须添加spark.executorEnv.JAVA_HOME=/usr/java/在

java - 如果我不使用自定义连接管理器，是否仍应在 Apache HttpClient 上设置 ConnectionRequestTimeout？

我正在使用ApacheRequestConfig在我的HttpClient上配置一些超时。RequestConfigconfig=RequestConfig.custom().setConnectTimeout(timeout).setSocketTimeout(timeout).setConnectionRequestTimeout(timeout)//CanIleavethisout...build();CloseableHttpClienthttpClient=HttpClients.custom()//.setConnectionManager(connectionManage

连接管自定 code section java timeout apache-httpclient-4.x

java - 更改使用 Apache POI 创建的临时文件的位置

我在读取.xlsx文件时遇到问题。每当我使用WorkbookFactory.create(inputStream);时，都会在/tmp/poifiles目录下创建一些随机名称的临时文件。此目录是为第一个用户创建的，具有RW-R-R-权限。所以当同一台机器上的另一个用户试图访问这些文件时，他不能。请给我任何建议1)如何在/tmp目录下而不是总是在/tmp/poifiles下创建这些临时文件(我使用的是RHELV5.0)2)以及如何配置POI，例如更改它读取临时文件的位置？迫切需要任何帮助来解决我的不同用户通过POI访问相同的.xlsx文件的问题。最佳答案

Apache java section poifiles getProperty apache-poi xlsx

java - 使用 Apache Commons FTPClient 监控进度

我有一个简单的FTPClient类，它从FTP服务器下载文件。我还需要监控下载进度，但我看不出有什么办法。实际下载文件功能是一个简单的功能(你的ftp客户端名称).retrieveFile(arg1,arg2);如何监控下载进度？谢谢，匿名。最佳答案您需要一个CountingOutputStream(如CommonsIO中所示:http://commons.apache.org/io/api-release/index.html)。您创建其中一个，将目标OutputStream包装在其中，然后您可以按需检查ByteCount以监

FTPClient Commons section CountingOutputStream size java ftp download apache-commons ftp-client

java - Spark (JAVA) - 具有多个聚合的数据框 groupBy？

我正在尝试使用JAVA在Spark上编写一个groupBy。在SQL中，这看起来像SELECTid,count(id)ascount,max(date)maxdateFROMtableGROUPBYid;但是这个查询的Spark/JAVA风格等价物是什么？假设变量table是一个数据框，以查看与SQL查询的关系。我在想类似的东西:table=table.select(table.col("id"),(table.col("id").count()).as("count"),(table.col("date").max()).as("maxdate")).groupby("id")这显然

groupBy Spark code section 34 java apache-spark

java - 如何使用 Apache Commons DirectoryWalker？

我正在尝试了解如何使用ApacheCommonsIODirectoryWalker.很容易理解如何子类化DirectoryWalker。但是如何在特定目录上开始执行它呢？最佳答案只是为了扩展这个答案，因为一开始我也对如何使用这个类感到困惑，当我环顾四周时，这个问题出现在谷歌上。这只是我如何使用它的一个例子(减去一些东西):publicclassFindConfigFilesDirectoryWalkerextendsDirectoryWalker{privatestaticStringrootFolder="/xml_files

DirectoryWalker Commons section files java apache-commons

java - 无法执行目标 org.apache.maven.plugins :maven-surefire-plugin:2. 18.1:test

我正在尝试安装stanbol并收到以下错误Failedtoexecutegoalorg.apache.maven.plugins:maven-surefire-plugin:2.18.1:test附上错误日志[INFO][ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-surefire-plugin:2.18.1:test(default-test)onprojectorg.apache.stanbol.entityhub.ldpath:Therearetestfailures.[ERROR][ERROR]Pleasere

maven maven-surefire-plugin apache java maven-3 apache-stanbol

java - Spark : How to save a dataframe with headers?

dataframe.saveasTextFile，仅以分隔格式保存数据。如何在JAVA中保存带有标题的数据框。sourceRufFrame.toJavaRDD().map(newTildaDelimiter()).coalesce(1,true).saveAsTextFile(targetSrcFilePath); 最佳答案如果你想保存为csv文件，我建议使用spark-csv包。您可以简单地使用spark-csv保存您的数据框，如下所示。dataFrame.write.format("com.databricks.spark.c

dataframe headers code section spark-csv java apache-spark

java - 如何使用 Apache Commons Email 将文件附加到 HTML 电子邮件

我正在使用ApacheCommonsEmail1.1而且我不知道如何将文件附加到HtmlEmail。如果我运行下面的代码，我会收到一封带有附件的电子邮件，但HTML消息也会作为附件出现。如果我不调用email.attach()，HTML消息就会像您预期的那样通过，但我需要通过HTML消息和附件。我错过了什么？HtmlEmailemail=newHtmlEmail();email.setHostName("localhost");email.addTo("test@mail.com","Test");email.setFrom("testapp@mail.com","TestApp");

Commons Apache email code section java apache-commons-email

java - Apache Kafka - 关于主题/分区的 KafkaStream

我正在为大容量高速分布式应用程序编写KafkaConsumer。我只有一个主题，但收到的消息率非常高。为更多消费者提供服务的多个分区将适合此用例。最好的消费方式是拥有多个流阅读器。根据文档或可用示例，ConsumerConnector给出的KafkaStreams数量基于主题数量。想知道如何[基于分区]获得多个KafkaStream读取器，以便我可以跨每个流一个线程，或者在多个线程中从同一个KafkaStream中读取会从多个分区进行并发读取？非常感谢任何见解。最佳答案想分享我从邮件列表中发现的内容:您在主题图中传递的数字控制一

KafkaStream Apache section 传入 java multithreading concurrency apache-kafka

100 101 102103104 105 106