草庐IT

docker-spark

全部标签

php - Docker-Compose 不会批量处理我的 php.ini 文件

我正在尝试使用docker-compose对我的php.ini文件进行批量处理,这样我就可以在我的本地计算机上即时进行更改,以查看它如何影响主机。不幸的是,到目前为止,我能够将php.ini文件放入容器的唯一方法是直接在Dockerfile中创建期间。附件是在当前设置下运行良好的容器图像。我的Dockerfile如下:FROMubuntu:14.04MAINTAINERJoeAstrahanVOLUME["/var/www"]RUNapt-getupdate&&\apt-getinstall-ysoftware-properties-common&&\apt-getupdate&&\a

php - Docker 将 PHP 容器连接到 MySQL

我有两个容器,一个apache-php容器和一个mysql数据库容器。我正在尝试让我的php脚本查询我的sql数据库。但是,我收到以下错误;Fatalerror:UncaughtPDOException:PDO::__construct():php_network_getaddresses:getaddrinfofailed:Nameorservicenotknown和Fatalerror:UncaughtPDOException:SQLSTATE[HY000][2002]Nosuchfileordirectory切换主机地址时,我想我遗漏了docker的一些基本内容,这让我发疯。我的

php - 错误 : In file './docker-compose.yml' , 服务 'build' 必须是映射而不是字符串

我正在开发一个phpdocker应用程序。我在尝试时遇到错误docker-composeup命令。尝试将php应用程序连接到mysql。我的docker撰写文件:-version:'2'services:web:container_name:modeloPHP5.4-Apachebuild:.ports:—8889:80volumes:—./www:/var/www/htmllinks:—dbdb:container_name:modeloMySQLbuild:context:./dockerfile:DockerfileDBvolumes:—/var/lib/mysqlports:—

java - 是否可以使用 java 通过 spark 连接任何 RDBMS?

JdbcRDDrdd=neworg.apache.spark.rdd.JdbcRDD(sparkConf,()=>{Class.forName("com.mysql.jdbc.Driver")sql.DriverManager.getConnection("jdbc:mysql://mysql.example.com/?user=batman&password=alfred")},"SELECT*FROMBOOKSWHERE?row.getString("BOOK_TITLE"))我尝试将上面的scala代码更改为java8,但是出现了很多错误。 最佳答案

java - 用于发布和开发应用程序的 Apache Spark Maven 依赖项

我必须关注this使用Maven为我的ApacheSpark应用程序创建superjar的教程。我已经在pom中设置了所有Spark依赖项provided.这工作得很好,但现在当我在本地运行应用程序时,我收到缺少Spark依赖项的错误。此刻我不得不删除provided来自pom的标记。如何仅在构建要发布的应用程序时才提供提供的spark依赖项?我使用Intellij作为开发应用程序的IDE。 最佳答案 您可以创建单独的Maven配置文件。最好的选择是在POM中有dependencyManagment部分,您将在其中指定版本,然后在配

java - 将 spark 数据帧写入 Parquet 格式时出现内存不足错误

我正在尝试从数据库中查询数据,对其进行一些转换并将新数据以Parquet格式保存在hdfs上。由于数据库查询返回大量行,我正在分批获取数据并对每个传入批处理运行上述过程。更新2:批处理逻辑是:importscala.collection.JavaConverters._importorg.apache.spark.SparkContextimportorg.apache.spark.sql.SQLContextimportorg.apache.spark.sql.Rowimportorg.apache.spark.sql.types.{StructType,StructField,St

java - Apache Spark 如何将函数发送到引擎盖下的其他机器

我开始使用Pyspark进行一些数据处理。我可以做一些像这样的事情对我来说很有趣rdd.map(lambdax:(x['somekey'],1)).reduceByKey(lambdax,y:x+y).count()它会将这些函数中的逻辑发送到可能多台机器上以并行执行。现在,如果我有Java背景,如果我想将包含某些方法的对象发送到另一台机器,那台机器需要知道通过网络流式传输的对象的类定义。最近java有了函数式接口(interface)的想法,它将在编译时为我创建该接口(interface)的实现(即MyInterfaceimpl=()->System.out.println("Stu

java - Spark Kryo 注册数组类

我正在尝试用数组注册一个类(激活了Kryo的SparkJava),日志显示一条​​明确的消息:Classisnotregistered:org.apache.spark.sql.execution.datasources.InMemoryFileIndex$SerializableBlockLocation[]我已经写了几个组合,但这些都不起作用:kryo.register(Class.forName("org.apache.spark.sql.execution.datasources.InMemoryFileIndex$SerializableBlockLocation[]"));

java - HashMap 作为 Spark Streaming 中的广播变量?

我有一些数据需要在sparkstreaming中分类。分类键值在程序开始时加载到HashMap中。因此,每个传入的数据包都需要与这些key进行比较并进行相应标记。我意识到spark有称为广播变量和累加器的变量来分发对象。教程中的示例使用简单的变量,例如etc。如何使用HashMap在所有sparkworker上共享我的HashMap。或者,是否有更好的方法来执行此操作?我正在用Java编写我的SparkStreaming应用程序。 最佳答案 在spark中,您可以用相同的方式广播任何可序列化的对象。这是最好的方法,因为您只需将数据发

java - "spark.memory.fraction"好像没有作用

在Spark中,当我从一个函数中从HDFS读取一个大约1GB的字符串时,我遇到了java.lang.OutOfMemoryError:Javaheapspace错误。我使用的执行程序内存是6GB。为了增加用户内存,我什至将spark.memory.fraction减少到0.3,但我仍然遇到同样的错误。似乎降低该值没有效果。我正在使用Spark1.6.1并使用Spark1.6核心库进行编译。我在这里做错了什么吗? 最佳答案 请参阅SparkConfSparkExecutorOOM:如何在Spark上设置内存参数一旦应用程序运行,您将看