spark-ml

hadoop - 如何从 spark thrift 服务器使用 hadoop？

请考虑以下设置。hadoop版本2.6.4Spark版本2.1.0操作系统CentOSLinux版本7.2.1511(核心)所有软件作为单节点集群安装在一台机器上，spark以独立模式安装。我正在尝试使用SparkThrift服务器。要启动sparkthrift服务器，我运行shell脚本start-thriftserver.sh运行thrift服务器后，我可以运行beeline命令行工具并发出以下命令:命令运行成功:!connectjdbc:hive2://localhost:10000user_name''org.apache.hive.jdbc.HiveDrivercreated

hadoop - Spark BigQuery 连接器，设置欧盟位置

我一直在使用Google提供的BQ连接器，并为另一个抽象逻辑的连接器做出贡献我的问题是如何使用saveAsNewAPIHadoopDataset通过sparkAPI写入欧盟位置？通过hadoopconf设置位置似乎还不够最佳答案我通过自己编写一个新的连接器来解决这个问题。可以查看here 关于hadoop-SparkBigQuery连接器，设置欧盟位置，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co

欧盟 BigQuery section stackoverflow https hadoop apache-spark google-bigquery

csv - 使用 Spark 从 S3 加载嵌套的 csv 文件

我尝试加载s3中的数百个gzip压缩csv文件。目录结构类似于以下内容:bucket--level1----level2.1--------level3.1------------manyfiles--------level3.2------------manyfiles----level2.2--------level3.1------------manyfiles--------level3.2------------manyfiles可能有多个level2、level3目录，每个目录下都有很多文件。过去我使用.textFile加载数据并使用通配符传递路径，例如:s3a://buc

csv Spark level apache section hadoop apache-spark amazon-s3 spark-csv

hadoop - 执行 spark 作业时出现 FileNotFoundException

我正在尝试在Spark上执行一个程序。我有一个包含一个主节点和两个从节点的集群。我在执行期间收到以下错误。Exceptioninthread"main"org.apache.spark.SparkException:Jobabortedduetostagefailure:Task3instage4.0failed4times,mostrecentfailure:Losttask3.3instage4.0(TID44,hadoopslave3):java.lang.RuntimeException:java.io.FileNotFoundException:File/home/ubunt

时出 FileNotFoundException DAGScheduler scala scheduler hadoop apache-spark

java - 使用 Spark 和 JAVA 从 HBase 读取数据

我想使用JAVA通过Spark访问HBase。除了this之外，我还没有找到任何例子一。答案中写着，YoucanalsowritethisinJava我从Howtoreadfromhbaseusingspark复制了这段代码:importorg.apache.hadoop.hbase.client.{HBaseAdmin,Result}importorg.apache.hadoop.hbase.{HBaseConfiguration,HTableDescriptor}importorg.apache.hadoop.hbase.mapreduce.TableInputFormatimpo

Spark HBase 34 TableInputFormat java hadoop apache-spark

hadoop - Spark 上的 hive : Failed to create spark client

我正在尝试使Spark2.1.0上的Hive2.1.1在单个实例上运行。我不确定这是正确的方法。目前我只有一个实例，所以我无法构建集群。当我在配置单元中运行任何插入查询时，出现错误:hive>insertintomcus(id,name)values(1,'ARM');QueryID=server_20170223121333_416506b4-13ba-45a4-a0a2-8417b187e8ccTotaljobs=1LaunchingJob1outof1Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.re

hadoop Failed gt lt property apache-spark hive hadoop-yarn

hadoop - Spark 处理非结构化文件

我有一个关于使用Spark处理位于HDFS中的非结构化文件的问题。假设在这种情况下，我们有很多文件位于一个HDFS文件夹中。因此，Spark应用程序将读取该特定HDFS文件夹中的所有文件并对其进行处理。我的问题是，如果我们使用以下代码读取文件并将其放入DataFrame，如果HDFS文件夹包含大量文件并且每个文件都很大，则可能会出现内存不足的问题:df=spark.read.text('/user/tester/datafiles')我们像上面的场景一样处理HDFS文件的最佳实践或方法是什么？是不是我们需要逐个文件循环处理，而不是一次性读取所有文件？谢谢。

结构化 hadoop section HDFS apache-spark

hadoop - 在 EMR Spark 上，JDBC 加载第一次失败，然后工作

我在AWSElasticMapReduce5.3.1中使用spark-shell和Spark2.1.0从Postgres数据库加载数据。loader.load总是失败然后成功。为什么会这样？[hadoop@[SNIP]~]$SPARK_PRINT_LAUNCH_COMMAND=1spark-shell--driver-class-path~/postgresql-42.0.0.jarSparkCommand:/etc/alternatives/jre/bin/java-cp/home/hadoop/postgresql-42.0.0.jar:/usr/lib/spark/conf/:/

hadoop Spark scala apache apache-spark spark-dataframe emr elastic-map-reduce

hadoop - 在具有多个操作(作业)的 Spark 应用程序中重新运行失败的 Spark 作业

假设我有一个spark应用程序并且有两个操作导致两个spark作业。//sparkApplication//SparkJob1....errorCount.saveAsTextFile(errorCountOpPath);//sparkJob2......debugCount.saveAsTextFile(debCountOpPath);现在假设我们使用spark提交命令在Yarn上启动了spark应用程序。作业1成功，作业2失败。现在我想重新运行job2，因为它失败了。当我尝试使用sparksubmit命令在Yarn上重新启动spark应用程序时，job1和job2都被触发了。但我不

Spark hadoop section saveAsTextFile apache-spark hadoop-yarn

java - SPARK 转 HBase 写入

我的SPARK程序中的流程如下:Driver-->Hbaseconnectioncreated-->BroadcasttheHbasehandle现在从执行者那里，我们获取这个句柄并尝试写入hbase在驱动程序中，我正在创建HBaseconf对象和连接对象，然后通过JavaSPARK上下文广播它，如下所示:SparkConfsparkConf=JobConfigHelper.getSparkConfig();Configurationconf=newConfiguration();UserGroupInformation.setConfiguration(conf);jsc=newJa

SPARK HBase FieldSerializer esotericsoftware java hadoop apache-spark kryo

211 212 213214215 216 217