apache-spark-1.6

hadoop - 无法全局访问 Kafka Spark Streaming 中的数据

我正在尝试将数据从Kafka流式传输到SparkJavaPairInputDStreamdirectKafkaStream=KafkaUtils.createDirectStream(ssc,String.class,String.class,StringDecoder.class,StringDecoder.class,kafkaParams,topics);我在这里迭代JavaPairInputDStream来处理RDD。directKafkaStream.foreachRDD(rdd->{rdd.foreachPartition(items->{while(items.hasNe

scala - 通过 Scala IDE 使用 spark sql

我想试试sparksql，我一开始用的是bin/spark-shell插入此代码valsqlcontext=neworg.apache.spark.sql.SQLContext(sc)valdata=sc.textFile("hdfs://localhost:9000/cars.csv")valmapr=data.map(p=>p.split(','))valMyMatchRDD=mapr.map(p=>MyMatch(p(0).toString(),p(1).toString(),p(2).toString(),p(3).toString(),p(4).toString(),p(5)

scala toString spark gt maven hadoop apache-spark apache-spark-sql

java - Spark SASL 无法使用 yarn 在 emr 上工作

所以首先，我想说的是我所看到的解决这个问题的唯一方法是:Spark1.6.1SASL.但是，在添加spark和yarn认证的配置时，还是不行。下面是我在亚马逊emr上的yarn集群上使用spark-submit的spark配置:SparkConfsparkConf=newSparkConf().setAppName("secure-test");sparkConf.set("spark.authenticate.enableSaslEncryption","true");sparkConf.set("spark.network.sasl.serverAlwaysEncrypt","tr

上工 Spark AbstractChannelHandlerContext java hadoop apache-spark hadoop-yarn

hadoop - 如何在 Hive 中使用使用 Apache Drill 创建的 Parquet 文件

ApacheDrill有一个很好的功能，可以从许多传入的数据集中制作parquet文件，但似乎没有很多关于以后如何使用这些parquet文件的信息——特别是在Hive中。Hive有没有办法利用那些“1_0_0.parquet”等文件？也许创建一个表并从parquet文件加载数据，或者创建一个表并以某种方式将这些parquet文件放入hdfs以便Hive读取它？最佳答案我遇到过这个问题，如果您使用的是Cloudera发行版，则可以使用impala创建表(Impala和Hive共享metastore)，它允许从parquet文件创建

何在 Parquet section Hive hadoop apache-drill

hadoop - Apache pig : Calculate number of days between a date and current date

我有一个格式为(#,title,year,rating,duration)的电影列表:1,TheNightmareBeforeChristmas,1993,3.9,45682,TheMummy,1932,3.5,43883,OrphansoftheStorm,1921,3.2,90624,TheObjectofBeauty,1991,2.8,61505,NightTide,1963,2.8,51266,OneMagicChristmas,1985,3.8,53337,Muriel'sWedding,1994,3.5,63238,Mother'sBoys,1994,3.4,57339,N

date Calculate section code 39 hadoop apache-pig

hadoop - Apache HAWQ 生产使用

我不知道还有什么地方可以问这个问题，所以我会在这里问，因为我认为这可以为future可能有类似问题的用户提供一个很好的引用。ApacheHAWQ是否有任何已知的生产用途(http://hawq.incubator.apache.org/)？我想将这项服务与Presto、Spark、Impala等其他服务进行比较。但除了漂亮的基准测试之外，我还没有发现它在现实世界中的任何用法。最后，如果您亲自使用过它，您的使用体验如何？最佳答案目前apachehawq没有独立的文档。但是社区正在将文档从pivotalhdb转移到apachehaw

hadoop Apache incubator section apache-spark hawq

hadoop - Spark 和 HBase 版本兼容性

我正在尝试集成Spark和Hbase1.2.4。我目前正在使用hadoop2.7.3。谁能告诉我哪个版本的Spark与HBase1.2.4兼容？最佳答案我正在使用spark1.6版和hbase1.2版。所以我认为spark版本1.6或1.6.x肯定可以与hbase1.2.4一起使用。关于hadoop-Spark和HBase版本兼容性，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questio

hadoop Spark section stackoverflow apache-spark hbase hadoop2

python - 使用 Spark 的默认 log4j 配置文件 : org/apache/spark/log4j-defaults. 属性将默认日志级别设置为 "WARN"

我是spark的新手，我将spark2.1.0与python2.7一起使用，但无法正常工作。我一直在寻找一个星期来找到我的问题的解决方案，但没有成功。当我在commmadLine中运行pyspark时出现以下错误:Python2.7.13(v2.7.13:a06454b1afa1,Dec172016,20:42:59)[MSCv.150032bit(Intel)]onwin32Type"help","copyright","credits"or"license"formoreinformation.UsingSpark'sdefaultlog4jprofile:org/apache/s

log4 log4j-defaults hadoop 34 java python apache-spark pyspark

hadoop - 简单的基于 deeplearning4J Java 的 Spark 示例？

我需要在hadoop集群中运行一个简单的基于Java的deeplearning4j示例，我找到了一个here.我需要指定来自命令行的输入(这应该是HDFS上的路径)并且输出应该转到HDFS，以供以后查看然而，在示例中没有提及，它是硬编码从本地文件系统输入并输出到本地文件系统。有人可以帮我吗？最佳答案也许是最近对我们示例的拉取请求的某种组合:https://github.com/deeplearning4j/dl4j-examples/pull/384Spring-hadoop可以帮助您吗？http://projects.spri

deeplearning4J deeplearning4 section deeplearning hadoop apache-spark

scala - 如何在 Spark 中拆分？

我在一个RDD中有数据，数据如下:scala>c_datares31:org.apache.spark.rdd.RDD[String]=/home/t_csvMapPartitionsRDD[26]attextFileat:25scala>c_data.count()res29:Long=45212scala>c_data.take(2).foreach(println)age;job;marital;education;default;balance;housing;loan;contact;day;month;duration;campaign;pdays;previous;pou

何在 scala val code section hadoop apache-spark

165 166 167168169 170 171