apache-spark-1.3

java - Spark 无法访问 hbase 但可以使用 java 代码访问

我正在使用spark1.3.0和hbase1.0。一星期后。Hbase使用java代码运行成功。但是当将Hbase与spark一起使用时会出现错误。我还检查了hbaseshell是否工作正常。这个错误发生在很长时间之后，否则也可以与spark一起正常工作。我已经检查过hadoop和hbase集群健康状况良好。在Spark界面Causedby:java.io.IOException:Enable/Disablefailedatorg.apache.hadoop.hbase.client.ZooKeeperRegistry.isTableOnlineState(ZooKeeperRegis

hadoop - 如何从 sequenceFile 创建一个 spark DataFrame

我正在使用spark1.5。我想从HDFS中的文件创建一个dataframe。HDFS文件包含json数据，其中包含大量序列输入文件格式的字段。有没有办法在java中优雅地做到这一点？事先不知道json的结构/字段。我能够从序列文件中将输入作为RDD，如下所示:JavaPairRDDinputRDD=jsc.sequenceFile("s3n://key_id:secret_key@file/path",LongWritable.class,BytesWritable.class);JavaRDDevents=inputRDD.map(newFunction,String>(){pub

sequenceFile DataFrame String section BytesWritable hadoop apache-spark hdfs

hadoop - 如何在 aws us-east-2 上将 s3a 与 spark 2.1.0 一起使用？

背景我一直在努力为自己获取一个灵活的设置，以便在aws上使用spark和dockerswarm模式。我一直在使用的docker镜像配置为使用最新的spark，当时是2.1.0和Hadoop2.7.3，可在jupyter/pyspark-notebook获得。.这是有效的，我一直在测试我计划使用的各种连接路径。我遇到的问题是与s3交互的正确方式的不确定性。我一直在跟踪如何使用s3a为spark提供依赖项以连接到awss3上的数据。协议(protocol)，对比s3n协议(protocol)。我终于找到了hadoopawsguide并认为我正在关注如何提供配置。但是，我仍然收到400Bad

何在 us-east code hadoop section apache-spark amazon-s3 pyspark parquet

apache - Apache Mahout 中的矢量化

我是Mahout的新手。我需要将文本文件转换为向量以供后期分类。任何人都可以阐明以下这些问题吗？如何在mahout中将文本文件转换为矢量？文件格式如“用户名|关于项目的评论|评分”数据将是几个TB。那么我可以使用哪种算法来使用我想创建的向量进行分类？谢谢，阿伦最佳答案您可以查看这2个示例，它们在一定程度上也说明/解释了如何使用序列文件API。Here和here你绝对应该阅读这篇intro到文本分析关于apache-ApacheMahout中的矢量化，我们在StackOverflow

矢量化 apache section stackoverflow noreferrer hadoop classification vectorization mahout

apache - 如何使用 Apache Nutch 抓取 .pdf 链接

我有一个要抓取的网站，其中包含一些指向pdf文件的链接。我想让nutch抓取该链接并将它们转储为.pdf文件。我正在使用ApacheNutch1.6，我也在java中将其作为ToolRunner.run(NutchConfiguration.create(),newCrawl(),tokenize(crawlArg));SegmentReader.main(tokenize(dumpArg));谁能帮我解决这个问题最佳答案如果你想让Nutch抓取你的pdf文档并建立索引，你必须启用文档抓取和Tika插件:文档抓取1.1编辑reg

apache section plugin urlfilter hadoop nutch

scala - 使用 Spark hadoop API 创建 RDD 以访问 Cassandra DB

我正在运行一个节点cassandra2.0.3和ApacheSpark2.0.3我创建了一个scala程序来使用SparkhadoopAPI创建RDD以访问CassandraDB。还应该在bashrc中为spaark设置哪些环境变量，因为我在spark-env.sh中使用以下配置exportSPARK_MASTER_IP="10.0.3.15"exportSPARK_MASTER_PORT="7077"exportSCALA_HOME="/home/Desktop/CD/scala-2.9.3"exportSPARK_WORKER_MEMORY=1gexportSPARK_WORKER

Cassandra hadoop ClusterTaskSetManager cluster 16 scala cassandra-2.0 apache-spark

hadoop - Hive 操作失败，主类 [org.apache.oozie.action.hadoop.HiveMain]，退出代码 [40000]

我是这方面的新手，所以我完全有可能错过一些基本的东西。我正在尝试运行从协调器启动的Oozie工作流。协调器等待文件出现在目录中。工作流包含运行此脚本的Hive操作:CREATEexternalTABLEIFNOTEXISTSdaily_dump(idbigint,creationdatetimestamp,datelastupdatedtimestamp,data1string,data2string)LOCATION'/data/daily_dump';FROMdaily_dumpdINSERTOVERWRITETABLEmydata_orcPARTITION(id,datelast

hadoop HiveMain PerfLogger apache hive oozie

python - 当使用 hbase 作为数据源时，spark 是否利用 hbase 键的排序顺序

我将时间序列数据存储在HBase中。rowkey由user_id和timestamp组成，像这样:{"userid1-1428364800":{"columnFamily1":{"val":"1"}}}"userid1-1428364803":{"columnFamily1":{"val":"2"}}}"userid2-1428364812":{"columnFamily1":{"val":"abc"}}}}现在我需要执行每个用户的分析。这是hbase_rdd的初始化(来自here)sc=SparkContext(appName="HBaseInputFormat")conf={"hb

hbase python code 34 hadoop mapreduce apache-spark

python - Apache Spark 使用的 python 版本

ApacheSpark库支持哪个版本的python(2或3)？如果它支持两个版本，在使用Apache-Spark时使用python2或3是否有任何性能考虑？最佳答案至少自Spark1.2.1起，如果未使用PYSPARK_PYTHON或PYSPARK_DRIVER_PYTHON进行设置，则默认Python版本为2.7(参见bin/pyspark)。自Spark1.4.0起支持Python3(参见SPARK-4897和Spark1.4.0releasenotes)。选择一个而不是另一个应该取决于您的要求。阅读ShouldIusePy

python Apache section noreferrer noopener hadoop apache-spark pyspark

hadoop - 如何读取 Spark 中的多行元素？

当您使用sc.textfile在Spark中读取文件时，它会为您提供元素，其中每个元素都是单独的一行。但是，我希望每个元素都包含N行。我也不能使用定界符，因为该文件中没有定界符。那么，如何让spark为我提供多行元素？我对使用NLineInputFormat类这样做很感兴趣。在Spark中可以这样做吗？我可以看到MapReduce的例子，但我不知道这将如何转化为Spark。最佳答案是的，如果您从hadoop获取文件。你应该可以这样做:valrecords=sc.newAPIHadoopRDD(hadoopConf,classOf

多行 hadoop section strong apache-spark hdfs