Spark-MongoDB

mongodb - Hadoop 错误 - 无法计算输入拆分 : need to login

我正在尝试Hadoop在我的数据中应用MapReduce，示例inthislink当我为正确的mongo.input.uri配置本地mongo集合时工作正常。但是当我如下所示配置远程mongo集合时，mongo.input.urimongodb://username:password@remote_mongodb_ip:27017/input_collection我得到以下错误java.lang.IllegalArgumentException:Unabletocalculateinputsplits:needtologin最奇怪的是，如果我为输入表和输出表的远程mongo数据库集合使

hadoop - 使用Spark的有状态操作updateStateByKey如何保持实时性

首先是虚构的用例。假设我有一个元组流(user_id,time_stamp,login_ip)。我想以5秒的粒度维护每个用户的最后登录IP。使用Spark流，我可以使用updateStateByKey方法更新这张map。问题是，随着数据流不断涌来，每个时间间隔的RDD越来越大，因为看到了更多的user_ids。一段时间后，map会变得很大，维护时间会变长，无法实现结果的实时传递。请注意，这只是我想出的一个简单示例来说明问题。实际问题可能更复杂，确实需要实时交付。关于如何解决这个问题的任何想法(在Spark以及其他解决方案中都会很好)？最佳答案

实时性 updateStateByKey code section Spark hadoop bigdata apache-spark spark-streaming

mongodb - 动态模式的 Hive 表创建

我们正在研究Hive是否允许我们运行一些类似SQL的查询mongo风格的动态模式作为我们map-reduce作业的先驱。数据以几个TiB的BSON文件的形式出现；每个文件包含JSON“样本”。示例示例如下:{"_id":"SomeGUID","SomeScanner":{"B64LR":22,"Version":192565886128245},"Parser":{"Size":73728,"Headers":[{"VAddr":4096,"VSize":7924....etc....作为动态模式，只有少数字段保证存在。我们希望能够针对可能是某物的输入集运行查询喜欢SomeScanne

mongodb Hive code 34 hadoop bson hiveql

python - mongodb_hadoop 流与 python : -inputURI not recognized

我正在尝试使用mongodb_hadoop连接器在python中创建一个MapReduce应用程序。我有一个安装了hadoop2.2.0的集群。我已经安装了mongodb_hadoop连接器v1.3.0。我已经安装了mongodb并创建了一个名为hadoop_db的测试数据库，其中包含一个名为“整数”的集合，其中包含整数值。我的目标是尝试计算每个整数的出现次数。我的工作基于此presentation但是当我尝试执行作业时，这是我得到的:bin/hadoopjarshare/hadoop/tools/lib/hadoop-streaming-2.2.0.jar\-mapperpyhado

python mongodb_hadoop hadoop mongodb section

hadoop - Spark Streaming - HBase 批量加载

我目前正在使用Python将CSV数据批量加载到HBase表中，目前我在使用saveAsNewAPIHadoopFile编写适当的HFile时遇到了问题我的代码目前如下所示:defcsv_to_key_value(row):cols=row.split(",")result=((cols[0],[cols[0],"f1","c1",cols[1]]),(cols[0],[cols[0],"f2","c2",cols[2]]),(cols[0],[cols[0],"f3","c3",cols[3]]))returnresultdefbulk_load(rdd):conf={#Ommitt

Streaming hadoop 39 34 code hbase pyspark

hadoop - 无法查询 Spark 创建的 Parquet 文件

在Spark中创建了一个parquet文件。这是代码片段parquet_file_name=os.path.join(partition,os.path.basename(fileLocation)+".parquet")dfData=sqlContext.createDataFrame(addedColumns,schema)dfData.save(parquet_file_name,"parquet","append")我可以在Spark中读取文件内容。In[1]:sqlContext=SQLContext(sc)parquetFile=sqlContext.parquetFile

Parquet hadoop NULL browser apache-spark hive

java - Hadoop 与 mongoDB : NoClassDefFoundError MongoConfigUtil

我正在学习如何使用mongodb数据作为输入在hadoop中编写map/reduce作业。所以我关注了this示例，但出现以下错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:com/mongodb/hadoop/util/MongoConfigUtilatWordCount.main(WordCount.java:58)atsun.reflect.NativeMethodAccessorImpl.invoke0(NativeMethod)atsun.reflect.NativeMethodAccessorImpl.inv

NoClassDefFoundError MongoConfigUtil code java hadoop mongodb mapreduce mongodb-hadoop

scala - 使用 Spark Streaming 读取 fileStream

我在HDFS上有一个目录，其中每10分钟复制一个文件(现有文件被覆盖)。我想使用Spark流(1.6.0)读取文件的内容，并将其用作引用数据以将其加入其他流。我将“记住窗口”spark.streaming.fileStream.minRememberDuration设置为“600s”并设置newFilesOnly到false，因为当我启动应用程序时，我不想从已经存在的HDFS中获取初始数据。valssc=newStreamingContext(sparkConf,Seconds(2))defdefaultFilter(path:Path):Boolean=!path.getName()

fileStream Streaming strong section code scala hadoop apache-spark spark-streaming

scala - Spark - 按输出 (RDD) 从组中删除 CompactBuffer

问题陈述RDD分组后需要格式化Spark输出(移除CompactBuffer)输入Header1^Header2A^4BA^11AB^7AC^6DFC^7DS期望的输出(A,(4B,11A))(B,(7A))(C,(6DF,7DS))我尝试了什么valrecords=sc.textFIle("/user/chronicles/test.txt").map(x=>{valy=x.split("\\^",-1)(y(0).trim(),y(1).trim())}).groupBy(x=>x._1)records.foreach(println)输出(A,CompactBuffer((4B,

CompactBuffer scala strong 34 section hadoop apache-spark

scala - Spark Streaming textFileStream 复制

我正在尝试监视HDFS中的存储库以读取和处理复制到它的文件中的数据(将文件从本地系统复制到HDFS我使用hdfsdfs-put)，有时它会产生问题:SparkStreaming:java.io.FileNotFoundException:Filedoesnotexist:.COPYING所以我阅读了论坛中的问题和此处的问题SparkStreaming:java.io.FileNotFoundException:Filedoesnotexist:._COPYING_根据我读到的内容，问题与Spark流式传输在文件完成复制到HDFS和Github之前读取文件有关:https://githu

textFileStream Streaming section code FileInputDStream scala hadoop spark-streaming

101 102 103104105 106 107