草庐IT

apache-karaf

全部标签

hadoop - Apache Spark 将文件与 SQL 数据进行比较

我将使用ApacheSpark处理大文本文件,其中处理周期是将文本部分与大SQL表中的数据进行比较的一部分。任务是:1)Processfilesandbreaktextintopieces2)Comparepieceswithdatabaseones瓶颈肯定是SQL。我是ApacheSpark的新手,虽然我确定Subtask#1是“他的人”,但我不完全确定子任务#2可以由Spark处理(我的意思是,以高效的方式)。问题是Spark如何在并行和分布式环境中处理来自大SQL的可迭代选择(也许,尽可能多地缓存?)? 最佳答案 作为每个请求

hadoop - 在 Apache Pig 中为元组创建模式

如何在加载关系时为以下元组数据创建Pig模式?]$catdata(3,8,9)(4,5,6)(1,4,7)(3,7,5)(2,5,8)(9,5,8)我在本地模式下尝试了下面的语句A=LOAD'/home/cloudera/data'AS(t1:tuple(t1a:int,t1b:int,t1c:int),t2:tuple(t2a:int,t2b:int,t2c:int));如果我转储数据,我期望结果DUMPA;((3,8,9),(4,5,6))((1,4,7),(3,7,5))((2,5,8),(9,5,8))但我得到的是,((3,8,9),)((1,4,7),)((2,5,8),)我

apache - 无法将数据从水槽提取到 hdfs hadoop 以获取日志

我正在使用以下配置将数据从日志文件推送到hdfs。agent.channels.memory-channel.type=memoryagent.channels.memory-channel.capacity=5000agent.sources.tail-source.type=execagent.sources.tail-source.command=tail-F/home/training/Downloads/log.txtagent.sources.tail-source.channels=memory-channelagent.sinks.log-sink.channel=me

hadoop - 如何在 Apache mahout 中合并两个相似实例

我是Apachemahout的新手,我有一些疑问,如果我错了请纠正我。假设我们有数据集并根据数据集计算推荐,然后将结果显示给用户,当用户再次访问我们的网站时,我们将有新的数据集,因此我们必须根据新数据集再次计算推荐。我们可以通过组合两个数据集来做到这一点,即旧数据集和新数据集,但是由于我们已经对旧数据集进行了计算,如果我们将它们组合在一起,那么我们将再次对旧数据集进行相同的计算,这将在数据增加时成为问题所以想问问有没有其他方法可以做到这一点,我认为另一种方法是结合两个数据集的相似性,因为推荐是基于相似性的,但我找不到任何关于这个的东西。请帮我解决这个问题,谢谢

eclipse - 为什么 org.apache.hadoop.hdfs.protocol.proto 在 HADOOP SVN 中为空

我目前正在学习hadoop2.5。为了修改hdfs的某些部分,我从Hdfsresposity查看了HDFS项目。,但是在导入到eclipse之后,编译器找不到包“org.apache.hadoop.hdfs.protocol.proto”。这个包在SVN里面也是空的。有什么解决办法吗? 最佳答案 请按照BUILDING.txt中描述的构建过程进行操作.您缺少的文件夹是在通常的maven构建过程中生成的protobuf文件。 关于eclipse-为什么org.apache.hadoop.h

hadoop - Apache Pig - 处理中间别名?

我正在编写一个包含许多操作的冗长的PigLatin脚本。有时,操作的唯一目的是获得中间关系X,该关系随后被转换或丰富为Y,此时X不再是出于兴趣。Pig是否将X保持在某处(例如在内存或HDFS中)具体化,我是否应该担心“释放”X?或者这在Pig和Hadoop之间得到了处理?奖励问题:如果在MapReduce上的Pig、Tez上的Pig和Spark上的Pig之间在运行时处理此类中间值时存在任何有趣的差异,那么也很高兴了解这一点。 最佳答案 Pig使用惰性执行来评估。惰性求值的一些特征是处理只发生在DUMP/STORE命令上允许重新排序以

hadoop - Apache spark 1.2.1 独立集群中的剂量, 'number of executors equals to number of SPARK_WORKER_INSTANCES'?

Apachespark1.2.1Standalone集群中的Dose,“执行程序的数量等于SPARK_WORKER_INSTANCES的数量”?Ihavedonebelowsettinginconf/spark-env.shSPARK_EXECUTOR_CORES=4SPARK_NUM_EXECUTORS=3SPARK_EXECUTOR_MEMORY=2G如果没有,谁能告诉我如何增加独立集群中的执行程序数量?提前致谢。 最佳答案 在独立模式下,总执行器数量等于集群中的总工作器数量。spark-env.sh中的SPARK_WORKER

apache - 是否可以配置运行 mapreduce v1 框架的 hadoop 2.6.0? (经典的)

我知道hadoop2.6集群可以配置为运行“yarn”或“local”,其中“yarn”是mapreducev2,“local”只是本地模式。我从这个线程(Whatisthedifferencebetweenclassic,localformapreduce.framework.nameinmapred-site.xml?)中了解到它也可以配置为在“经典”框架中运行,即mapreducev1。但是,如果我只是将“mapreduce.framework.name”从“yarn”(或“local”)更改为“classic”,我将无法运行任何工作。那么,有可能这样做吗?我该如何配置它?我的另

hadoop - Apache Spark 1.2.1 独立集群给出 java 堆空间错误

我需要有关如何计算在spark独立集群中的xmb(假设x表示600mb)上运行需要多少堆空间(内存)的信息。场景:我有14GB内存和8个内核的独立集群。我想对600MB的数据进行操作(从文件中读取数据并将其写入Cassandra)。对于此任务,我将SparkConfig作为:.set("spark.cassandra.output.throughput_mb_per_sec","800").set("spark.storage.memoryFraction","0.3")提交任务时--executor-memory=5g--total-executor-cores6--driver-m

hadoop - Apache 诺克斯配置

以下网址有效curl-XGET'http://10.1.1.1:50070/webhdfs/v1/?op=LISTSTATUS'并返回过期时间:2015年5月7日星期四04:19:20GMT日期:2015年5月7日星期四04:19:20GMTPragma:无缓存内容类型:application/json传输编码:分块服务器:Jetty(6.1.26.hwx){“文件状态”:{“文件状态”:[{“accessTime”:0,“blockSize”:0,“....关于文档http://hortonworks.com/hadoop-tutorial/securing-hadoop-infra