草庐IT

Streaming

全部标签

python - hadoop streaming - 如何使用python内部连接两个差异文件

我想根据18到25岁的用户年龄组找出热门网站页面访问量。我有两个文件,一个包含用户名、年龄,另一个文件包含用户名、网站名称。示例:用户.txtJohn,22页面.txtJohn,google.com我在python中编写了以下内容,并且它在hadoop之外按我预期的方式工作。importosos.chdir("/home/pythonlab")#Topsitesvisitedbyusersaged18to25#readtheusersfilelines=open("users.txt")users=[line.split(",")forlineinlines]#username,age

ruby - 使用分布式缓存 - HIVE STREAMING

我想压缩Rubygem的文件,并将它们分发到我的EMR集群。我还想使用一个简单的Ruby脚本,在HiveStreaming作业中引用此gem中的文件。我使用以下方法将文件和存档添加到Hadoop分布式缓存:ADDFILE/home/user/mobile.rb;ADDARCHIVE/home/user/browser-master.zip;在mobile.rb中,我使用下面的代码来模拟使用gem:$.pushFile.expand_path("../browser-master/lib",__FILE__)require"browser"当我在本地机器上的同一目录中有解压缩的存档和mo

python - Hadoop streaming with private python 解释器

我正在尝试将Hadoop流与私有(private)python解释器(Hortonworks数据平台2.2.0)结合使用。python解释器是私有(private)的,因为它是主目录中的虚拟环境解释器,只有特定的用户帐户才有权运行它。我在hashbang行中指定了python解释器。我的流式处理作业使用系统python或#!/usr/bin/envpython。但是,当我使用私有(private)python解释器时,它会产生一个权限被拒绝的错误:#!/home/dmazur/test/tempenv/bin/python这是显示错误消息的输出片段:15/11/0311:31:13IN

java - 尝试使用 Hive streaming api 建立连接时,hive 暂存目录的权限被拒绝

我正在使用HCatalogueStreamingapi编写示例程序我有一个正在运行的hadoop、Hiveserver和一个Hivemetastore服务器。我写了一个java程序连接到hivemetastore,源码如下publicclassHCatalogueStreamingclient{publicstaticvoidmain(String[]args){System.setProperty("hadoop.home.dir","E:\\midhun\\hadoop\\hive\\winutils");StringdbName="hive_streaming";Stringtb

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个?

我正在从事一个NLP项目,该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce,我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败,我必须手动删除输出文件夹,调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑,我不想一次又一次地重复这些步骤。[

python-2.7 - Hadoop Streaming 永无止境

我正在尝试学习如何使用hadoop流。我正在尝试运行一个非常简单的映射器,并且没有缩减器。当我运行该程序时,它完成了100%的maptask,然后在十分钟内什么都不做,然后报告它已完成所有maptask的0%。我认为这意味着节点管理器不得不终止工作,不确定。过去我已经等了半个小时,但一直没有结束。我正在使用hadoop1.2.1。它的文档说它带有hadoopstreamingjar,但我找不到它,所以我从中央maven存储库下载了hadoop-streaming-1.2.1。这是命令行:[msknapp@localhostdata]$hadoopjar/hadoop/hadoop-st

java - Apache Spark Streaming 中的非关联聚合

我正在尝试通过apachesparkstreaming在Java中构建一个实用层,用户可以在一段时间内聚合数据(在spark中使用窗口函数),但似乎所有可用的选项都需要关联函数(采用两个参数).然而,对于一些相当常见的用例,例如在一小时内平均温度传感器值等,sparkAPI似乎是不可能的。有没有其他方法可以实现这种功能?我正在考虑实现重复的交互式查询来实现这一点,但它会太慢。 最佳答案 统计聚合(平均值、方差)实际上是关联的,可以在线计算。参见here一个很好的数字方法来做到这一点。就参数数量而言,请记住您放入参数的类型是您的选择。

shell - 将目录传递给 hadoop streaming : some help needed

上下文是我正在尝试在AmazonEMR(WebUI)上使用我运行的bash脚本运行流式作业:-inputs3://emrdata/test_data/input-outputs3://emrdata/test_data/output-mappers3://emrdata/test_data/scripts/mapperScript.sh-reducerNONE输入目录中有子目录,这些子目录中有gzip数据文件。mapperScript.sh失败的相关部分是:forfilenamein"$input"/*;dodir_name=`dirname$filename`fname=`basen

python - 使用 Python 在 Hadoop Streaming 中使用文件

我是Hadoop和MapReduce的新手,正在努力学习。我正在尝试在python中开发一个mapreduce应用程序,我在其中使用来自2个.CSV文件的数据。我只是在映射器中读取这两个文件,然后将文件中的键值对打印到sys.stdout当我在单机上使用程序时,程序运行良好,但使用HadoopStreaming时,出现错误。我想我在读取Hadoop映射器中的文件时犯了一些错误。请帮助我处理代码,并告诉我如何在HadoopStreaming中使用文件处理。mapper.py代码如下。(你可以从评论中理解代码):#!/usr/bin/envpythonimportsysfromnumpyi

hadoop - 网络连接(TCP IP)关闭时如何停止Spark Streaming上下文?

换句话说,我不想将Spark流上下文中的“持续时间”设置为一个值,而是想将其设置为(套接字关闭时间-套接字打开时间) 最佳答案 您可以使用StreamingListner监听接收器断开连接的接口(interface),然后关闭流上下文。这用作//definelistenerclassMyListenerextendsStreamingListener{overridedefonReceiverStopped(...){streamingContext.stop()}}//attachlistenerstreamingContext.