Streaming

python - hadoop streaming - 如何使用python内部连接两个差异文件

我想根据18到25岁的用户年龄组找出热门网站页面访问量。我有两个文件，一个包含用户名、年龄，另一个文件包含用户名、网站名称。示例:用户.txtJohn,22页面.txtJohn,google.com我在python中编写了以下内容，并且它在hadoop之外按我预期的方式工作。importosos.chdir("/home/pythonlab")#Topsitesvisitedbyusersaged18to25#readtheusersfilelines=open("users.txt")users=[line.split(",")forlineinlines]#username,age

ruby - 使用分布式缓存 - HIVE STREAMING

我想压缩Rubygem的文件，并将它们分发到我的EMR集群。我还想使用一个简单的Ruby脚本，在HiveStreaming作业中引用此gem中的文件。我使用以下方法将文件和存档添加到Hadoop分布式缓存:ADDFILE/home/user/mobile.rb;ADDARCHIVE/home/user/browser-master.zip;在mobile.rb中，我使用下面的代码来模拟使用gem:$.pushFile.expand_path("../browser-master/lib",__FILE__)require"browser"当我在本地机器上的同一目录中有解压缩的存档和mo

STREAMING ruby section code pre hadoop hive distributed-cache

python - Hadoop streaming with private python 解释器

我正在尝试将Hadoop流与私有(private)python解释器(Hortonworks数据平台2.2.0)结合使用。python解释器是私有(private)的，因为它是主目录中的虚拟环境解释器，只有特定的用户帐户才有权运行它。我在hashbang行中指定了python解释器。我的流式处理作业使用系统python或#!/usr/bin/envpython。但是，当我使用私有(private)python解释器时，它会产生一个权限被拒绝的错误:#!/home/dmazur/test/tempenv/bin/python这是显示错误消息的输出片段:15/11/0311:31:13IN

python streaming java ReflectionUtils hadoop hadoop-streaming hortonworks-data-platform

java - 尝试使用 Hive streaming api 建立连接时，hive 暂存目录的权限被拒绝

我正在使用HCatalogueStreamingapi编写示例程序我有一个正在运行的hadoop、Hiveserver和一个Hivemetastore服务器。我写了一个java程序连接到hivemetastore，源码如下publicclassHCatalogueStreamingclient{publicstaticvoidmain(String[]args){System.setProperty("hadoop.home.dir","E:\\midhun\\hadoop\\hive\\winutils");StringdbName="hive_streaming";Stringtb

存目 streaming HiveEndPoint hive SessionState java hadoop permissions hdfs

hadoop - 选择 : Hadoop custom jars, Hadoop Streaming、Pig 或 Mahout 中的哪一个？

我正在从事一个NLP项目，该项目可以创建实体集并计算大型语料库的成对相似性。目前我正在使用hadoopstreaming并在Python中实现了所有映射器和缩减器。由于算法需要多轮map-reduce，我使用Shell脚本来链接作业。现在这是我的顾虑和我接下来想做的事情:[问题1]。作业链和作业控制。链接hadoop流作业是有问题的。如果作业序列(job1-job2-job3)中的作业2失败，我必须手动删除输出文件夹，调整启Action业的脚本文件并从中间重新运行作业序列。我真的希望找到一种更聪明的方法来做到这一点。由于我需要经常调整算法的参数和逻辑，我不想一次又一次地重复这些步骤。[

Hadoop Streaming strong section 自定 mapreduce apache-pig mahout hadoop-streaming

python-2.7 - Hadoop Streaming 永无止境

我正在尝试学习如何使用hadoop流。我正在尝试运行一个非常简单的映射器，并且没有缩减器。当我运行该程序时，它完成了100%的maptask，然后在十分钟内什么都不做，然后报告它已完成所有maptask的0%。我认为这意味着节点管理器不得不终止工作，不确定。过去我已经等了半个小时，但一直没有结束。我正在使用hadoop1.2.1。它的文档说它带有hadoopstreamingjar，但我找不到它，所以我从中央maven存储库下载了hadoop-streaming-1.2.1。这是命令行:[msknapp@localhostdata]$hadoopjar/hadoop/hadoop-st

Streaming python hadoop StreamJob python-2.7 hadoop-streaming

java - Apache Spark Streaming 中的非关联聚合

我正在尝试通过apachesparkstreaming在Java中构建一个实用层，用户可以在一段时间内聚合数据(在spark中使用窗口函数)，但似乎所有可用的选项都需要关联函数(采用两个参数).然而，对于一些相当常见的用例，例如在一小时内平均温度传感器值等，sparkAPI似乎是不可能的。有没有其他方法可以实现这种功能？我正在考虑实现重复的交互式查询来实现这一点，但它会太慢。最佳答案统计聚合(平均值、方差)实际上是关联的，可以在线计算。参见here一个很好的数字方法来做到这一点。就参数数量而言，请记住您放入参数的类型是您的选择。

Streaming Apache section noreferrer spark java hadoop apache-spark spark-streaming

shell - 将目录传递给 hadoop streaming : some help needed

上下文是我正在尝试在AmazonEMR(WebUI)上使用我运行的bash脚本运行流式作业:-inputs3://emrdata/test_data/input-outputs3://emrdata/test_data/output-mappers3://emrdata/test_data/scripts/mapperScript.sh-reducerNONE输入目录中有子目录，这些子目录中有gzip数据文件。mapperScript.sh失败的相关部分是:forfilenamein"$input"/*;dodir_name=`dirname$filename`fname=`basen

streaming 传递子目子目录 section shell hadoop amazon emr

python - 使用 Python 在 Hadoop Streaming 中使用文件

我是Hadoop和MapReduce的新手，正在努力学习。我正在尝试在python中开发一个mapreduce应用程序，我在其中使用来自2个.CSV文件的数据。我只是在映射器中读取这两个文件，然后将文件中的键值对打印到sys.stdout当我在单机上使用程序时，程序运行良好，但使用HadoopStreaming时，出现错误。我想我在读取Hadoop映射器中的文件时犯了一些错误。请帮助我处理代码，并告诉我如何在HadoopStreaming中使用文件处理。mapper.py代码如下。(你可以从评论中理解代码):#!/usr/bin/envpythonimportsysfromnumpyi

Streaming python 射器 section Hadoop mapreduce hadoop-streaming

hadoop - 网络连接(TCP IP)关闭时如何停止Spark Streaming上下文？

换句话说，我不想将Spark流上下文中的“持续时间”设置为一个值，而是想将其设置为(套接字关闭时间-套接字打开时间) 最佳答案您可以使用StreamingListner监听接收器断开连接的接口(interface)，然后关闭流上下文。这用作//definelistenerclassMyListenerextendsStreamingListener{overridedefonReceiverStopped(...){streamingContext.stop()}}//attachlistenerstreamingContext.

Streaming hadoop section 流上套接字 apache-spark

49 50 515253 54 55