草庐IT

do_install

全部标签

python - hadoop中的语法错误: word unexpected (expecting "do") map. py

我已经为单词计数概念编写了一个程序map.py和reduce.py程序。我已经成功运行了单独执行的程序。但最后一步执行不成功。我得到了错误(意外的行为)。我该如何解决这个问题。我正在上传我的map.py、reduce.py程序和下面的错误声明。map.py:importsysforlineinsys.stdin:line=line.strip()words=line.split()forwordinwords:print'%s\t%s'%(word,"1")reduce.py:importsysc_count={}forlineinsys.stdin:line=line.strip()

hadoop - 错误 2103 : doing work on Longs

我有数据storetrn_datedept_idsale_amt12014-12-151011000765512014-12-151011000765412014-12-151011000754462014-12-1510410008654482014-12-14101100000082014-12-15101100865761我正在尝试使用以下代码聚合数据-加载数据(尝试使用HCatLoader()和PigStorage()两种方式)data=LOAD'data'USINGorg.apache.hcatalog.pig.HCatLoader();group_table=GROUPda

hadoop - Hive 3.1.1安装问题: Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path

感谢有关tutorialspoint和stackoverflow的有用信息,我几乎完成了在OracleVirtualBox上的Ubuntu上安装Hive3.1.1和Hadoop3.0.3。我尝试从$HIVE_HOME运行“bin/hive”并收到以下错误:"Cannotfindhadoopinstallation:$HADOOP_HOMEor$HADOOP_PREFIXmustbesetorhadoopmustbeinthepath."我编辑了bashrc以包括:exportHADOOP_HOME=/usr/local/hadoop....exportPATH=$PATH:$HADOO

macos - brew install hbase 尝试安装 hadoop 虽然已经存在

Hadoop已经存在(并且在一年的大部分时间里都运行良好)07:48:30/~:177$whichhadoop/usr/local/Cellar/hadoop/1.2.1/libexec/bin/hadoop但是尝试安装hbase会导致hadoop依赖错误:07:48:28/~:176$brewinstallhbase==>Installinghbasedependency:hadoopWarning:Couldnotlinkhadoop.Unlinking...Error:Permissiondenied-/usr/local/bin/task-controller

hadoop - hive : Replace string/pattern in row if it exists else do nothing

我有一张表A,其中包含ID、姓名、年龄。>idnameage>{20}Joan12>3James12>12Jill12>{54}Adam12>{10}Bill12我需要移除{}周围的“id”字段。我试过这个:translate(regexp_extract(id,'([^{])([^}])',2),'{','')它有效,但对于没有{}的值返回null。id312有没有办法让我得到输出为???id203125410 最佳答案 您可以使用regexp_replaceudf来删除“{}”,例如:selectregexp_replace(i

hadoop - yarn : Do we need nodemanager on namenode?

我们是否需要在名称节点节点上启动节点管理器,即我不会将其设为数据节点?我将在一台机器上启动namenode和resourcemanager。由于我不会在这台机器上启动datanode,我想我也不需要启动nodemanager?感谢 最佳答案 这取决于你。您可以选择在未安装Datanode服务的节点上保留Nodemanager,在这种情况下,如果由该Nodemanager执行,数据将通过网络传输以执行任务。但是如果你想减少主节点的负载,那么你应该避免在它上面安装如此繁重的进程(Datanode和NodeManager)。在许多情况下,

java - Apache Hadoop : Can it do "time-varying" input?

即使经过一些谷歌搜索,我也没有找到答案。我的输入文件是由一个进程生成的,当文件达到1GB时,该进程将它们分块。现在,如果我要运行一个处理dfs中的输入目录的mapreduce作业,我如何确保该作业在hadoop作业运行时获取添加到同一输入目录的文件?我觉得这几乎是不可能的,因为当hadoop作业运行时,它会计算剩余时间和所有这些东西,所以当我的输入不断堆积或换句话说是“可变的”时,Hadoop不会知道如何管理它-这是我的猜测。我想知道您对此的看法以及对此的最佳替代方法!感谢您的帮助。 最佳答案 您描述的用例不是Hadoop设计用来处

Python 和 MapReduce : beyond basics -- how to do more tasks on one database

我有一个巨大的txt数据存储,我想在其中收集一些统计数据。使用Hadoop流和Python我知道如何实现MapReduce以在单个列上收集统计信息,例如计算100个类别中的每个类别有多少条记录。我创建了一个简单的mapper.py和reducer.py,并将它们分别作为-mapper和-reducer插入到hadoop-streaming命令中。现在,我对如何实际处理更复杂的任务有点不知所措:除了上述类别(例如地理位置、类型、日期等)之外,还收集各种其他列的各种统计数据。所有这些数据都在同一个txt文件中。我是否将mapper/reducer任务链接在一起?我是否传递最初很长的键值对(

installation - 设置 Hadoop 时遇到问题

我遇到的问题是,当我运行bin/hadoopfs-ls时,它会打印出我所在的本地目录的所有文件,而不是hdfs中的文件(目前应该没有)。以下是我如何设置所有内容:我已经下载并解压了所有0.20.2文件到/home/micah/hadoop-install/。我已经使用以下设置编辑了我的conf/hdfs-site.xml并创建了适当的目录:fs.default.namelocalhost:9000dfs.data.dir/home/micah/hdfs/datadfs.name.dir/home/micah/hdfs/name然后我运行bin/hadoopnamenode-format

java - Hadoop : JPS can not find Java installed

我的配置是hduser@worker1:/usr/local/hadoop/conf$jpsTheprogram'jps'canbefoundinthefollowingpackages:*openjdk-6-jdk*openjdk-7-jdkAskyouradministratortoinstalloneofthem虽然我安装了javahduser@worker1:/usr/local/hadoop/conf$java-versionjavaversion"1.6.0_23"OpenJDKRuntimeEnvironment(IcedTea61.11pre)(6b23~pre10-0