hdfs

python - Hadoop Streaming Python 简单示例不起作用

我有一个这样的输入文件，它已经上传到HDFS/tmp/input(用^A分隔，这是一个非打印字符，这是VI中的View)A^A10A^A7A^A10A^A5A^A10A^A8B^A1A^A9B^A1A^A9B^A1A^A9B^A1A^A9B^A1A^A9B^A1A^A9我写的映射器看起来像这样:importsysforlineinsys.stdin:name,score=line.strip().split(chr(1))print'\t'.join([name,str(int(score)+1)])reducer看起来像这样(similarto):importsysfromdatet

hadoop - 使用 Hadoop 存储股市报价数据

我在学习Hadoop及其相关的各种项目时很开心，目前我正在考虑构建一个系统来存储大量市场报价数据的2种不同策略，我才刚刚开始使用Hadoop/HDSF和HBase，但希望有人可以帮助我种下系统种子，以后使用这些技术时我就不必将其丢弃。下面是我的系统和要求的概述，以及一些查询和数据使用用例，最后是我目前从我阅读的少量文档中考虑的最佳方法。这是一个开放式问题，我很乐意喜欢任何有见地的答案并接受最好的答案，请随时对以下任何或所有要点发表评论。-邓肯克雷布斯系统要求-能够利用数据存储对系统进行历史回溯测试、历史数据制图和future数据挖掘。一旦存储，数据将始终是只读的，快速数据访问是需要的，

hadoop strong code section hdfs hstore hdfstore hft

hadoop - UnregisteredNodeException导致slave上的dataNode启动失败

我有一个由两台机器组成的Hadoop2.5集群，在从属机器上，数据节点因UnregisteredNodeException而失败。这是主配置:master$jps5036Jps7145DataNode918ResourceManager7338SecondaryNameNode6986NameNode1105NodeManager对于奴隶slave$jps15950Jps26650NodeManager这是来自hadoop-hadoop-datanode-slave.log的完整堆栈跟踪:2014-10-2319:43:46,895WARNorg.apache.hadoop.hdfs.

UnregisteredNodeException dataNode hadoop apache java cluster-computing hdfs hadoop-yarn hadoop2

hadoop - 将 pig 结果存储在文本文件中

嗨，stackoverflow社区；我对pig完全陌生，我想将结果存储在一个文本文件中并根据需要命名。是否可以使用STORE函数执行此操作。我的代码:a=LOAD'example.csv'USINGPigStorage(';');b=FOREACHaGENERATE$0,$1,$2,$3,$6,$7,$8,$9,$11,$12,$13,$14,$20,$24,$25;STOREbINTO‘myoutput’;谢谢。最佳答案是的，您将能够将结果存储在myoutput.txt中，并且您可以使用PigStorage将数据加载到包含任何

本文 hadoop section PigStorage stackoverflow apache-pig hdfs bigdata

java - 使用带迭代器的 mapPartition 保存 spark RDD

我有一些中间数据需要存储在HDFS和本地。我正在使用Spark1.6。在作为中间形式的HDFS中，我在/output/testDummy/part-00000和/output/testDummy/part-00001中获取数据。我想使用Java/Scala将这些分区保存在本地，这样我就可以将它们保存为/users/home/indexes/index.nt(通过在本地合并)或/users/home/indexes/index-0000.nt和/home/indexes/index-0001.nt分开。这是我的代码:注意:testDummy与test相同，输出有两个分区。我想将它们单独存

mapPartition spark code println 34 java scala hadoop apache-spark hdfs

ruby - 如何使用 Ruby 在 Hadoop HDFS 中写入和读取文件？

有没有一种方法可以使用Ruby来处理HDFSApi？据我所知，没有多语言文件Api，唯一的方法是使用nativeJavaApi。我尝试使用JRuby，但此解决方案不稳定且不是很原生。我还查看了HDFSThriftApi，但它并不完整，也缺少许多功能(比如写入索引文件)。除了使用JRuby或ThriftApi之外，还有其他方法可以使用Ruby处理HDFS吗？最佳答案 github中有两个项目符合您的要求。ruby-hdfs为Ruby提供到HDFS的nativeC绑定(bind)。ganapati与Thrift服务器接口(interf

Hadoop ruby section noreferrer hdfs api

hadoop - 从 hadoop 外部访问 hdfs

我想使用存储在HDFS中的输入文件在hadoop之外(但在同一集群上)运行一些可执行文件。这些文件需要复制到节点本地吗？或者有没有办法在hadoop之外访问HDFS？有关如何执行此操作的任何其他建议都很好。不幸的是，我的可执行文件不能在hadoop中运行。谢谢! 最佳答案有几种典型的方法:您可以通过HDFSJavaAPI访问HDFS文件如果您正在用Java编写程序。您可能正在寻找open.这将为您提供一个类似于通用打开文件的流。如果您的程序通过标准输入获取输入，您可以使用hadoopcat流式传输数据:hadoopfs-cat/p

hadoop hdfs section apache mapreduce

hadoop - 为什么map任务总是在单个节点上运行

我有一个具有4个节点的全分布式Hadoop集群。当我将我的工作提交给Jobtracker时，它决定12个maptask对我的工作来说很酷，一些奇怪的事情发生了。12个maptask总是在单个节点上运行，而不是在单个节点上运行在整个集群上运行。在我问这个问题之前，我已经做了以下事情:尝试不同的工作运行start-balance.sh重新平衡集群但是它不起作用，所以我希望有人能告诉我为什么以及如何修复它。最佳答案如果输入数据文件的所有block都在该节点中，则调度程序优先考虑同一节点关

hadoop map section stackoverflow questions mapreduce hdfs

Hadoop HDFS - 无法为文件提供 +x 权限

因此，我使用Cloudera的安装和管理工具启动并运行了一个3节点服务器集群。我正在运行HDFS，可以查看/创建目录等。我继续安装了Fuse插件，它允许我将HDFS安装为文件系统。一切正常。我可以将文件写入文件夹等。问题:当我在安装的驱动器中运行'chmod777./file.sh'时，它没有给出任何错误，但是当我执行'ls-l'时它只有:'-rw-rw-rw-1rootnobody26Oct508:57run.sh'当我运行'sudo-uhdfshadoopfs-chmod777/run.sh'时，它仍然具有相同的权限。无论我以任何方式做什么，我都无法获得对任何文件的执行权限。我在C

Hadoop HDFS section code 中运 fuse cloudera

Hadoop hive : How to allow regular user continuously write data and create tables in warehouse directory?

我在单个节点上运行Hadoop2.2.0.2.0.6.0-101。我正在尝试运行JavaMRD程序，该程序在普通用户下从Eclipse将数据写入现有的Hive表。我得到异常:org.apache.hadoop.security.AccessControlException:Permissiondenied:user=dev,access=WRITE,inode="/apps/hive/warehouse/testids":hdfs:hdfs:drwxr-xr-x发生这种情况是因为普通用户对仓库目录没有写权限，只有hdfs用户有:drwxr-xr-x-hdfshdfs02014-03-0

continuously directory warehouse hdfs code hadoop permissions hive data-warehouse

83 84 858687 88 89