Hdfs

hadoop - 是否可以将一个 oozie 操作的输出用于其他操作而无需从 hdfs 保存和加载？子工作流选项在这方面有用吗？

我必须编写一个运行多个pig操作的oozie工作流。这些pig操作可能相互依赖。我的意思是一个pig脚本的输出将对其他脚本有用。我想避免从hdfs进行多次保存和加载。这是如何实现的？我可以使用TEZDAG将DAG结构中的所有pig脚本组合起来，并从Oozie运行一个JavaAction吗？最佳答案在oozie中，你不能将一个节点的输出传递到另一个节点(不存储在HDFS中)。您可以实现PigServer(pigjavaAPI)来执行多个pig脚本。在一个使用pigserver的java程序中，它总是很容易满足您的要求。

这方这方面 section pig 合起 hadoop bigdata oozie apache-tez

hadoop - pig @hadoop : processing local files without hdfs with multiple cores

如果我在本地模式下运行pig@hadoop(因为我不想使用hdfs)，那么它会在单线程/单进程模式下处理我的脚本。如果我将hadoop设置为伪模式(hdfswithreplication=1)，那么pig@hadoop不喜欢我的file:///...:traj=LOAD'file:///root/traj'USINGorg.apache.pig.piggybank.storage.CSVExcelStorage(';','NO_MULTILINE','UNIX','SKIP_INPUT_HEADER')AS(a1:chararray,a2:long,a3:long,a4:float,a

hadoop processing section pig multiprocessing apache-pig

ubuntu - Hadoop Yarn 作业跟踪器未启动

前言:我有一个网络应用程序的问题，该应用程序是由一名已离职的员工开发的。由于几乎没有关于可用实现的文档，我不确定从哪里获得更多关于该问题的信息，因此提出了这个问题。我试图找到与此问题(Hadooppseudodistributedmode-Datanodeandtasktrackernotstarting)类似的问题的解决方案。但是，由于我对hadoop的经验很少，所以我无法确定我需要修复什么才能让应用程序正常工作。场景:应用程序分为两部分:有一个运行应用程序的Tomcat服务器处理用户输入并提供mapreduce的结果作业(localhost:8080/WebApp)。localho

跟踪器 ubuntu code hadoop MetricsSystemImpl hdfs hadoop-yarn

hadoop - es-hadoop(ElasticSearch-Hadoop)是如何做Hadoop的？

如果es-hadoop只是连接到HDFS的Hadoop连接器，它如何支持Hadoop分析？最佳答案我假设您指的是thisproject.在这种情况下，ESHadoop项目有两个方面。用于创建索引快照的HDFSES插件。但它也有各种实用程序，可以在Mapreduce、Hive、Pig、Spack等中使用，用于与Elasticsearch交互。例如，可以使用Mapreduce通过ESOutputFileFormat格式从HBase批量加载ES文档。也可以使用Mapreduce通过类似的机制从ES读取。

hadoop section elasticsearch hdfs

hadoop - 使用不在 hdfs 中的文件

我有服务器的root访问权限，安装了hadoop和hive。但是，尽管我有root权限，但我无法将数据从文件系统复制到hdfs:root@serv:~#hadoopfs-putflume_test/logs/userput:Permissiondenied:user=root,access=WRITE,inode="/user":hdfs:supergroup:drwxr-xr-x我尝试了不同的方法从文件flume_test/logs创建表，它不在hdfs中。例如:CREATETABLEnatlog_orc(src_local_ipSTRING,time_startSTRING,tim

hadoop hdfs section STRING hive bigdata

hadoop - 清除hdfs中的/tmp目录

这是否正确，hdfs中的/tmp目录每24小时自动清除一次(默认情况下)？最佳答案 HDFS/tmp目录主要用作mapreduce运行时的临时存储。Mapreduce工件、中间数据等将保存在此目录下。当mapreduce作业执行完成时，这些文件应该被自动清除。如果删除此临时文件，可能会影响当前正在运行的mapreduce作业。临时文件由pig创建。临时文件删除发生在最后。如果脚本执行已归档或终止，Pig不会处理临时文件删除。然后你必须处理这种情况。您最好在脚本本身中处理此临时文件清理事件。

hadoop hdfs section strong mapreduce

java - 为什么我在 hadoop 的 mapreduce 中得到 3xx 重复项？

我正在使用hadoop的mapreduce从hdfs中读取一个文件，将其放入一个简单的解析器，然后将该解析器的输出写回到hdfs。我还没有reducetask。我想知道为什么我的输出文件中有大约300个重复项。这是我的map方法。publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{FileSplitfsplit=(FileSplit)reporter.getInputSplit();Mainparser=newMain();StringdatFi

mapreduce hadoop conf section code java hdfs

hadoop - Pig - 获取 Top n 并在 'other' 中休息

我有分组和聚合的数据，看起来像这样-DateCountryBrowserCount-----------------------2015-07-11,US,Chrome,132015-07-11,US,OperaMini,12015-07-11,US,Firefox,22015-07-11,US,IE,12015-07-11,US,Safari,1...2015-07-11,UK,ChromeMobile,10262015-07-11,UK,IE,4552015-07-11,UK,MobileSafari,47822015-07-11,UK,MobileFirefox,40...201

中休 amp 2015 browser 11 hadoop apache-pig hdfs

hadoop - 考虑到 HDFS 中的复制，找出目录大小

有什么方法可以找出目录占用的原始HDFS空间。据我所知hdfsdfs-du-s/dir显示/dir大小，不考虑内部文件的复制。最佳答案运行命令hadoopfsck/dir并查找参数Averageblockreplication。将此数字乘以您从hdfsdfs-du-s/dir获得的结果。关于hadoop-考虑到HDFS中的复制，找出目录大小，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/que

找出 hadoop section code stackoverflow hdfs replication

从 hdfs 读取文件时出现 FileNotFound 异常

我正在尝试使用以下代码从HDFS读取文件:finalConfigurationconfiguration=newConfiguration();configuration.set("fs.defaultFS","hdfs://localhost:8020/user/training/");FileSystemfileSystem=FileSystem.get(configuration);StringfilePath="hdfs"+"://"+"localhost:8020"+"/user/training/test.txt";FilefileToProcess=newFile(fil

时出 FileNotFound section FileInputStream configuration file hadoop

6 7 8910 11 12