草庐IT

hadoop - 如何根据某些值中止 pig 脚本?

ApachePig中是否有任何东西可以根据值中止它的运行?例如y=foreachx生成column1为空?中止脚本:column1ascolumn1; 最佳答案 中止是不可能的可能的方法:生成数据并增加一些计数器。下一个操作将检查此计数器并将结果标记为_SUCCESS或删除目录。 关于hadoop-如何根据某些值中止pig脚本?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/29

hadoop - 长期运行的 yarn 应用程序的设计问题

我正在尝试编写一个yarn应用程序,并希望就我想到的几个设计问题获得一些建议。我已经了解了更简单的示例应用程序,如分布式shell及其一些变体,因此我熟悉基本的API。我想做的是创建一个具有Web界面的应用程序,用户可以与之交互并可能提供某种任务(任务的性质无关紧要)。基于这项工作,UI请求容器进行处理。我想到的理想安排是我的应用程序主管提供此WebUI,并且在有人来到AM网站并请求一些工作之前不会分配任何容器。此时,AM应该可以注册新容器并为其分配工作。如果AM提供WebUI,我的理解是每次向RM提交申请时,AM都由RM选择。这意味着AM可以有不同的IP,因此在应用程序重新启动时有不

python - Hadoop 集群 : Permission denied 中的 mrjob virtualenv 错误

我在一家拥有Hadoop集群的大型企业组织工作。我让管理员在所有Hadoop工作节pip上安装virtualenv,这样我就可以提交带有标准Python依赖项的mrjob,这些依赖项可能不存在工作节pip。根据文档here,这就是我的mrjob.conf文件的样子:runners:hadoop:setup:-virtualenvvenv-.venv/bin/activate-pipinstallnltk我有一个使用nltk包的简单工作。我可以验证此设置脚本是否在工作节pip上运行(我可以放置简单的命令,例如将一些数据写入/tmp中的文件并且它有效)。但是,我收到以下错误:Newpyth

hadoop - sqoop hadoop-mapreduce 不存在

我在sqoop上运行导入命令,但遇到以下问题。有人可以帮我解决这个问题吗。错误:/usr/local/sqoop-1.4.5.bin__hadoop-2.0.4-alpha/bin/../../hadoop-mapreduce不存在!请将$HADOOP_MAPRED_HOME设置为您的HadoopMapReduce安装的根目录。我的bashrc:exportJAVA_HOME=$(/usr/libexec/java_home)exportHADOOP_HOME=/usr/local/Cellar/hadoop/2.6.0/libexecexportHADOOP_YARN_HOME=$H

hadoop - 许多输入文件到 SINGLE 映射。哈多普。如何?

如何对多个输入文件只使用一张map?因为Hadoop为一个文件创建了一个映射器。对于所有文件,我只需要一个映射器。我尝试使用CombineFileInputFormat。它有一个映射器,但映射输入只包含一个文件。我需要该输入映射值来包含来自所有文件(文本格式)的数据,如下所示:输入map值:datafromfile1.txtdatafromfile2.txtdatafromfile3.txtpublicclassWholeFileInputFormatextendsCombineFileInputFormat{publicWholeFileInputFormat(){super();s

hadoop - 如何在 Oozie ssh 操作中传播委托(delegate) token

我有一个oozieshell操作,它执行一堆hadoopfs-getmerge命令,它目前失败是因为:[由GSSException引起:未提供有效凭据(机制级别:无法找到任何Kerberostgt)]在oozie文档中,它说明了如何为Java操作执行此操作:此处重要提示:为了使Java操作在安全集群上成功,它必须像以下代码片段一样传播Hadoop委托(delegate)token(这在非安全集群上是良性的)://将与委托(delegate)相关的Prop从启动器作业传播到MR作业如果(System.getenv("HADOOP_TOKEN_FILE_LOCATION")!=null){

java - Hadoop - UnsupportedOperationException : Not implemented by the DistributedFileSystem

当我导出到jar文件并在Hadoop节点上运行时,我在eclipse项目中有以下代码StringhdrsUrl="hdfs://servername:8020";Configurationconf=newConfiguration();conf.set("fs.defaultFS",hdrsUrl);FileSystemfs=FileSystem.get(conf);我收到以下错误15/04/1708:21:43WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin

hadoop - 如何将数据从大型机拉取到 Hadoop

我在大型机中有文件。我希望将这些数据推送到Hadoop(HDFS)/HIVE。我可以将Sqoop用于大型机DB2数据库并将其导入HIVE,但是文件(如COBOL、VASM等)呢是否有任何我可以编写的自定义水槽源代码或可在此处使用的替代工具? 最佳答案 COBOL是一种编程语言,而不是一种文件格式。如果您需要导出由COBOL程序生成的文件,则可以使用与这些文件由C、C++、Java、Perl、PL/I、Rexx等生成的文件相同的技术。通常,您将拥有三种不同的数据源:平面文件、VSAM文件和DBMS(例如DB2或IMS)。DMBS具有导

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException

hadoop - Apache Pig - 如何提取记录集

我是ApachePig的新用户,我有以下数据order=0012,1,23order=0013,2,34,0015,1,45order=0011,1,456...我试图提取到以下记录0012,1,230013,2,340015,1,450011,1,456...下面是我试过的代码a=LOAD'a.txt'UsingTextLoader()AS(line:chararray);b=FOREACHaGENERATEFLATTEN(REGEX_EXTRACT_ALL(line,'order=((\\d+),(\\d+),(\\d+))+'))AS(order_item:chararray,o