action-items

hadoop - Oozie Java Action 在使用 HCat 摄取期间失败？

我有一个jar来执行数据摄取；使用hadoopjar时有效从命令行，但是当我尝试使用OozieJavaAction实现相同的操作时，出现以下错误。错误信息:WhilerunningJavaActionduringSqoopImport2017/02/2313:02:36.848[ERROR]main(ImportTool.java)-EncounteredIOExceptionrunningimportjob:java.io.IOException:HCatexitedwithstatus1atorg.apache.sqoop.mapreduce.hcat.SqoopHCatUtili

摄取 hadoop SqoopHCatUtilities section mapreduce hive hbase sqoop hcatalog

hadoop - UNION parent rdd and child rdd before action 时会发生什么？

假设我有一些rdd具有这样的血统:rdd0->rdd1->rdd2->rdd3->rdd4当我执行rdd1.union(rdd2).union(rdd3).union(rdd4).collect()时会发生什么？spark会不会在计算rdd4的时候重新计算rdd0到rdd3的转换？最佳答案 union是一个转换，所以当您执行valx=aunion(b)时，它会向标识符所引用的沿袭添加一个新元素x。此时没有真正计算出任何东西。可以将其视为添加了元素的蓝图。当对x调用操作时，此蓝图将从添加的第一个元素开始执行。现在，在您的情况下，当您

rdd hadoop code section apache-spark

hadoop - 从 SSH 中直接调用 Hadoop 启 Action 业

我已经能够很好地使用elastic-mapreduceruby库启动工作流程。现在我有一个实例在它的工作完成后仍然“活着”。我已经使用SSH登录并想开始另一项工作，但是我的各种尝试都失败了，因为hadoop找不到输入文件。我试过将输入文件存储在本地和S3上。如何直接从我的SSHsession中创建新的hadoop作业？我尝试的错误:(第一次尝试使用本地文件存储，这是我通过使用SFTP上传文件创建的)hadoopjarhadoop-0.20-streaming.jar\-input/home/hadoop/mystic/search_sets/test_sample.txt\-out

中直 hadoop mystic home amazon-web-services elastic-map-reduce

hadoop - 如何在 Mahout in Action 中构建和执行示例

我现在正在学习MahoutinAction，并写信询问如何构建和执行书中的示例。我可以找到有关Eclipse的说明，但我的环境不包括UI。所以我把第一个例子(RecommenderIntro)复制到RecommenderIntro.java中，通过javac编译。我得到一个错误，因为包没有被导入。所以我正在寻找:导入缺失包的方法。我猜，即使编译成功，也会生成.class文件，我该如何执行它？通过“javaRecommnderIntro”？我可以执行通过sudo-uhdfshadoopjar的mahout示例mahout-examples-0.7-cdh4.2.0-job.jarorg.

建和何在 RecommenderIntro hadoop section compilation hbase mahout

java - Hadoop 在从 Spring 批处理管理员启 Action 业时获取连接被拒绝的异常

我正在尝试从springAdmin触发hadoopmapreduce作业，但出现以下错误。SpringAdmin在wasce上运行。作业配置:fs.defaultFS=hdfs://localhost:8020mapred.job.tracker=localhost:8021请指教。当我通过打包一个jar并使用hadoop命令运行此作业时，它工作正常但在通过Admin运行时出错。sudo-uhdfshadoopjartest.jarorg.MainCausedby:java.net.ConnectException:CallFrom/tolocalhost:8021failedonco

Hadoop Action java apache spring mapreduce spring-data

html - 刮刀 : distinguishing meaningful text from meaningless items, hadoop

我正在尝试在ApacheNutch中构建爬虫和抓取工具，以查找包含讨论特定单词主题(例如“选举”、“选举”、“投票”等)部分的所有页面。一旦我进行了抓取，Nutch就会清除HTML中的停用词和标签，但不会删除菜单语音(在网站的每个页面中都有)。因此，当您查找所有关于选举的页面时，您可能会检索到整个网站，因为它的菜单中有“选举”一词，因此在每个页面中都有。我想知道是否存在分析网站的多个页面以了解页面的主要模板是什么的技术。有用的论文和/或实现/库。我正在考虑创建某种hadoop作业来分析多个页面之间的相似性以提取模板。但是同一个网站可能有多个模板，因此很难找到一种有效的方法来做到这一点。

刮刀 distinguishing section NUTCH noreferrer html hadoop mapreduce web-scraping

mysql - Hive 查询在启 Action 业并生成跟踪 URL 后不会开始 MapReduce 进程

我正在使用ApacheHive。我在Hive中创建了一个表(类似于外部表)并使用LOADDATALOCALINPATH'./Desktop/loc1/kv1.csv'OVERWRITEINTOTABLEadih;命令将数据加载到该表中。虽然我能够从配置单元表adih中检索简单数据(例如select*fromadih、selectc_codefromadihlimit1000等)，但Hive给了我当我请求涉及轻微计算的数据时出现错误(例如selectcount(*)fromadih、selectdistinct(c_code)fromadih)。Hivecli输出如下链接所示-hive>

MapReduce Action code strong section mysql hadoop hive hadoop-yarn

hadoop - hadoop 是否需要运行 mahout-in-action 示例？

运行MahoutInAction示例需要hadoop吗？我看到有一个hadoopjar提供了mahout。我一直在使用build-reuters.sh时遇到问题，想知道是否需要单独安装hadoop。谢谢!! 最佳答案 MahoutinAction一书的大部分内容都涉及将ApacheMahout与ApacheHadoop结合使用。所以是的，您最终将需要Hadoop。本书指导您下载并安装Hadoop。Hadoop本身不随Mahout提供，不。但是Mahout的构建系统引用了Hadoop，因此它会自动下载Hadoop之类的依赖项。这是另一

hadoop mahout-in-action section Mahout

hadoop - 错误 : org. 找不到 apache.oozie.action.hadoop.PigMain

我正在尝试通过oozie工作流执行一个简单的pig脚本，该工作流导入一个pythonjar以及其他一些jar并最终得到如下错误:FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.PigMain],exceptioninvokingmain(),java.lang.ClassNotFoundException:Classorg.apache.oozie.action.hadoop.PigMainnotfoundjava.lang.RuntimeException:java.lang.ClassNotFoundExc

hadoop PigMain apache java apache-pig oozie

SQL 查询 : How to select multiple instances of a single item without collapsing into a group?

我正在尝试在Impala中执行SQL查询。我有一个数据表，其中(除其他外)有两列，其值相交多次。例如，假设我们有一个表，其中包含两列相关的姓名和电话号码:姓名电话号码约翰·史密斯(123)456-7890罗伯·约翰逊(123)456-7890格雷格·jackson(123)456-7890汤姆格林(123)456-7890jack·马西斯(123)456-7890约翰·史密斯(234)567-8901罗伯·约翰逊(234)567-8901乔·沃尔夫(234)567-8901迈克·托马斯(234)567-8901吉姆·摩尔(234)567-8901约翰·史密斯(345)678-9012罗

collapsing instances 罗伯 phone_number number sql hadoop impala

167 168 169170171 172 173