草庐IT

word-cloud

全部标签

hadoop - 具有各种文档(pdf、ppt、MS word、纯文本等)的 hadoop 可搜索存档的最佳实践

我有一个问题,我有各种格式的文档,如PDF、MSWord、PPT、纯文本等,它们存储在HDFS中。我应该将内容提取到elasticsearch索引中,并为其构建一个全文搜索系统。我读过有关ES-Hadoop的内容。但是我有点困惑我是否可以在这种情况下使用ES或ApacheTika的mapper-attachments插件以及是否ES-Hadoop是否实时(以防我使用它)。我很好奇从文档中提取内容到ES索引并进行搜索的正确方法是什么。如有任何帮助,我们将不胜感激。萨钦 最佳答案 关于你的问题是使用ESmapperattachmentp

hadoop - 适用于 Hadoop 的 Google Cloud 连接器不适用于 Pig

我将Hadoop与HDFS2.7.1.2.4和Pig0.15.0.2.4(HortonworksHDP2.4)一起使用并尝试使用GoogleCloudStorageConnectorforSparkandHadoop(GitHub上的大数据互操作)。当我尝试时,它可以正常工作,比如说,hadoopfs-lsgs://bucket-name但是当我在Pig中尝试以下操作时(在mapreduce模式下):data=LOAD'gs://softline/o365.avro'USINGAvroStorage();data=STOREdataINTO'gs://softline/o366.avr

在 Eclipse 中运行 Spark Word Count 时出现 Java 错误

当我尝试使用Eclipse在SparkJava中运行一个简单的字数统计时,我在一个新的弹出式Java虚拟机启动器窗口中收到Java错误,其中显示-AJavaExceptionhasoccurred.java-versionJavaVirtualMachineLauncherjavaversion"1.7.0_80"Java(TM)SERuntimeEnvironment(build1.7.0_80-b15)JavaHotSpot(TM)64-BitServerVM(build24.80-b11,mixedmode)代码如下:packagecom.fd.spark;importjava.

hadoop - 如何在 Google Cloud Storage 中存储大量小的 HTML 文件以优化 Dataproc?

我有兴趣在HTML解析任务上试用GoogleCloudDataproc。我们目前在谷歌存储中有很多(200M+)小的HTML文件。我们希望能够将所有这些文件提取到Hadoop(MapReduce或Spark)中进行处理。但是,我的理解是Dataproc在列出和读取大量小文件时性能会很差,而且Hadoop通常也是如此。所以我的问题是,我应该如何将大量小文件打包成更大的文件,以便能够高效地列出和读取?我考虑过像TAR/ZIP这样的标准东西,但我的理解是这些东西是不可分割的,因此并发性是有限的。是否有其他推荐的格式用于此类内容?我考虑过使用avro,并且只是将HTML存储为avro记录中的字

java - 在 map reduce word count 程序中需要获取单词存在的文件

我正在读取多个输入文件以解决字数统计问题。示例文件名:文件1.txt文件2.txt文件3.txt我能够获得字数,但如果我还想获得文件名以及字数,应该添加什么。举个例子,文件1的内容:欢迎使用Hadoop文件2的内容:这是hadoop当前输出:Hadoop2是1这1到1欢迎1预期输出:Hadoop2File01.txtFile02.txt是1个File02.txt这1个File02.txt到1File01.txt欢迎1File01.txt 最佳答案 首先对输入进行拆分字符串文件=((FileSplit)inputSplit).getP

hadoop - 如何在现有集群上升级 hadoop - google cloud

问题是独立的。我部署了一些集群,现在我想升级我的hadoop版本。我试图检查bdutil或gsutil,我没有找到如何让它工作! 最佳答案 不幸的是,由于Hadoop1和Hadoop2之间的各种路径、库依赖项和守护进程有很大不同,因此目前没有简单的就地升级方法。特别是,即使协调库升级和守护程序更改,对集群进行的任何自定义也可能会中断,因此一般来说,简单地删除并重新创建集群会更容易、更安全。为了帮助防止过度卡在单个集群实例上并受益于能够从头开始重新部署可重现集群的敏捷性,最佳实践建议是将您可能拥有的任何自定义隔离到自定义“_env.s

hadoop - 使用 Cloud9 和 hadoop 提取维基百科文章文本

首先:我正在使用运行ElCapitan10.11.3的新MacBook,我刚刚下载了最新的Hadoop(2.6.0)。我正在尝试使用Cloud9从维基百科转储中的一堆页面中提取主要文章文本。基本上,他们会告诉您如何做,作为他们在本文档页面上的第二个“快速而肮脏”的示例:http://lintool.github.io/Cloud9/docs/content/wikipedia.html我下载了所有内容并在我的终端中输入了相同的命令:hadoopjartarget/cloud9-2.0.2-SNAPSHOT-fatjar.jaredu.umd.cloud9.collection.wiki

sql - Hive for bag of words(字典中每个单词的字数)

我有一个具有这种结构的表:user_id|message_id|content1|1|"Ilikecats"1|1|"Ilikedogs"以及dictionary.txt(或外部配置单元表)中的有效单词列表,例如:I,like,dogs,cats,lemurs我的目标是为每个用户生成一个字数统计表user_id|"I"|"like"|"dogs"|"cats"|"lemurs"1|2|2|1|1|0这是我到目前为止尝试过的:SELECTuser_id,word,COUNT(*)FROMmessagesLATERALVIEWexplode(split(content,''))lTable

python - hadoop中的语法错误: word unexpected (expecting "do") map. py

我已经为单词计数概念编写了一个程序map.py和reduce.py程序。我已经成功运行了单独执行的程序。但最后一步执行不成功。我得到了错误(意外的行为)。我该如何解决这个问题。我正在上传我的map.py、reduce.py程序和下面的错误声明。map.py:importsysforlineinsys.stdin:line=line.strip()words=line.split()forwordinwords:print'%s\t%s'%(word,"1")reduce.py:importsysc_count={}forlineinsys.stdin:line=line.strip()

hadoop - 在 Google Cloud Dataproc 上运行 xgboost

我是虚拟机分布式学习的新手。现在我有一个大数据集,想在GoogleCloudDataproc上运行xgboost。我查看了xgboostgit中关于在AWS上运行的教程,但我认为这与GoogleCloud不同。任何建议、相关链接、教程将不胜感激!此致! 最佳答案 我会说GoogleCloudMachineLearningEngine(CloudML)是最适合机器学习算法的产品,因为它是一种托管服务,您可以专注于模型开发,而不必担心基础架构。Here是关于在CloudML上使用XGBoost进行在线预测的教程。正如您提到的,您有一个大