CLOUDERA_草庐IT

solr - Hadoop 创建一个索引并将其添加到分布式 SOLR 中……这可能吗？我应该使用 Nutch 吗？ ..Cloudera？

我可以使用MapReduce框架创建索引并以某种方式将其添加到分布式Solr中吗？我有大量信息(日志文件和文档)将通过互联网传输并存储在我的数据中心(或亚马逊)中。它需要通过我们复制的Solr安装进行解析、索引和最终搜索。这是我提出的架构:使用MapReduce框架(Cloudera、Hadoop、Nutch，甚至DryadLinq)为索引准备这些文档将这些文档索引为Lucene.NET/Lucene(java)兼容的文件格式将该文件部署到我所有的Solr实例激活那个复制的索引如果可以的话，我需要选择一个MapReduce框架。由于Cloudera是供应商支持的，并且有大量补丁未包含在

hellip 并将 strong Nutch Hadoop solr solrnet faceted-search

hadoop - 日志未出现在控制台中 :( [Hadoop Question]

我正在尝试调试ClouderaHadoop的WordCount示例，但我做不到。我已经记录了mapper和reducer类，但是在控制台中没有出现日志。我附上图片。在第一张图片中，Java日志。在第二个图像中，结果记录。它没有出现第一个:(http://i56.tinypic.com/2eztkli.png有人知道吗？非常感谢!! 最佳答案您正在执行“hadoopjar...”，因此您正在使用实际的Hadoop集群(可能是单节点)开始您的工作。这意味着所有日志记录都由集群完成，而不是在控制台上完成。您在控制台上看到的基本上只是一个

Question hadoop section strong mapreduce cloudera

hadoop - 如何通过 Cloudera Manager 启用 webhdfs？

Cloudera将webhdfs滚动到最新的cd3u4，但我无法找到可以启用此功能的位置。我意识到有一个条目dfs.webhdfs.enabled您可以在hdfs-site.xml中手动编辑。在cdh3发行版中，是否有一个安全的地方可以放置dfs.webhdfs.enabled配置？有人可以帮我指出正确的方向吗？最佳答案如果你想使用WebHDFS，你必须先启用它。如何？在conf/hdfs-site.xml中设置以下属性:dfs.webhdfs.enabledtrue注意:如果要在安全集群中使用WebHDFS，则必须设置其他属性

Cloudera Manager section WebHDFS hadoop hdfs

hadoop - Cloudera-Agent 给出错误 - 'Hostname is invalid; it contains an underscore character.'

我正在尝试使用Cloudera-Manager安装程序在4个虚拟机上设置一个HBase集群(按照安装指南中的建议)。Cloudera-Manager版本为4.6.1，CDH版本为4.3，操作系统为CentOS-6.4。但是在安装包裹并且云时代代理尝试启动之后，报告以下错误:'主机名无效；它包含一个下划线字符。来自/usr/lib64/cmf/agent/src/cmf/agent.py:315.我可以在agent.py的第315行看到一个下划线('_')检查主机名。交叉检查了我们之前的CDH3.4设置，没有这样的验证。开发人员/用户是否可以确认检查是否相关以及下划线('_')是否未在C

Cloudera-Agent underscore 下划 section 39 hadoop hbase cloudera

hadoop - 如何从本地磁盘而不是 HDFS 上的数据在 Hive 上创建外部表？

对于HDFS上的数据，我们可以做CREATEEXTERNALTABLE{idINT,nameSTRING,ageINT}LOCATION'hdfs_path';但是如何为上面的LOCATION指定本地路径呢？谢谢。最佳答案您可以先使用“hdfsdfs-put”将文件上传到HDFS，然后在其上创建Hive外部表。Hive无法在本地文件上创建外部表的原因是，当Hive处理数据时，实际处理发生在Hadoop集群上，您的本地文件可能根本无法访问。关于hadoop-如何从本地磁盘而不是HDF

hadoop HDFS section Hive stackoverflow cloudera cloudera-cdh impala

hadoop - 为文件的每一行执行一个子工作流

我正在使用OozieSqoopAction将数据导入Datalake。我需要为数据库源的每个表创建一个HDFS文件夹。我有300多张table。我可以将所有300个Sqoop操作都硬编码在一个工作流中，但这样工作流对于Oozie配置来说太大了。Errorsubmittingjob/user/me/workflow.xmlE0736:Workflowdefinitionlength[107,123]exceededmaximumallowedlength[100,000]拥有这样的大文件不是一个好主意，因为它会减慢系统速度(它保存在数据库中)并且难以维护。问题是，如何为每个表名调用子工作

个子 hadoop Oozie section lt foreach cloudera

hadoop - Cloudera Docker 镜像......一切都出错了

我正在运行16GB的Macbookpro和ElCapitan操作系统。我使用安装了clouderadocker镜像dockerpullcloudera/quickstart:latestdockerrun--privileged=true--hostname=quickstart.cloudera-t-i9f3ab06c7554/usr/bin/docker-quickstart图像启动正常，我可以看到大多数服务正在启动StartedHadoophistoryserver:[OK]startingnodemanager,loggingto/var/log/hadoop-yarn/yar

Cloudera hadoop hbase quickstart docker

hadoop - MapReduceIndexerTool - 在 Solr 中索引 HDFS 文件的最佳方式？

我有一个要求，我必须将HDFS文件(包括TXT、PDF、DOCX和其他丰富的文档)索引到Solr。目前，我正在使用LucidWorks连接器的DirectoryIngestMapper来实现相同的目的。https://github.com/lucidworks/hadoop-solr但我不能使用它，因为它有一定的局限性(主要是你不能指定要考虑的文件类型)。所以现在我正在研究使用MapReduceIndexerTool的可能性。但它没有很多初学者(我的意思是绝对基础!)级别的示例。有人可以发布一些示例链接以开始使用MapReduceIndexerTool吗？有没有其他更好或更简单的方法来

MapReduceIndexerTool hadoop code 34 morphlines solr hdfs cloudera lucidworks

eclipse - cloudera hadoop : caused by: java. lang.ClassNotFoundException : org. apache.htrace.core.Tracer$Builder

我只是按照教程运行了一个示例程序:http://web.stanford.edu/class/cs246/homeworks/tutorial.pdf出现以下错误:SLF4J:Failedtoloadclass"org.slf4j.impl.StaticLoggerBinder".SLF4J:Defaultingtono-operation(NOP)loggerimplementationSLF4J:Seehttp://www.slf4j.org/codes.html#StaticLoggerBinderforfurtherdetails.16/10/2421:48:18WARNuti

ClassNotFoundException cloudera java FileSystem apache eclipse hadoop

hadoop - 如何修复 "File could only be replicated to 0 nodes instead of minReplication (=1)."？

Iaskedasimilarquestionawhileago，并认为我解决了这个问题，但事实证明它消失了只是因为我正在处理一个较小的数据集。很多人问过这个问题，我已经遍历了所有我能找到的互联网帖子，但仍然没有取得任何进展。我想做的是:我在配置单元中有一个外部表browserdata，它引用了大约1GB的数据。我尝试将该数据粘贴到分区表partbrowserdata中，其定义如下:CREATEEXTERNALTABLEIFNOTEXISTSpartbrowserdata(BidIDstring,Timestamp_string,iPinYouIDstring,UserAgentstri

minReplication replicated apache hadoop code hive hdfs hadoop-yarn cloudera