Hadoop-Solr

mongodb - 如何使用 mongo-hadoop 从 Pig 上的 BSON 文件加载数组？

我正在尝试使用com.mongodb.hadoop.pig.BSONLoader(https://github.com/mongodb/mongo-hadoop/blob/master/pig/README.md)将数据从MongoDBBSON文件加载到Pig中，但我遇到了困难。MongoDB上的数据包括可变大小的数组，我不确定如何将其加载到pig中(作为元组？)。这是来自MongoDB的示例记录:{"_id":{"$oid":"52fbbca6e4b029a79cd17ff7"},"field":"value","variableSizeArray":["value1","value

hadoop - 执行 hadoop namenode -format

我正在尝试在hadoop上工作，因此我使用:-Java1.6Eclipse欧罗巴3.3.2安装Cygwinhadoop0.19.1当我使用命令时发生错误:-$hadoop-*/bin/hadoopnamenode-format/home/user/hadoop-0.19.1/bin/../conf/hadoop-env.sh:line2:$'\r':commandnotfound/home/user/hadoop-0.19.1/bin/../conf/hadoop-env.sh:line7:$'\r':commandnotfound/home/user/hadoop-0.19.1/bi

hadoop namenode hadoop-env command

hadoop - eclipse wordcount 程序中找不到类异常

我正在从eclipse运行一个字数统计程序，它说找不到类。我导出了与jar文件相同的程序并从命令行执行，它工作正常。错误堆栈跟踪14/02/1423:46:16WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.14/02/1423:46:16WARNmapred.JobClient:Nojobjarfileset.Userclassesmaynotbefound.SeeJobConf(Class)orJobConf#se

wordcount eclipse java hadoop mapred mapreduce elastic-map-reduce

hadoop - 在 HDFS 中移动文件的最佳实践或工具

我们正在map-reduce上进行POC以计算我们应用程序的模块使用情况。应用程序在位于单独盒子上的J2EE容器上运行，hadoop安装在单独的盒子上，我们需要将日志文件从应用程序容器盒子移动到hadoop盒子。下面提到的是一些需要帮助/建议的查询。有什么工具/框架可以将日志文件从多个位置移动到HDFS？什么是最佳实践？如何运行移动文件的作业？移动到HDFS应该是cron作业还是文件大小触发器？最佳答案您需要ApacheFlume。Flume是一种流行的标准工具，用于将日志文件移动到HadoopHDFS中。它可以作为cron作业

hadoop HDFS section

java - hadoop 作业因奇怪的异常而失败

错误信息:java.io.IOException:Typemismatchinvaluefrommap:expectedorg.apache.hadoop.io.Text,recievedorg.apache.hadoop.io.LongWritableatorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:918)atorg.apache.hadoop.mapred.MapTask$OldOutputCollector.collect(MapTask.java:512)atmain.java.co

hadoop java import apache

hadoop - 如何？使用 ambari 自动安装 hdp 以进行夜间构建 (CI)

我正在寻找如何安装hortonworks(hdp)集群的说明，使用ambari作为静默安装。我在ambari-server的手册中看到有这样做的选项，但它使用了默认值。amabri-serversetup-s(安装程序静默运行。接受所有默认提示值。)我该怎么做？我该如何更改默认值？我需要它的原因是为了我们的夜间构建。最佳答案这不是一个非常优雅的解决方案，但我使用expect通过生成ambari-server设置并自动将预配置值放入提示中来自动安装。关于hadoop-如何？使用amb

hadoop ambari section code puppet hortonworks-data-platform puppetlabs-apache

hadoop - Flume--找不到主类 : org. apache.flume.tools.GetJavaProperty

我正在使用clouderaCDH4.4。当我运行flumecmd时-"bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,console"我遇到了一个错误:[cloudera@localhostFlume]$bin/flume-ngagent-nagentA-fconf/MultipleFlumes.properties-Dflume.root.logger=INFO,consoleWarning:Noconfigurationdirectoryset!Use--confto

GetJavaProperty hadoop java URLClassLoader ClassLoader flume

hadoop - 从多个 Hive 表中获取记录而无需连接

我有2个表:表1描述:countint表2描述:count_valint我从上面的表中获取字段计数，count_val并插入到另一个审计表(table3)中。表3描述:countintcount_valint我正在尝试将这2个表的记录计数记录到每个作业运行的审计表中。感谢您的任何建议。谢谢! 最佳答案如果您只需要聚合(如求和)，解决方案是使用UNIONINSERTINTOTABLEauditSELECTSUM(count),SUM(count_val)FROM(SELECTt1.count,0ascount_valFROMtabl

hadoop Hive count count_val section

hadoop - 无法将 Hadoop 和 Java 包复制到 Google Cloud Storage

我正在尝试在GoogleComputeEngine上设置Hadoop集群，我一直在关注theseinstructions.在我运行之前，一切似乎都运行良好:./compute_cluster_for_hadoop.pysetup使用我创建的项目ID和存储桶名称。该脚本似乎无法访问某些内容并因403而崩溃；这是带有错误消息的输出的尾部:Uploading...kages/ca-certificates-java_20121112+nmu2_all.deb:14.57KB/14.57KBUploading...duce/tmp/deb_packages/libnspr4_4.9.2-1_a

包复 Storage compute_cluster_for_hadoop hadoop section google-cloud-storage google-compute-engine google-hadoop

hadoop - 在桌面上安装超过 5 个硬盘的 Hadoop

我一直在安装Hadoop。我遵循了Udemy类(class)中的一些说明，并在我的笔记本电脑上以伪分布式模式安装了Hadoop。这相当简单。之后，我开始考虑是否可以在桌面计算机上设置Hadoop。于是出去买了一个空机箱，放入一个64位8核AMD处理器，以及一个50GBSSD硬盘和4个便宜的500GB硬盘。我在SSD驱动器上安装了Ubuntu14.04，并将虚拟机放在其他驱动器上。我设想将我的SSD用作主设备，并将我的4个硬盘驱动器用作节点。同样，一切都生活在同一个案例中。不幸的是，我到处搜索，但找不到任何描述以这种方式设置Hadoop的教程、指南、书籍等。似乎大多数我发现的Hadoop

面上 hadoop strong section installation

101 102 103104105 106 107