HADOOP_OPTS

hadoop - 在 Ansible 中，如何访问 "number of disks"变量？

我正在研究通过Ansible模板调整MapRHadoop。根据系统上的CPU线程数调整某些内容非常容易。例如，将reduce任务设置为线程的1/4:mapred.tasktracker.reduce.tasks.maximum{{(ansible_processor_vcpus/4)|int}}一个资源建议map/reduce任务的数量应该与系统上的磁盘数量成比例。我没有看到任何可比较的变量。有一个ansible_devices数组，其中包含sda、sdb和&c。也许我可以算一下？或许应用过滤器，以便我只计算Hadoop可用的磁盘？最佳答案

hadoop - Hive - Hbase 集成事务更新与时间戳

我是hadoop和大数据的新手，这几天只是想弄清楚将我的数据存储移动到hbase的可能性，我遇到了一个问题，你们中的一些人可能会帮助我。所以它就像，我有一个hbase表"hbase_testTable"，其列族为:"ColFam1"。我已将"ColFam1"的版本设置为10，因为我必须维护此列系列的最多10次更新的历史记录。哪个工作正常。当我尝试通过具有显式时间戳值的hbaseshell添加新行时，它工作正常。基本上我想使用时间戳作为我的版本控制。所以我指定时间戳为put'hbase_testTable''1001','ColFam1:q1','1000$',3'3'是我的版本。一切正

hadoop Hbase strong section hiveql

mysql - 线程 "main"java.lang.IncompatibleClassChangeError : Found class org. apache.hadoop.mapreduce.JobContext 中的异常，但接口(interface)是预期的

我正在使用hadoop1.0.3和sqoop1.4.6。我正在尝试将一个表从MySQL导入到hdfs。我收到以下错误:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundclassorg.apache.hadoop.mapreduce.JobContext,butinterfacewasexpectedatorg.apache.sqoop.config.ConfigurationHelper.getJobNumMaps(ConfigurationHelper.java:65)atcom.cloudera.

IncompatibleClassChangeError JobContext apache java sqoop mysql ubuntu hadoop import

hadoop - es-hadoop(ElasticSearch-Hadoop)是如何做Hadoop的？

如果es-hadoop只是连接到HDFS的Hadoop连接器，它如何支持Hadoop分析？最佳答案我假设您指的是thisproject.在这种情况下，ESHadoop项目有两个方面。用于创建索引快照的HDFSES插件。但它也有各种实用程序，可以在Mapreduce、Hive、Pig、Spack等中使用，用于与Elasticsearch交互。例如，可以使用Mapreduce通过ESOutputFileFormat格式从HBase批量加载ES文档。也可以使用Mapreduce通过类似的机制从ES读取。

hadoop section elasticsearch hdfs

hadoop - 如何使用 Solr 索引目录中的所有 csv 文件？

给定一个包含数百个制表符分隔的csv文件的目录，每个文件的第一行都没有标题。这意味着我们将通过其他方式指定列名。这些文件可以位于本地磁盘或HDFS上。索引这些文件的最有效方法是什么？最佳答案如果你有很多文件，我认为有几种方法可以提高索引速度:首先，如果你的数据在本地磁盘上，你可以使用多线程建立索引，但需要注意，每个线程都有自己的索引输出目录。最后将它们合并成一个索引，以提高搜索速度。其次，如果你的数据在HDFS上，我觉得使用HadoopMapReduce来建立索引是非常强大的。另外，Pig或者Hive的一些UDF插件也可以很方便

hadoop Solr section stackoverflow 的 indexing cloudera solrcloud

java - 如何在 MapReduce hadoop 中使用 GeoLite 数据库？

我正在尝试编写一个MapReduce程序，我正在尝试使用GeoLite数据库来解析IP地址的位置。我不确定如何将数据库文件传递给映射器以及要使用哪些依赖项？最佳答案在MapReducehadoop中使用GeoLite数据库的一种方法是将数据库作为缓存文件传递，方法是使用:DistributedCache.addCacheFile(inputPath.toUri(),job.getConfiguration());您可以使用缓存文件将.mmdb文件传递给每个映射器。我用于使用GeoLite数据库的依赖项是:com.maxmin

何在 MapReduce section dependency 射器 java hadoop

hadoop - 如何从 hib 获取文件名

我正在使用hipimapreduce来处理图像。在mapreduce过程中，我无法在imageheader中找到原始文件名。在hipi的imageheader中，我可以添加任何元数据来识别图像吗？最佳答案可以通过FloatImage的.getMetaData(key)方法获取图片的文件名。作为mapreduce过程中的示例:publicvoidmap(HipiImageHeaderkey,FloatImagevalue,Contextcontext)throwsIOException,InterruptedException{.

hadoop hib section filename mapreduce hipi

hadoop - 使用不在 hdfs 中的文件

我有服务器的root访问权限，安装了hadoop和hive。但是，尽管我有root权限，但我无法将数据从文件系统复制到hdfs:root@serv:~#hadoopfs-putflume_test/logs/userput:Permissiondenied:user=root,access=WRITE,inode="/user":hdfs:supergroup:drwxr-xr-x我尝试了不同的方法从文件flume_test/logs创建表，它不在hdfs中。例如:CREATETABLEnatlog_orc(src_local_ipSTRING,time_startSTRING,tim

hadoop hdfs section STRING hive bigdata

hadoop - 清除hdfs中的/tmp目录

这是否正确，hdfs中的/tmp目录每24小时自动清除一次(默认情况下)？最佳答案 HDFS/tmp目录主要用作mapreduce运行时的临时存储。Mapreduce工件、中间数据等将保存在此目录下。当mapreduce作业执行完成时，这些文件应该被自动清除。如果删除此临时文件，可能会影响当前正在运行的mapreduce作业。临时文件由pig创建。临时文件删除发生在最后。如果脚本执行已归档或终止，Pig不会处理临时文件删除。然后你必须处理这种情况。您最好在脚本本身中处理此临时文件清理事件。

hadoop hdfs section strong mapreduce

hadoop - 为什么从 Teradata 迁移到 Hadoop

帮助我了解hadoop相对于teradata有哪些优势。我们为什么要从teradat迁移到hadoop。在我的应用程序中，我有一些报告从teradata检索数据，由于有数百万行数据，报告速度非常慢。迁移到hadoop会解决这个问题吗？最佳答案 hadoopvsteradatawhatisthedifference可能重复.Hadoop系统的主要优势是商品硬件的可扩展性。正如@dnoeth在评论中指出的那样。Teradata还可以类似于Hadoop进行横向扩展。但它只能使用昂贵的服务器进行横向扩展。然而，Hadoop系统可以使用任何

Teradata hadoop section hive

34 35 363738 39 40