database_configuration

configuration - 设置 hadoop 时 SSH 出现问题

我是hadoop的新手。我在计算机上安装了Ubuntu12.10，我想在单个节点上以伪分布式模式安装Hadoop。我搜索并获得了很多教程，但我遇到了SSH问题。我按照教程说的做了。我确定问题出在SSH上。我得到了openssh-server，并且这样做了:hadoop00@WebsoftStation:~$ssh-keygen-tdsa-P""-f~/.ssh/id_dsahadoop00@WebsoftStation:~/.ssh$cat~/.ssh/id_dsa.pub>>authorized_keys然后我可以像这样成功地通过ssh我的本地主机:hadoop00@WebsoftS

java - java.lang.NoSuchMethodError:org.apache.hadoop.conf.Configuration.addDeprecation(Ljava/lang/String; [Ljava/lang/String;)

我正在使用Java/Eclipse/Hadoop2.2.0(带有所有必要的jar)在Ubuntu上使用以下代码运行示例MapReduce任务(本地单节点)，但遇到了异常(下面的stacktrace)。我可以从ubuntu控制台在Hadoop中运行示例字数示例。码:importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntW

lang String Text apache hadoop java eclipse mapreduce

database - 关于 hadoop、hbase 等非 sql 数据库的帮助

我是Hadoop、Cassandra等分布式NoSQL数据库的新手。我有几个问题需要寻求专家的建议:您能否列出从目前的传统数据库(如MySQL)转移到这些基于集群的大型数据库时通常会遇到的问题/挑战？当需要适应这些开源项目的更新版本时，有什么困难(如果有的话)？您能否列出通常存储/保留在memcached中以快速呈现页面的内容？我如何才能理解开源项目的源代码，以便我可以在此基础上进行构建并回馈社区？以上问题可能听起来很白痴和基础，但请专家们尽可能详细地回答以上问题。最佳答案我可以提供一些想法:1:文档和示例一直是我使用Hadoo

database hadoop section 的 memcached nosql hbase

mysql - database.yml 中的 pool 选项有什么用

database.yml中使用最广泛的选项如下:adapterencodingdatabasepoolusernamepasswordsockethostporttimeout我知道上面大部分的用法，但池。所以我想知道database.yml中的pool选项有什么用，或者我们需要为流量非常大的应用程序设置任何其他参数。最佳答案它设置每个ruby进程可能的连接数量。因此，如果您正在线程化您的Rails应用程序，或者您过度使用事务。此处的限制取决于您的设置。考虑一下:50个Ruby进程每个都有100个线程一个设置为1000个同时

database mysql section code ruby-on-rails ruby-on-rails-3 connection-pooling

mysql - database.yml 中的 pool 选项有什么用

database mysql section code ruby-on-rails ruby-on-rails-3 connection-pooling

database - 我每天生成 2 GB 的 Web 服务器日志，如何过滤它们？

我有一个Web服务器，其他站点使用一些GET参数重定向到该服务器。我的情况:目前我每天生成2GB的网络服务器日志。我需要过滤至少半年的日志(约350GB的日志)。我使用Amazon基础设施将日志存储在S3存储桶上。我有两个正在写入日志的网络服务器。我应该使用哪种技术来查询/过滤该数据？以前我在一台ubuntu机器上下载文件，然后grep得到结果。我还在AWS上测试了Hadoop，但我发现它很难使用。哪种技术/解决方案在以下方面最好:过滤速度简单易学易于更改过滤规则感谢您对此事的关注最佳答案在您的情况下，我会推荐Elasticse

database Web section li logstash amazon-web-services hadoop data-warehouse bigdata

database - vertica 将 unix 纪元复制到 TIMESTAMPTZ

我想从HDFS将数据加载到Vertica，但数据中的time_stamp值是Unix纪元格式，我想将它作为Vertica中的TIMESTAMPTZ加载到Vertica。在这种情况下不知道如何即时使用cast函数。谁能帮我解决这个问题？我想在下面添加转换COPYsearch_mmx2SOURCEHdfs(url='http://hadoop-namenode:50070/webhdfs/v1/tmp/exported/2014/07/15/00/SEARCHES/part-m-0000*.bz2',username='xyz')filterBZip()DELIMITERE'\t';或者是

TIMESTAMPTZ database section pre hadoop hdfs vertica webhdfs

configuration - 通过 Hadoop 配置对象从 InputFormat 返回值

考虑一个正在运行的Hadoop作业，其中自定义InputFormat需要向驱动程序类(即具有启Action业)，从其覆盖的getSplits()方法中，使用新的mapreduceAPI(与mapred相反)。理想情况下，这些值应该在内存中返回(而不是将它们保存到HDFS或DistributedCache)。如果这些值只是数字，人们可能会想使用Hadoop计数器。然而，在许多测试中，计数器似乎在getSplits()阶段不可用，而且无论如何它们都限于数字。另一种方法是使用作业的Configuration对象，正如源代码所揭示的那样，对于getSplits()和驱动类。在这种情况下，如果I

configuration InputFormat code section getSplits hadoop split jobs

database - 从无限流中选择 10% 的随机数

一连串的数字传来。在任何时候我都可能需要10%的随机数。我显然不想存储整个流。更大的问题是我正在考虑上述算法。我有很多数据(基于时间戳)进入数据库。现在我还想构建一个示例表，其中包含主数据库表中10%的随机记录，这样如果想快速查询并且我可以接受很少的不准确，我可以快速查询。我分批收到消息(数字)说有时100有时20有时5等。我在想我会在流式传输时这样做，问题表明了这一点。有人可以为此建议一个好的算法。有没有更好的办法？最佳答案简单的解决方案是只保存每10个传入数据点，但这可能会导致有偏差的结果，具体取决于数据的随机性。如果您想在

中选 database section 条目传入 algorithm postgresql hadoop

java - MapReduce 新 API Job.getInstance(Configuration, String) 的 Jar 文件

已安装Hadoop2.2。尝试删除已弃用的APIJobjob=newJob(conf,"wordcount");来自Wordcount示例(Hadoop附带)here将已弃用的API替换为编辑:Jobjob=Job.getInstance(conf,"wordcount");编译错误为Job.getInstancecannotberesolvedtoatype.已经导入的Job类(旧API或MR1)似乎没有此方法。哪个jar包含带有Job.getInstance(Configuratio,String)方法的新Job类如何解决？迁移到MapReducev2的示例是否有任何其他更改？

Configuration getInstance hadoop section code java

175 176 177178179 180 181