all-database_草庐IT

database - 关于 hadoop、hbase 等非 sql 数据库的帮助

我是Hadoop、Cassandra等分布式NoSQL数据库的新手。我有几个问题需要寻求专家的建议:您能否列出从目前的传统数据库(如MySQL)转移到这些基于集群的大型数据库时通常会遇到的问题/挑战？当需要适应这些开源项目的更新版本时，有什么困难(如果有的话)？您能否列出通常存储/保留在memcached中以快速呈现页面的内容？我如何才能理解开源项目的源代码，以便我可以在此基础上进行构建并回馈社区？以上问题可能听起来很白痴和基础，但请专家们尽可能详细地回答以上问题。最佳答案我可以提供一些想法:1:文档和示例一直是我使用Hadoo

database hadoop section 的 memcached nosql hbase

sql - 具有 Union All 的 Nullpointer Exception Hive

我有一个查询，它使用unionall合并来自两个表的数据。unionall之前的第一个查询返回记录，但第二个查询不返回任何记录(仅此运行为零记录。我们可能有下一次加载的记录)。问题是当我没有来自第二个查询的任何记录时，配置单元会抛出空指针异常。selectcol1,col2,col3fromAunionallselectcol1,col2,col3fromB我在A表中有记录。但是，B表中的记录数可能会因每次加载而异。当B表中有记录时，查询工作完美。我知道这是0.12版之前hive中的一个错误。但我使用的是0.14版。任何想法可能是根本原因。注意:我的B表是分区的。当我删除分区时，我没有

Nullpointer Exception section col select sql hadoop hive

Scala 和 Hive : best way to write a generic method that works with all types of Writable

我正在玩在Scala中为Hive编写通用UDF。我的第一个测试是编写一个函数来对数组(复杂数据类型)求和。我的代码stub如下所示(因为这是stub，请忽略asInstanceOf的用法:D):...classSumElementsextendsGenericUDF{protectedvalexpectedCategories:Array[Category]=Array(ObjectInspector.Category.LIST)protectedvarlistInspector:ListObjectInspector=_@throws(classOf[UDFNullArgumentE

Writable generic code listInspector section scala hadoop generics hive

hadoop - Apache Hadoop 单节点设置中的 start-all.sh 失败

我在Ubuntu12.04上安装了ApacheHadoop1.0.4。我按照http://hadoop.apache.org/docs/stable/single_node_setup.html上的说明进行操作，并到达“执行”部分。我在$bin/start-all.sh上失败了，错误信息如下。我的用户名是anson。$start-all.shmkdir:cannotcreatedirectory`/var/log/hadoop/anson':Permissiondeniedchown:cannotaccess`/var/log/hadoop/anson':Nosuchfileordir

start-all hadoop anson directory

hadoop - 运行命令 stop-all.sh 时没有 JobTracker 和 NameNode 停止

在我的案例中，jobtracker和namenode已启动，但无法通过运行stop-all.sh命令停止它当我键入jps时得到以下消息:[root@iqhadoop]#jps25258JobTracker8082SecondaryNameNode7944DataNode8404Jps8321TaskTracker24237NameNode但是当我尝试通过在命令行上运行stop-all.sh来停止它时，收到以下消息:[root@iqbin]#bashstop-all.shnojobtrackertostoplocalhost:stoppingtasktrackernonamenodeto

JobTracker NameNode section hadoop stop

mysql - database.yml 中的 pool 选项有什么用

database.yml中使用最广泛的选项如下:adapterencodingdatabasepoolusernamepasswordsockethostporttimeout我知道上面大部分的用法，但池。所以我想知道database.yml中的pool选项有什么用，或者我们需要为流量非常大的应用程序设置任何其他参数。最佳答案它设置每个ruby进程可能的连接数量。因此，如果您正在线程化您的Rails应用程序，或者您过度使用事务。此处的限制取决于您的设置。考虑一下:50个Ruby进程每个都有100个线程一个设置为1000个同时

database mysql section code ruby-on-rails ruby-on-rails-3 connection-pooling

mysql - database.yml 中的 pool 选项有什么用

database.yml中使用最广泛的选项如下:adapterencodingdatabasepoolusernamepasswordsockethostporttimeout我知道上面大部分的用法，但池。所以我想知道database.yml中的pool选项有什么用，或者我们需要为流量非常大的应用程序设置任何其他参数。最佳答案它设置每个ruby进程可能的连接数量。因此，如果您正在线程化您的Rails应用程序，或者您过度使用事务。此处的限制取决于您的设置。考虑一下:50个Ruby进程每个都有100个线程一个设置为1000个同时

database mysql section code ruby-on-rails ruby-on-rails-3 connection-pooling

database - 我每天生成 2 GB 的 Web 服务器日志，如何过滤它们？

我有一个Web服务器，其他站点使用一些GET参数重定向到该服务器。我的情况:目前我每天生成2GB的网络服务器日志。我需要过滤至少半年的日志(约350GB的日志)。我使用Amazon基础设施将日志存储在S3存储桶上。我有两个正在写入日志的网络服务器。我应该使用哪种技术来查询/过滤该数据？以前我在一台ubuntu机器上下载文件，然后grep得到结果。我还在AWS上测试了Hadoop，但我发现它很难使用。哪种技术/解决方案在以下方面最好:过滤速度简单易学易于更改过滤规则感谢您对此事的关注最佳答案在您的情况下，我会推荐Elasticse

database Web section li logstash amazon-web-services hadoop data-warehouse bigdata

hadoop - Pig : How to send all Tuples to a UDF to be Processed without Grouping them? 或者如何在不分组的情况下将元组转换为包？

这就是我想要做的:A=LOAD'...'USINGPigStorage(',')AS(col1:int,col2:chararray);B=ORDERAbycol2;C=CUSTOM_UDF(A);CUSTOM_UDF遍历需要按顺序排列的元组。UDF会为每几个输入元组输出一个聚合元组；即，我不会以1:1的方式返回元组。本质上:publicclassCustomUdfextendsEvalFunc{publicTupleexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;DataBagvalues=(DataB

何在 Processed input tuple hadoop mapreduce apache-pig cloudera

database - vertica 将 unix 纪元复制到 TIMESTAMPTZ

我想从HDFS将数据加载到Vertica，但数据中的time_stamp值是Unix纪元格式，我想将它作为Vertica中的TIMESTAMPTZ加载到Vertica。在这种情况下不知道如何即时使用cast函数。谁能帮我解决这个问题？我想在下面添加转换COPYsearch_mmx2SOURCEHdfs(url='http://hadoop-namenode:50070/webhdfs/v1/tmp/exported/2014/07/15/00/SEARCHES/part-m-0000*.bz2',username='xyz')filterBZip()DELIMITERE'\t';或者是

TIMESTAMPTZ database section pre hadoop hdfs vertica webhdfs