草庐IT

all-database

全部标签

database - 关于 hadoop、hbase 等非 sql 数据库的帮助

我是Hadoop、Cassandra等分布式NoSQL数据库的新手。我有几个问题需要寻求专家的建议:您能否列出从目前的传统数据库(如MySQL)转移到这些基于集群的大型数据库时通常会遇到的问题/挑战?当需要适应这些开源项目的更新版本时,有什么困难(如果有的话)?您能否列出通常存储/保留在memcached中以快速呈现页面的内容?我如何才能理解开源项目的源代码,以便我可以在此基础上进行构建并回馈社区?以上问题可能听起来很白痴和基础,但请专家们尽可能详细地回答以上问题。 最佳答案 我可以提供一些想法:1:文档和示例一直是我使用Hadoo

sql - 具有 Union All 的 Nullpointer Exception Hive

我有一个查询,它使用unionall合并来自两个表的数据。unionall之前的第一个查询返回记录,但第二个查询不返回任何记录(仅此运行为零记录。我们可能有下一次加载的记录)。问题是当我没有来自第二个查询的任何记录时,配置单元会抛出空指针异常。selectcol1,col2,col3fromAunionallselectcol1,col2,col3fromB我在A表中有记录。但是,B表中的记录数可能会因每次加载而异。当B表中有记录时,查询工作完美。我知道这是0.12版之前hive中的一个错误。但我使用的是0.14版。任何想法可能是根本原因。注意:我的B表是分区的。当我删除分区时,我没有

Scala 和 Hive : best way to write a generic method that works with all types of Writable

我正在玩在Scala中为Hive编写通用UDF。我的第一个测试是编写一个函数来对数组(复杂数据类型)求和。我的代码stub如下所示(因为这是stub,请忽略asInstanceOf的用法:D):...classSumElementsextendsGenericUDF{protectedvalexpectedCategories:Array[Category]=Array(ObjectInspector.Category.LIST)protectedvarlistInspector:ListObjectInspector=_@throws(classOf[UDFNullArgumentE

hadoop - Apache Hadoop 单节点设置中的 start-all.sh 失败

我在Ubuntu12.04上安装了ApacheHadoop1.0.4。我按照http://hadoop.apache.org/docs/stable/single_node_setup.html上的说明进行操作,并到达“执行”部分。我在$bin/start-all.sh上失败了,错误信息如下。我的用户名是anson。$start-all.shmkdir:cannotcreatedirectory`/var/log/hadoop/anson':Permissiondeniedchown:cannotaccess`/var/log/hadoop/anson':Nosuchfileordir

hadoop - 运行命令 stop-all.sh 时没有 JobTracker 和 NameNode 停止

在我的案例中,jobtracker和namenode已启动,但无法通过运行stop-all.sh命令停止它当我键入jps时得到以下消息:[root@iqhadoop]#jps25258JobTracker8082SecondaryNameNode7944DataNode8404Jps8321TaskTracker24237NameNode但是当我尝试通过在命令行上运行stop-all.sh来停止它时,收到以下消息:[root@iqbin]#bashstop-all.shnojobtrackertostoplocalhost:stoppingtasktrackernonamenodeto

mysql - database.yml 中的 pool 选项有什么用

database.yml中使用最广泛的选项如下:adapterencodingdatabasepoolusernamepasswordsockethostporttimeout我知道上面大部分的用法,但池。所以我想知道database.yml中的pool选项有什么用,或者我们需要为流量非常大的应用程序设置任何其他参数。 最佳答案 它设置每个ruby​​进程可能的连接数量。因此,如果您正在线程化您的Rails应用程序,或者您过度使用事务。此处的限制取决于您的设置。考虑一下:50个Ruby进程每个都有100个线程一个设置为1000个同时

mysql - database.yml 中的 pool 选项有什么用

database.yml中使用最广泛的选项如下:adapterencodingdatabasepoolusernamepasswordsockethostporttimeout我知道上面大部分的用法,但池。所以我想知道database.yml中的pool选项有什么用,或者我们需要为流量非常大的应用程序设置任何其他参数。 最佳答案 它设置每个ruby​​进程可能的连接数量。因此,如果您正在线程化您的Rails应用程序,或者您过度使用事务。此处的限制取决于您的设置。考虑一下:50个Ruby进程每个都有100个线程一个设置为1000个同时

database - 我每天生成 2 GB 的 Web 服务器日志,如何过滤它们?

我有一个Web服务器,其他站点使用一些GET参数重定向到该服务器。我的情况:目前我每天生成2GB的网络服务器日志。我需要过滤至少半年的日志(约350GB的日志)。我使用Amazon基础设施将日志存储在S3存储桶上。我有两个正在写入日志的网络服务器。我应该使用哪种技术来查询/过滤该数据?以前我在一台ubuntu机器上下载文件,然后grep得到结果。我还在AWS上测试了Hadoop,但我发现它很难使用。哪种技术/解决方案在以下方面最好:过滤速度简单易学易于更改过滤规则感谢您对此事的关注 最佳答案 在您的情况下,我会推荐Elasticse

hadoop - Pig : How to send all Tuples to a UDF to be Processed without Grouping them? 或者如何在不分组的情况下将元组转换为包?

这就是我想要做的:A=LOAD'...'USINGPigStorage(',')AS(col1:int,col2:chararray);B=ORDERAbycol2;C=CUSTOM_UDF(A);CUSTOM_UDF遍历需要按顺序排列的元组。UDF会为每几个输入元组输出一个聚合元组;即,我不会以1:1的方式返回元组。本质上:publicclassCustomUdfextendsEvalFunc{publicTupleexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;DataBagvalues=(DataB

database - vertica 将 unix 纪元复制到 TIMESTAMPTZ

我想从HDFS将数据加载到Vertica,但数据中的time_stamp值是Unix纪元格式,我想将它作为Vertica中的TIMESTAMPTZ加载到Vertica。在这种情况下不知道如何即时使用cast函数。谁能帮我解决这个问题?我想在下面添加转换COPYsearch_mmx2SOURCEHdfs(url='http://hadoop-namenode:50070/webhdfs/v1/tmp/exported/2014/07/15/00/SEARCHES/part-m-0000*.bz2',username='xyz')filterBZip()DELIMITERE'\t';或者是