草庐IT

database-partitioning

全部标签

hadoop - 配置单元加载数据 :how to specify file column separator and dynamic partition columns?

好吧,我有一些关于将mysql数据加载到hive2的问题,并且不知道如何指定分隔符,我尝试了serval次但一无所获。下面是hive表,id是分区列,0:jdbc:hive2://localhost/>desctest;+-----------+------------+----------+|col_name|data_type|comment|+-----------+------------+----------+|a|string|||id|int||+-----------+------------+----------+当我执行loaddatalocalinpath'fil

database - 解析维基百科页面链接数据集

我下载了WikipediaPagelinks数据集(在WikiDumps上可用-http://dumps.wikimedia.org/enwiki/20140102/)。我想在数据集上运行PageRank算法,但是,我无法解析数据,因为它没有很好的记录。这是下载的数据集示例。给出的字段是p1_from、p1_namespace和p1_title。网上查了一下,p1_namespace是一个表示文章类型的数字,但是不知道p1_from是什么。要实现pagerank算法,我需要链接到特定文章的文章数量,但是,我不知道p1_from代表什么。顾名思义,这听起来像是离开该文章的链接数量,而不是

database - 如何在不查询的情况下估计 HIVE 中的表大小?

我想计算表的大小而不在HIVE中查询。我如何在HIVE中执行此操作?(如果没有在数据库中选择,我没有任何权限,所以我不能使用显示属性等)(例如)数据行数:100columnName(Type):userName(string),userNumber(int),userCode(bigint),userAge(int)用户名的最大长度:36我是这样计算表格大小的。我以为string是8bytes,int是4bytes,bigint是8bytes(我没有考虑记录标题大小和列标题大小)100*((8*36)+4+8+4)总大小:30,400字节你能给我一些建议吗?

database - 执行查询时,hive 是否运行 hadoop?

我正在尝试了解hive和hadoop是如何交互的。从我读过的教程看来,在运行HIVE查询之前,您运行一个map/reduce作业来获取输入数据。这对我来说似乎适得其反,如果我已经运行map/reduce作业并以易于解析的格式获取数据,为什么我不将数据放入传统数据库中。感谢您的帮助,弥敦道 最佳答案 Hive对存储在HDFS上的文件进行操作。除了最简单的查询之外,Hive会生成并运行mapreduce作业。对于非常简单的查询(SELECT*FROMMyTable),它只会将文件流出磁盘。输入数据不需要来自MapReduce-它可以是上

database - 大数据——存储与查询

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭3年前。Improvethisquestion我们有大约3亿条记录的庞大数据,每3-6个月更新一次。我们需要查询这些数据(连续、实时)以获取一些信息。有哪些选项-一个RDBMS(mysql)或Hadoop等其他选项。哪个更好?

database - 关于 hadoop、hbase 等非 sql 数据库的帮助

我是Hadoop、Cassandra等分布式NoSQL数据库的新手。我有几个问题需要寻求专家的建议:您能否列出从目前的传统数据库(如MySQL)转移到这些基于集群的大型数据库时通常会遇到的问题/挑战?当需要适应这些开源项目的更新版本时,有什么困难(如果有的话)?您能否列出通常存储/保留在memcached中以快速呈现页面的内容?我如何才能理解开源项目的源代码,以便我可以在此基础上进行构建并回馈社区?以上问题可能听起来很白痴和基础,但请专家们尽可能详细地回答以上问题。 最佳答案 我可以提供一些想法:1:文档和示例一直是我使用Hadoo

hadoop - Hive "add partition"并发

我们有一个用于处理原始日志文件数据的外部Hive表。这些文件按小时计算,并按日期和源主机名分区。目前,我们正在使用每小时触发几次的简单python脚本导入文件。该脚本根据需要在HDFS上创建子文件夹,从临时本地存储复制新文件并将任何新分区添加到Hive。今天,使用“ALTERTABLE...ADDPARTITION...”创建新分区。但是,如果另一个Hive查询正在该表上运行,它将被锁定,这意味着添加分区命令将失败(如果查询运行时间足够长),因为它需要独占锁。此方法的替代方法是使用“MSCKREPAIRTABLE”,出于某种原因,它不似乎在表上获取任何锁。但是,我的印象是不建议在生产环

mysql - database.yml 中的 pool 选项有什么用

database.yml中使用最广泛的选项如下:adapterencodingdatabasepoolusernamepasswordsockethostporttimeout我知道上面大部分的用法,但池。所以我想知道database.yml中的pool选项有什么用,或者我们需要为流量非常大的应用程序设置任何其他参数。 最佳答案 它设置每个ruby​​进程可能的连接数量。因此,如果您正在线程化您的Rails应用程序,或者您过度使用事务。此处的限制取决于您的设置。考虑一下:50个Ruby进程每个都有100个线程一个设置为1000个同时

mysql - database.yml 中的 pool 选项有什么用

database.yml中使用最广泛的选项如下:adapterencodingdatabasepoolusernamepasswordsockethostporttimeout我知道上面大部分的用法,但池。所以我想知道database.yml中的pool选项有什么用,或者我们需要为流量非常大的应用程序设置任何其他参数。 最佳答案 它设置每个ruby​​进程可能的连接数量。因此,如果您正在线程化您的Rails应用程序,或者您过度使用事务。此处的限制取决于您的设置。考虑一下:50个Ruby进程每个都有100个线程一个设置为1000个同时

database - 我每天生成 2 GB 的 Web 服务器日志,如何过滤它们?

我有一个Web服务器,其他站点使用一些GET参数重定向到该服务器。我的情况:目前我每天生成2GB的网络服务器日志。我需要过滤至少半年的日志(约350GB的日志)。我使用Amazon基础设施将日志存储在S3存储桶上。我有两个正在写入日志的网络服务器。我应该使用哪种技术来查询/过滤该数据?以前我在一台ubuntu机器上下载文件,然后grep得到结果。我还在AWS上测试了Hadoop,但我发现它很难使用。哪种技术/解决方案在以下方面最好:过滤速度简单易学易于更改过滤规则感谢您对此事的关注 最佳答案 在您的情况下,我会推荐Elasticse