database-replication

hadoop - "dfs.replication"和 "dfs.datanode.data.dir"配置如何在集群中工作？

我已按照Apache“单节点设置”说明在单节点上设置dfs.replication。但是后来我按照“ClusterSetup”进行操作，但它没有提到这个属性，所以我不知道这是要在Namenode上设置的属性，还是也/仅在Datanodes上设置的属性..我还读到在数据节点上的dfs.datanode.data.dir中设置多个(逗号分隔)路径将复制所有路径上的数据。所以我的问题是:dfs.replication将对哪个节点产生影响，如果dfs.datanode.data.dir的多个路径是设置，这些额外的独立复制是否仅针对每个数据节点，或者这些是否也以某种方式与dfs.replicat

中工 amp strong code replication hadoop hdfs

hadoop - "Got error creating database manager"- sqoop 导入查询出错

场景:我正在尝试从sqlserver导入到HDFS，但出现以下错误:错误:hadoop@ubuntu:~/sqoop-1.1.0/bin$./sqoopimport--connect'jdbc:sqlserver://192.168.230.1;username=xxx;password=xxxxx;database=HadoopTest'--tablePersonInfo--target-dir/home/hadoop/hadoop-0.21.0/11/12/1012:13:20ERRORtool.BaseSqoopTool:Goterrorcreatingdatabasemanag

amp creating sqoop cloudera hadoop

database - 如何处理非常大的数据？

我即将开始一个新项目，它基本上是一个报告工具，应该有一个相当大的数据库。表的数量不会很大(估计该表中的数据量将以每分钟240,000条记录的速度增长，我们应该至少保留1到3年的数据，以便能够制作各种报告，管理员可以在线查看报告。我没有使用大型数据库的第一手经验，所以我想问问那些在这种情况下哪个数据库是最佳选择的人。我知道Oracle是安全的选择，但如果有人有hadoopdb或Google的大表等数据库以外的经验，我会更感兴趣。请指导我。提前致谢最佳答案甲骨文将变得非常昂贵以扩大规模。MySQL将难以扩展。这不是他们的错；RDBM

何处 database section 的 acunu hadoop bigtable

database - hadoop pig 返回前 5 行

我想返回一组的前5行。基本上我有一个表格，其中包含一些州名及其按州名分组的城市。我想要该州排名前5位的城市，而不是全部。我如何使用pig来做到这一点？提前谢谢你。最佳答案在GROUPBY之后，在FOREACH中...您可以先执行ORDERBY，然后是LIMIT。这将首先按城市大小对每个组中的事物进行排序，然后拉出前5名。B=GROUPABYstate;C=FOREACHB{DA=ORDERABYcitysizeDESC;DB=LIMITDA5;GENERATEFLATTEN(group),FLATTEN(DB.citysize)

database hadoop section code FLATTEN apache-pig

database - 如何处理大数据数据集市/事实表？ (2.4 亿行)

我们有一个BI客户，每个月在他们的销售数据库表中生成大约4000万行，这些行是从他们的销售交易中生成的。他们想用5年的历史数据构建一个销售数据集市，这意味着这个事实表可能有大约2.4亿行。(40x12个月x5年)这是结构良好的数据。这是我第一次面对如此大量的数据，这让我开始分析垂直数据库工具，如Inbright和其他工具。但是对于这种软件，一个简单的查询仍然需要运行非常非常长的时间。这让我了解了Hadoop，但在阅读了一些文章后，我得出结论，Hadoop不是创建事实表的最佳选择(即使使用Hive)，因为在我看来Hadoop旨在处理非结构化数据.所以，我的问题是:构建这个挑战的最佳方式是

大数集市 section 中生的 database hadoop data-warehouse hive infobright

hadoop - 如何在hadoop中解析 'file could only be replicated to 0 nodes, instead of 1'？

我有一个简单的hadoop作业，可以抓取网站并将它们缓存到HDFS。映射器检查HDFS中是否已存在URL，如果存在，则使用它，否则下载页面并将其保存到HDFS。如果在下载页面时遇到网络错误(404等)，则URL将被完全跳过-不会写入HDFS。每当我运行一个小列表~1000个网站时，我似乎总是遇到这个错误，它在我的伪分布式安装中反复使作业崩溃。可能是什么问题？我正在运行Hadoop0.20.2-cdh3u3。org.apache.hadoop.ipc.RemoteException:java.io.IOException:File/user/raj/cache/9b4edc6adab6f

hadoop 何在 java section cloudera

database - HBase如何保证行级原子性？

考虑到HBase将每个列族存储在一个单独的HFile中以及一行可以跨越许多列族的事实。HBase如何确保跨多个列族的行上的放置/删除操作确实是原子的？最佳答案所有对一行的写入，无论该行中可能有多少列族，都转到一个区域服务器，然后该区域服务器将编辑写入区域WAL(Hlog)，然后写入同步，然后将数据添加到memstore以便提供服务。然后-一旦memstore达到其限制-将memstore刷新到磁盘。如果区域服务器出现任何问题并且它崩溃/死机/插头被拔掉，则可以运行WAL以保持一切一致。有关更多详细信息，请参阅HBASE-2283

database HBase section noreferrer memstore nosql hadoop distributed-system

database - hadoop vs teradata 有什么区别

我接触过Teradata。我从未接触过hadoop，但从昨天开始，我正在对此进行一些研究。通过对两者的描述，它们似乎可以互换，但在一些论文中写道它们用于不同的目的。但我发现的一切都是模糊的。我很困惑。有人用过这两个吗？它们之间的严重区别是什么？简单示例:我想构建ETL，它将转换数十亿行原始数据并将它们组织到DWH。然后对它们做一些资源昂贵的分析。为什么要使用TD？为什么选择Hadoop？或者为什么不呢？最佳答案我认为thisarticle标题为“MapReduce和并行DBMS:friend还是敌人”很好地描述了每种技术最有效的

database teradata section Hadoop stackoverflow business-intelligence

database - 任何可扩展的 OLAP 数据库(网络应用程序规模)？

我有一个应用程序需要对不同级别的聚合进行分析，这就是OLAP工作负载。我也想经常更新我的数据库。例如，这是我的更新的样子(架构看起来像:时间、目标、源ip、浏览器->访问)(15:00-1-2-2010,www.stackoverflow.com,128.19.1.1,safari)-->105(15:00-1-2-2010,www.stackoverflow.com,128.19.2.1,firefox)-->110...(15:00-1-5-2010,www.cnn.com,128.19.5.1,firefox)-->110然后我想问一下上个月从firefox浏览器访问www.st

database OLAP section stackoverflow com hadoop hbase olap-cube

database-design - Hadoop Hbase : Spreading column families across tables or not

Hbase的文档说的很清楚，相似的列应该归为列族，因为物理存储是由列族来完成的。但是将两个列族放在同一个表中，而不是每个列组都有单独的表，这意味着什么？是否存在以这种方式“分区”表更有意义的特定情况，以及一个“宽”表效果更好的情况？单独的表应该导致单独的“行区域”，这在一些列族(作为一个整体)非常稀疏时可能是有益的。相反，什么时候将列系列聚集在一起比较有利？最佳答案您已经了解了列族的概念:基本上，它只是提示HBase将这些项目存储和复制在一起以便更快地访问。如果您将两个列族放在同一个表中，并且总是有不同的键来访问它们，那么这实际

database-design Spreading section 的浏览量 hadoop hbase

130 131 132133134 135 136