database_configuration

database - HBase如何保证行级原子性？

考虑到HBase将每个列族存储在一个单独的HFile中以及一行可以跨越许多列族的事实。HBase如何确保跨多个列族的行上的放置/删除操作确实是原子的？最佳答案所有对一行的写入，无论该行中可能有多少列族，都转到一个区域服务器，然后该区域服务器将编辑写入区域WAL(Hlog)，然后写入同步，然后将数据添加到memstore以便提供服务。然后-一旦memstore达到其限制-将memstore刷新到磁盘。如果区域服务器出现任何问题并且它崩溃/死机/插头被拔掉，则可以运行WAL以保持一切一致。有关更多详细信息，请参阅HBASE-2283

database - hadoop vs teradata 有什么区别

我接触过Teradata。我从未接触过hadoop，但从昨天开始，我正在对此进行一些研究。通过对两者的描述，它们似乎可以互换，但在一些论文中写道它们用于不同的目的。但我发现的一切都是模糊的。我很困惑。有人用过这两个吗？它们之间的严重区别是什么？简单示例:我想构建ETL，它将转换数十亿行原始数据并将它们组织到DWH。然后对它们做一些资源昂贵的分析。为什么要使用TD？为什么选择Hadoop？或者为什么不呢？最佳答案我认为thisarticle标题为“MapReduce和并行DBMS:friend还是敌人”很好地描述了每种技术最有效的

database teradata section Hadoop stackoverflow business-intelligence

hadoop - Configured类在Hadoop程序中有什么用？

大部分HadoopMapReduce程序都是这样的:publicclassMyAppextendsConfiguredImplementsTool{@Overridepublicintrun(String[]args)throwsException{Jobjob=newJob(getConf());/*processcommandlineoptions*/returnjob.waitForCompletion(true)?0:1;}publicstaticvoidmain(String[]args)throwsException{intexitCode=ToolRunner.run(n

Configured hadoop code section mapreduce toolrunner

hadoop - Oozie 作业错误 - java.io.IOException : configuration is not specified

我已经为配置单元脚本创建了一个oozie工作流来将数据加载到表中。我的workflow.xml包含-${jobTracker}${nameNode}${workflowRoot}/hive-site.xmloozie.hive.defaults${workflowRoot}/hive-site.xmlload_data.hqlHivefailed,errormessage[${wf:errorMessage(wf:lastErrorNode())}]我的job.properties文件包含-nameNode=hdfs://localhost:8020jobTracker=localho

configuration IOException oozie lt gt hadoop hdfs

database - 任何可扩展的 OLAP 数据库(网络应用程序规模)？

我有一个应用程序需要对不同级别的聚合进行分析，这就是OLAP工作负载。我也想经常更新我的数据库。例如，这是我的更新的样子(架构看起来像:时间、目标、源ip、浏览器->访问)(15:00-1-2-2010,www.stackoverflow.com,128.19.1.1,safari)-->105(15:00-1-2-2010,www.stackoverflow.com,128.19.2.1,firefox)-->110...(15:00-1-5-2010,www.cnn.com,128.19.5.1,firefox)-->110然后我想问一下上个月从firefox浏览器访问www.st

database OLAP section stackoverflow com hadoop hbase olap-cube

configuration - 如何针对远程集群运行 HBase shell

我在我的工作站上以伪分布式模式运行HBase。我们还在集群上运行HBase。使用HBaseshell，我想从我的工作站访问集群上运行的HBase实例。我想在不登录其中一台集群机器的情况下执行此操作。使用Hadoop，您可以通过指定-conf参数并提供hadoop-site.xml的替代版本在远程集群上运行作业。HBaseshell是否有等效项？我在我的工作站和集群机器上运行clouderacdh3u3。最佳答案更改以下配置文件。对于hadoop:core-site.xml、mapred-site.xml。对于hbase:hbas

configuration HBase section site hadoop apache-zookeeper cloudera

database-design - Hadoop Hbase : Spreading column families across tables or not

Hbase的文档说的很清楚，相似的列应该归为列族，因为物理存储是由列族来完成的。但是将两个列族放在同一个表中，而不是每个列组都有单独的表，这意味着什么？是否存在以这种方式“分区”表更有意义的特定情况，以及一个“宽”表效果更好的情况？单独的表应该导致单独的“行区域”，这在一些列族(作为一个整体)非常稀疏时可能是有益的。相反，什么时候将列系列聚集在一起比较有利？最佳答案您已经了解了列族的概念:基本上，它只是提示HBase将这些项目存储和复制在一起以便更快地访问。如果您将两个列族放在同一个表中，并且总是有不同的键来访问它们，那么这实际

database-design Spreading section 的浏览量 hadoop hbase

database - 一种将结果从 Pig 导出到数据库的方法

有没有办法将Pig的结果直接导出到mysql之类的数据库中？最佳答案在牢记orangeoctopus所说的同时(提防DDOS...)，您是否看过DBStorage？data=LOAD'...'AS(...);...STOREdataINTODBStorage('com.mysql.jdbc.Driver','dbc:mysql://host/db','INSERT...'); 关于database-一种将结果从Pig导出到数据库的方法，我们在StackOverflow上找到一个类似的

database Pig section DBStorage 39 export hadoop apache-pig

hadoop - 由 : ERROR XSDB6: Another instance of Derby may have already booted the database 引起

我正在尝试运行SparkSQL:valsqlContext=neworg.apache.spark.sql.hive.HiveContext(sc)但是我得到的错误如下:...125moreCausedby:java.sql.SQLException:AnotherinstanceofDerbymayhavealreadybootedthedatabase/root/spark/bin/metastore_db.atorg.apache.derby.impl.jdbc.SQLExceptionFactory.getSQLException(UnknownSource)atorg.apa

database instance strong apache derby hadoop apache-spark

database - Apache Spark 的主键

我正在与ApacheSpark和PostgreSQL建立JDBC连接，我想将一些数据插入到我的数据库中。当我使用append模式时，我需要为每个DataFrame.Row指定id。Spark有什么方法可以创建主键吗？最佳答案斯卡拉:如果您只需要唯一编号，您可以使用zipWithUniqueId并重新创建DataFrame。首先是一些导入和虚拟数据:importsqlContext.implicits._importorg.apache.spark.sql.Rowimportorg.apache.spark.sql.types.{

database Apache code 34 strong postgresql hadoop apache-spark

177 178 179180181 182 183