rdbms-agnostic

sql - RDBMS 和 Hive 有什么区别？

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭6年前。Improvethisquestion在像MySQL这样的RDMS中有数据库，Hive上是否也有数据库？正如我在手册上读到的那样，Hive只有表，我对此有点困惑..RDBMS和Hive的不同概念是什么？之前谢谢

hadoop - Apache Spark-SQL 与 Sqoop 基准测试，同时将数据从 RDBMS 传输到 hdfs

我正在处理一个用例，我必须将数据从RDBMS传输到HDFS。我们已经使用sqoop完成了这个案例的基准测试，发现我们能够在6-7分钟内传输大约20GB的数据。当我尝试使用SparkSQL时，性能非常低(1Gb的记录需要4分钟才能从netezza传输到hdfs)。我正在尝试进行一些调整并提高其性能，但不太可能将其调整到sqoop的水平(1分钟内大约3Gb的数据)。我同意spark主要是一个处理引擎这一事实，但我的主要问题是spark和sqoop都在内部使用JDBC驱动程序，所以为什么性能差异如此之大(或者我可能遗漏了一些东西)。我在这里发布我的代码。objecthelloWorld{de

Spark-SQL hadoop 34 option section apache-spark-sql sqoop bigdata

rdbms - 如何设计Hbase架构？

假设我有这个RDBM表(Entity-attribute-value_model):col1:entityIDcol2:attributeNamecol3:value由于扩展问题，我想使用HBase。我知道访问Hbase表的唯一方法是使用主键(游标)。您可以获得特定键的游标，并逐行迭代行。问题是，就我而言，我希望能够迭代所有3列。例如:对于给定的entityID，我想获得它的所有属性和值对于给定的attributeName和值，我想要所有的entitiIDS...所以我的一个想法是构建一个Hbase表来保存数据(表DATA，以entityID作为主索引)，以及2个“索引”表，一个以at

rdbms Hbase noreferrer section noopener hadoop hive

language-agnostic - 任何用于大型图形分布式处理的开源 Pregel 框架？

Google描述了一种用于在海量图上进行分布式处理的新颖框架。http://portal.acm.org/citation.cfm?id=1582716.1582723我想知道类似Hadoop(Map-Reduce)的这个框架有没有开源的实现？我实际上正在使用python和多处理模块编写一个伪分布式程序，因此想知道是否其他人也尝试过实现它。由于关于这个框架的公开信息极其稀少。(上面的链接和GoogleResearch的博客文章) 最佳答案 ApacheGiraphhttp://giraph.apache.org太阳神https://

何用 language-agnostic noreferrer noopener nofollow graph hadoop distributed-computing

sql - 可扩展的 RDBMS 替代方案、NoSQL、NewSQL

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭4年前。Improvethisquestion我正在寻找传统DBMS(如PostgreSQL或MySQL)的可扩展替代方案。在传统数据库中我没有以下特性:自动分片以确保线性可扩展性。具有自动故障转移和恢复功能的复制以确保高可用性。没有单点故障。如果我可以牺牲事务，MongoDB看起来是个不错的选择。我还查看了几个新的SQL数据库。NewSQL似乎适合我的目的:VoltDB、TiDB、cockroachDB。但我担

NewSQL RDBMS section class notice sql mongodb tidb

mysql - 考虑到序列/自动增量的不同实现，我如何创建一个可以跨不同 rdbms 工作的 SQL 插入语句？

我正在尝试为一个类创建一个方法，该方法会自动将记录插入表中。问题是我需要使代码适用于mysql、mssql、postgresql、oracle和sqlite。我能想到的唯一解决方案是:创建我自己的主键值，但这似乎非常冒险，因为可能很难想出一个故障安全的解决方案来生成主键值。创建代码，根据正在使用的rdbms驱动程序来切换使用的方法，但这看起来很草率，如果可能的话，我想使用符合SQL标准的方式。如果所有这些rdbms使用不同的方法来自动递增主键字段，我如何创建此INSERT语句以在所有这些rdbms中工作？最佳答案为每个rdbms

插入语 mysql section rdbms strong sql sql-server oracle postgresql

mysql - Oracle RDBMS 是否比 MySQL RDBMS 更稳定、更安全、更健壮等？

作为一名程序员，我在各种系统上工作过，一些使用Oracle，一些使用MySQL。我一直听到人们说Oracle更稳定、更健壮、更安全。是这样吗？如果是，以什么方式和为什么？为了这个问题的目的，考虑一个中小型生产数据库，可能有500,000条左右的记录。最佳答案是的。Oracle是企业级软件。我不确定它是否真的比mysql更稳定，我用的mysql不多，但我不记得我遇到过mysql崩溃。我遇到过Oracle崩溃，但当它崩溃时，它会为我提供比我可能想要的更多关于崩溃原因的信息，并且Oracle支持人员随时为您提供帮助(收费)。它非常非常

RDBMS 健壮 Oracle section mysql database comparison

language-agnostic - tcp底层传输机制/网络编程

我已搜索但找不到以下内容:Process1通过TCP套接字传输数据。做传输的代码是(伪代码)//Section1write(sock,data,len);//anylanguage.Justwritedata//Section2写入后的Process1可以在section2中继续，但这并不意味着数据已经传输完毕。TCP可以缓冲数据以供以后传输。现在Process2与Process1同时运行。这两个进程都尝试并发发送数据。IE。两者都有上面的代码。问题1:如果两个进程同时向TCP套接字写入数据，数据最终将如何通过IP/OS在线传输？a)Process1的所有数据后跟Process2的所有

传输机 language-agnostic Process strong 套接字 networking network-programming tcp

language-agnostic - TCP 慢启动、拥塞避免和确定带宽

是否有某个公式可用于确定需要通过TCP连接传输以确定其带宽的最小段数/字节数，并考虑到慢启动和拥塞避免？我知道pathratetool，但如果可能的话，我想要一些更简单的东西，我可以将其合并到应用程序中以获得下降的大概数字。一个使用示例是从网络服务器下载一些数据，以确定自动下载一堆小文件的最佳线程数。这与我之前发布的一个问题有关:TCP,HTTPandtheMulti-ThreadingSweetSpot 最佳答案您可以启动scholar.google.com并搜索“TCPchirp”。但是，这需要雇用计时器，如果您不编写内核tc

language-agnostic language section stackoverflow TCP network-programming network-protocols

language-agnostic - Nagle 算法和延迟 ACK 是否影响 TCP 连接设置？

客户端的SYN和服务器的SYN+ACK是否被Nagle延迟了？客户端对服务器SYN的ACK是否会延迟？连接会在rtt+spt之后返回还是需要rtt+spt+2xNagle延迟？或者更一般地说，Nagle算法和延迟ACK如何影响TCP连接设置？最佳答案不，NAGLE不影响SYN或SYN+ACK。延迟的ACK也没有(从逻辑上讲，您希望SYN+ACK尽快返回，并且无论如何都不存在导致延迟的拥塞状态)。关于language-agnostic-Nagle算法和延迟ACK是否影响TCP连接设置

language-agnostic language section ACK SYN tcp network-programming network-protocols