Database-as-IPC

database - Hive 的 Bucket Map Join

我有一个Hadoop集群，我使用Hive进行查询，我想连接两个大表，其中一个有小桶，从我读到的内容来看，如果我将两个表都存储在连接键上，那会帮助性能。所以我的设置是:将连接键上的两个表分桶到相同数量的桶中，较小表的桶适合内存，设置hive.optimize.bucketmapjoin=true;运行以下查询:SELECT/*+MAPJOIN(a)*/count(*)FROMaJOINBONa.join_key=b.join_key;问题1:以上设置是否足以触发bucketmapjoin？问题2:我对bucketmapjoin的理解是它启动一个本地任务，为每个bucket创建哈希表，然后

database Bucket 射器 strong join hadoop hive

Hadoop : sqoop : getting Unknown database 'sample' error even though database exist

我正在sqoop中进行基本尝试。我使用MySQL创建了一个数据库示例。我在“示例”数据库中创建了一个表customers，并向该表中插入了一些数据。在尝试使用sqoop将表导入hdfs时，我得到了Unknowndatabase'sample'，即使数据库存在。使用的sqoop命令:sqoopimport--connect"jdbc:mysql://localhost:3306/sample"--usernameroot--password123456--tablecustomers--target-dirhdfs:/sqoop/customers2-m1但是这个命令显示表客户:sqoo

database amp sqoop section java hadoop

hadoop - Spark 错误 : Server IPC version 9 cannot communicate with client version 4

我运行的是hadoop2.7.0版本、scala2.10.4、java1.7.0_21和spark1.3.0我创建了一个如下所示的小文件hduser@ubuntu:~$cat/home/hduser/test_sample/sample1.txtEid1,EName1,EDept1,100Eid2,EName2,EDept1,102Eid3,EName3,EDept1,101Eid4,EName4,EDept2,110Eid5,EName5,EDept2,121Eid6,EName6,EDept3,99运行以下命令时出现错误。scala>valemp=sc.textFile("/hom

version communicate section sample EName hadoop apache-spark

database - 凤凰加入操作不适用于 hbase

我正在使用hbase-1.1.0.1和phoenix-4.4.0-HBase-1.1-bin版本。要运行SQL查询，我使用SQuirrelSQL客户端。Select*、Selectcount(*)、whereclause和子查询等简单查询工作正常，但JOIN操作根本不起作用。请帮我解决这个问题。最佳答案我找到了解决方案。实际上我犯了一个错误，我将“phoenix-core-4.4.0-HBase-1.1.jar”复制到我的hbase的lib目录中。当我用“phoenix-4.4.0-HBase-1.1-server.jar”替换

database hbase code section phoenix hadoop apache-phoenix

apache - Hbase ipc.RpcServer responseTooSlow 问题和区域服务器关闭

我已经使用Hadoop2.7.4配置了Hbase1.2.6。我已经在上面配置了Nutch。以下是两个Hbase站点属性hbase.rpc.timeout1200000Changedto20minuteshbase.client.scanner.timeout.period1200000Changedto10minutes当我开始工作时。警告开始一段时间后，区域服务器关闭。这就是为什么Job也失败了。2017-12-2217:39:25,660WARN[B.defaultRpcServer.handler=18,queue=0,port=16020]ipc.RpcServer:(resp

responseTooSlow RpcServer 34 section client apache hadoop timeout hbase nutch

hadoop - pig : get data from hive table and add partition as column

我有一个分区的Hive表，我想将其加载到Pig脚本中，并且还想将分区添加为列。我该怎么做？Hive中的表定义:CREATEEXTERNALTABLEIFNOTEXISTStransactions(column1string,column2string)PARTITIONEDBY(datestampstring)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'\t'LOCATION'/path';pig脚本:%defaultINPUT_PATH'/path'A=LOAD'$INPUT_PATH'USINGPigStorage('|')AS(column1:cha

partition hadoop section strong code hive apache-pig

database - RDBMS 时间戳与 Hive 时间戳时区不匹配

如果我查询RDBMS以获取我收到的时间戳:2015-03-3000:00:00在我将它作为bigint列导出到Hive表后，我得到1427673600000(cast(tsastimestamp)gives2015-03-3002:00:00)。即当前本地时区(带夏令时)已应用于时间戳。如果我想与数据库中的内容保持一致，如何将导出的时间戳存储在Hive中？我是否需要始终将时间戳存储为Hive中的UTC格式，所以在这种情况下，我需要从我得到的时间中减去2小时然后我必须在查询期间应用当前时区(使用from_utc_timestamp)？如何考虑夏令时(GMT+1和GMT+2)？什么是最佳实

database RDBMS code Hive section date hadoop timezone

database - Spark 中的快速条件加入

我正在尝试使用条件查询在Spark中进行快速扩充。我有两个键/值数据集:“事件数据”和“session映射”。“session映射”用于找出谁在两个时间戳之间使用给定的IP。“事件数据”是大量事件的集合，具有IP和时间戳，需要与“session映射”相关联以丰富用户名。是否有一种有效的方法可以根据Spark中的session映射或其他方式丰富事件数据？sessionmap:(IP,start_time,end_time)->Name(192.168.0.l,2016-01-0110:00:00,2016-01-0122:00:00)->John(192.168.0.l,2016-01-

database Spark 01 2016 section hadoop join apache-spark mapreduce

linux - Hadoop 信息 ipc.Client : Retrying connect to server localhost/127. 0.0.1:9000

我阅读了其他关于Hadoop的HDFS配置问题的帖子。然而，他们都没有帮助。所以，我发布我的问题。我关注了thishadoopv1.2.1教程。当我运行hadoopfs-ls命令时出现此错误:16/08/2915:20:35INFOipc.Client:Retryingconnecttoserver:localhost/127.0.0.1:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1SECONDS)我的core-site.xml文件

localhost Retrying gt lt property linux hadoop hdfs hadoop-partitioning

database - Sqoop 是否使用 Reducer？

如果在使用--query参数给出的选择查询中执行连接/聚合，Sqoop是否运行reducer？或者在Sqoop中是否存在同时运行映射器和缩减器的情况？Documentation指定每个映射任务都需要执行查询的副本，结果按Sqoop推断的边界条件进行分区。$sqoopimport\--query'SELECTa.*,b.*FROMaJOINbon(a.id==b.id)WHERE$CONDITIONS'\--split-bya.id--target-dir/user/foo/joinresults在上面的示例中，JOIN如何在首先使用$CONDITIONS对表进行分区的地方发生？

database Reducer code section CONDITIONS hadoop mapreduce sqoop