草庐IT

hadoop - 生成用于测试的随机数据

我想使用Hadoop运行一些测试,我有一个大型集群(大约50Tb),我想生成用于运行一些测试的数据。首先我想测试配置单元的性能,为此我想生成结构化数据(CSV)。有人可以告诉我实现该目标的最佳方法吗? 最佳答案 第一个问题是您想伪造mapreduce作业以在没有任何数据的情况下启动映射器。默认情况下,它会为每个block启动1个maptask,所以让我们愚弄它吧。为此,首先在hdfs中创建一些“假文件”foriin{1..100};doecho"hello$i"|hadoopfs-put-fakes/$i.txt;done这实际上需

hadoop - Hadoop 上的临时查询

我们在美国处理2400万家企业。我们现在在HDFS和Hadoop上使用Pig。我们希望加快调试的临时查询。例如。现在,从我们的5个服务器集群中的2400万个业务中提取一个业务需要几分钟。Hbase似乎是我发现的唯一可以完成这项工作的系统。Hive似乎没有这样做。这是我们的模式,目前在HDFS中存储为制表符分隔的纯文本文件。place_idnamevalue1TitleBambooGarden1TitleBambooGardenRestaurant1Phone425-555-5551Phone425-444-4441Address123BellevueWay2TitleBurgerKin

hadoop - Hive 中的 LeaseExpiredException

全部。我运行一个配置单元查询运行到97%,异常显示org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException:无租约。谁能解释一下为什么会出现这个错误?这是一个单用户Hive集群环境。提前谢谢你。2013-01-0222:16:17,833ERRORorg.apache.hadoop.hdfs.DFSClient:Exceptionclosingfile/tmp/hive-hadoop/hive_2013-01-01_21-21-32_067_6367259756570557828/_task_tmp.-ext-10002/

hadoop - 如何将mysql DDL转换成hive DDL

给定一个包含用于在MySQL数据库中创建表的DDL的SQL脚本,我想将该脚本转换为HiveDDL,以便我可以将表创建到hive中。我本可以自己编写一个解释器,但我认为我可能会错过一些细节(例如数据格式转换、int、bigint、时间、日期等),因为我对hiveDDL还很陌生。我看过这个帖子Howtotransfermysqltabletohive?,其中提到了sqoophttp://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html.然而,据我所知,sqoop肯定会翻译DDL,但只是作为一个中间步骤(因此翻译后的DDL无处可寻)。我

hadoop - 哪个类将 Hive & Ping 解析为 Map Reduce

哪个是将pig和hive命令解析为MapReduce作业的类,这种解析背后的算法是什么? 最佳答案 Pig和Hive都使用ANTLR构建一个编译器来解析他们的脚本。如果你对编译原理不熟悉,建议你阅读一些相关资料。对于Pig,ANLTR的源代码是src/org/apache/pig/parser/QueryLexer.g和src/org/apache/pig/parser/QueryParser.g。它们将被编译为org.apache.pig.parser.QueryLexer和org.apache.pig.parser.QueryP

hadoop - Hive 查询控制流?

Hive查询的控制流程是什么?比方说,我想加入Emp_Table和Dept_Table,流程如何进行?它从元存储中的哪个表中获取所有相关信息?比如,1)Emp_Table对应的文件在哪里?(HDFS位置)2)表Emp_Table的字段名称是什么?3)包含Emp_Table数据的文件中的分隔符是什么?4)如何对数据进行分桶或分区,在这种情况下,从哪里(元存储表名称)以及如何(查询)给出HDFS文件夹位置? 最佳答案 流程是这样的:第一步:Hive客户端触发查询(CLI或使用JDBC、ODBC或Thrift或webUI的某些外部客户端)

hadoop - Hive 没有完全遵守 core-site.xml 中的 fs.default.name/fs.defaultFS 值

我在一台名为hadoop的机器上安装了NameNode服务。core-site.xml文件的fs.defaultFS(等同于fs.default.name)设置如下:fs.defaultFShdfs://hadoop:8020我有一个名为test_table的非常简单的表,它当前存在于HDFS上的Hive服务器中。即存放在/user/hive/warehouse/test_table下。它是在Hive中使用一个非常简单的命令创建的:CREATETABLEnew_table(record_idINT);如果我尝试将数据加载到本地表中(即使用LOADDATALOCAL),一切都会按预期进行

java - 无法通过 jdbc 连接到配置单元

我使用gradle来运行我的程序。示例代码引用https://github.com/onefoursix/Cloudera-Impala-JDBC-Example.而且我可以从repo中运行示例而不会失败。//ApplythejavaplugintoaddsupportforJavaapplyplugin:'java'applyplugin:'application'mainClassName="com.my.impala.fetcher.Fetcher"//Inthissectionyoudeclarewheretofindthedependenciesofyourprojectre

apache-spark - Spark Streaming to Hive,每个分区的小文件太多

我有一个批处理间隔为2分钟(可配置)的Spark流作业。此作业从Kafka主题读取并创建数据集并在其上应用模式并将这些记录插入到Hive表中。Spark作业在Hive分区中每个批处理间隔创建一个文件,如下所示:dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName);现在传入的数据不是那么大,如果我将批处理持续时间增加到10分钟左右,那么即使我最终也可能只获得2-3mb的数据,这远小于block大小。这是SparkStreaming中的预期行为。我正在寻找有效的方法来进行后处理以合并所有

hadoop - 有了Hive TEZ,Hive的LLAP有什么用?

在我们的项目中,我们将数据从Greenplum数据库加载到HDFS(HIVE)。最近,我了解到Hive2有一个新的包,“LLAP”。我一直对LLAP的概念感到困惑。LLAP的具体用途是什么?当我们已经有了Hive的TEZEngine时,LLAP有什么用呢?我们项目中的一位开发人员告诉我,我们正在使用HiveLLAP将数据加载到HDFSHive表中。使用LLAP是一种好习惯吗?如果不是,为什么不是?任何人都可以让我清楚地了解上述问题吗? 最佳答案 https://cwiki.apache.org/confluence/display/