草庐IT

Hadoop-Solr

全部标签

hadoop - 配置单元 : The application won't work without a running HiveServer2

我是这个领域的新手。我正在检查CDH5.8快速启动VM以尝试一些基本的hive/impala示例。但是我遇到了一个问题,当我打开HUE时出现以下错误。我搜索了解决方案,但没有找到任何可以解决我的问题的方法。Configurationfileslocatedin/etc/hue/conf.emptyPotentialmisconfigurationdetected.FixandrestartHue.HiveTheapplicationwon'tworkwithoutarunningHiveServer2.我检查过,它已启动并正在运行。尝试重新启动服务和CDH,没有帮助。HiveServe

hadoop - 如何使用 hive/spark-sql 生成大数据集?

例如生成序号在1到1G之间的1G记录。 最佳答案 创建分区种子表createtableseed(iint)partitionedby(pint)用序列号在0到999之间的1K记录填充种子表。每条记录都被插入到不同的分区中,因此位于不同的HDFS目录中,更重要的是-在不同的文件中。附言需要以下集合sethive.exec.dynamic.partition.mode=nonstrict;sethive.exec.max.dynamic.partitions.pernode=1000;sethive.hadoop.supports.sp

macos - 极慢的 Hadoop CLI

我在OSX10.12.3上通过brew安装了hadoop。一切看起来都很棒,而且Hadoop似乎正在运行。我有一个问题:每当我运行hadoopCLI命令时,大约需要50秒才能完成。这是正常的吗?问题是什么,我该如何纠正?例子: 最佳答案 试试这个示例命令:exportHADOOP_ROOT_LOGGER=DEBUG,consolehdfsdfs-ls而且您应该能够看到它卡在了哪个步骤(可能是组解析或DNS之类的东西)。如果输出太多,您可以将其重定向到一个文件。 关于macos-极慢的Ha

hadoop - HDFS(序列文件)中的单个大文件或多个小文件?

目前我正在使用SequenceFile来压缩我们现有的HDFS数据。现在我有两个选项可以将这个序列文件存储为单个大文件,这意味着所有记录都转到这个文件。多个小文件,每个文件的大小与HDFSblock大小(128MB)完全匹配众所周知,HDFS文件存储为block,每个block都到一个映射器。所以我认为当MR处理序列文件时没有什么不同。我知道选项二的唯一缺点是名称节点需要更多开销来维护这些文件,而选项一只有一个文件。我对这两个选项感到困惑,因为我看到太多文章推荐了尽可能使您的HDFS文件大小与block大小匹配。尽可能将小文件合并为一个大文件。任何人都可以指出正确的方法吗?哪个更好?这

hadoop - 使用 Ambari 2.4.2.0 安装 spark 2.1.0

我对Spark和Ambari的集群安装还比较陌生。最近,我接到一个任务,要在一个集群上安装Spark2.1.0,该集群预装了带有Spark1.6.2和HDFS&YARN2.7.3的Ambari。我的任务是安装Spark2.1.0,因为它是最新版本,与RSpark等具有更好的兼容性。我在互联网上搜索了几天,只在AWS或Spark2.1.0上找到了一些安装指南。例如:http://data-flair.training/blogs/install-deploy-run-spark-2-x-multi-node-cluster-step-by-step-guide/和http://spark

hadoop - Spark 上的错误 'neither present in the group by, nor is it an aggregate function'

关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭5年前。Improvethisquestion表格:id|val|category----------------a1|10|Aa1|30|Ba1|20|Ca2|5|Aa2|7|Ba2|2|Ca3|50|Ca3|60|Ba3|90|A查询:SELECTmax(val),id,categoryFROM

hadoop - 如何将多个文件加载到配置单元中的表中?

有一个目录包含多个待分析的文件,例如file1、file2、file3。我要loaddatainpath'path/to/*'overwriteintotabledemo代替loaddatainpath'path/to/file1'overwriteintotabledemoloaddatainpath'path/to/file2'overwriteintotabledemoloaddatainpath'path/to/file3'overwriteintotabledemo.然而,它就是行不通。有没有更简单的方法来实现这个? 最佳答案

hadoop - 在 HDFS 中创建 zip 表

我试过创建不是这样的zip表。CREATETABLEexample_table(|aBIGINT,bBIGINT,vSTRING,dTINYINT)STOREDASTEXTFILELOCATION/path/to/directory/这不是压缩表。我还想用zip创建新表来获取该表的历史记录。我怎样才能用zip创建1个表? 最佳答案 首先设置下面的属性SEThive.exec.compress.output=true;SETmapred.output.compression.type=BLOCK;setmapred.output.co

hadoop - 在 Pig Latin 中生成计数值

我想找出年龄在19到60岁之间的用户数量。下面是示例查询loadtable=load'/user/userdetails.txt'usingPigStorage(',')AS(name:chararray,age:int);filteredvalues=filterloadtableby(age>19ANDage我收到以下错误“无效的标量投影:已分组:需要从关系中投影列才能将其用作标量” 最佳答案 您必须计算过滤后的值而不是分组。total=foreachgroupedgenerateCOUNT(filteredvalues);

hadoop - HDFS 数据大小和 Hive 数据大小的差异

我在Hive中有一张表。当我运行命令showtblpropertiesmyTableName时,它给出了以下结果:numFiles12numRows1688092rawDataSize934923162totalSize936611254这意味着rawDataSize为934.92MB,totalSize为936.61MB当我运行命令来计算同一表在HDFS表位置上的数据大小时。[user@server1~]$hdfsdfs-du-h-s/apps/hive/warehouse/test.db/myTableName893.2M/apps/hive/warehouse/test.db/m