普通_草庐IT

sql - 像普通 sql 一样查询 hbase

我知道Hbase不像普通的SQL。但是有可能像这样查询Hbase吗？selectrow-keyfromTablewherecf:first="ram"andcf:middle="leela"andcf:last="ban";//ram(firstname)leela(middlename)ban(lastname) 最佳答案有两种方法:使用ApachePhoenix(推荐)。它是HBase的强大SQL包装器。使用ApacheHive。Hive可以使用HiveQL创建“外部表”:CREATEEXTERNALTABLEemployee

hadoop - 除了 pyspark 之外，我还需要使用普通的 python 还是 pyspark 拥有我需要的一切？

我的公司正在改用Hadoop和spark进行机器学习。我知道python在库中非常全面，但是当我们切换到pyspark时，如果我们需要的东西在pyspark中还不可用怎么办？另外，继续使用python可能更容易，因为我已经知道python。所以:我能否在spark中运行我的普通python代码并仍然获得速度等所有好处？人们是只使用pyspark还是同时使用普通python和pyspark？你能把它们混合在一起，一部分用python写，一部分用pyspark写吗？最佳答案 Pyspark或多或少是一个可以在python之上使用的函数

pyspark 拥有 code python hadoop machine-learning cloudera

hadoop - 为什么 Hadoop 作业在云中(使用多节点集群)比在普通 PC 上慢？

我将CloudDataproc用作我的研究的云服务。在此平台(云)上运行Hadoop和spark作业比在较低容量的虚拟机上运行相同的作业要慢一些。我在云上的3节点集群(每个集群有7.5GBRAM和50GB磁盘)上运行我的Hadoop作业需要4分钟49秒，而同样的作业在具有3GBRAM和27GB磁盘的单节点虚拟机(我的电脑)上需要3分钟20秒.为什么在多节点集群的云中结果比在普通pc上慢？最佳答案首先:在不知道完整配置和您正在运行的作业类型的情况下不容易回答。可能的原因是:配置错误http://HOSTNAME:8080打开res

hadoop section li apache-spark cloud virtual-machine google-cloud-dataproc

hadoop - 使用水槽将普通事件网站流式传输到 HDFS。有效率吗？

我们的组织有一个非常普通的活跃网站，每小时大约有1000次点击。我们计划将这些日志流式传输到HDFS/Hive。现在的问题是HDFS在处理较小文件时的效率。无论我们怎么看，每小时累积的文件大小都不会很大。Hadoop处理较大的文件时效率很高。是否建议将多个较小的文件加载到生产hadoop系统中？如果hdfs上堆满了各种小文件，会有什么影响？最佳答案在将文件滚动到新文件之前，您可以尝试添加到文件中的事件数量。如documentation中所述，这是通过HDFS接收器的类似滚动的参数完成的:hdfs.rollInterval30Nu

流式水槽 section hdfs hadoop hive flume

hadoop - 将普通列转换为配置单元中的分区列

我有一个包含3列的表格。现在我需要将其中一列修改为分区列。有没有可能？如果没有，我们如何向现有表添加分区。我使用了以下语法:创建表t1(enoint,enamestring)行格式分隔字段以'\t'结尾；将本地数据“/....路径/”加载到表t1中；改变表t1添加分区(p1='india');我收到错误.........有人知道如何向现有表添加分区......吗？提前致谢。最佳答案我不认为这是直接可能的。Hive将不得不完全重新排列和拆分HDFS中的文件，因为添加分区会强加一个新的目录结构。我建议您只需创建一个具有所需架构和分区

配置单 hadoop section strong stackoverflow hive partitioning hdfs hiveql

regex - Hive 的正则表达式与普通正则表达式不同吗？

我正在使用Hive分析如下所示的Web日志415503--[10/Jun/1998:00:48:00+0000]"GET/english/images/nav_sitemap_off.gifHTTP/1.1"200416我使用下面的正则表达式将其加载到工作正常的配置单元表([^]*)([^]*)([^]*)(-|\\[[^\\]]*\\])([^\"]*|\"[^\"]*\")(-|[0-9]*)(-|[0-9]*)但是如果我在https://www.regex101.com/中检查这个正则表达式，此正则表达式与我的字符串不匹配。如果我删除block中的一些反斜杠(-|\\[[^\\]

regex Hive section noreferrer noopener hadoop hiveql

java - HBase表上普通Java程序和MapReduce java程序的区别

我是Hadoop和Hbase的新手。我想知道编写普通java程序和MapReduce程序(用java编写)之间的区别，当两者都对HBase表中的相同数据执行相同的任务时。我知道PigScripts和HiveQueries将转换为MapReduce程序，并将处理HDFS上的数据。甚至HBase也将数据存储在Datanode上。那么普通的java程序是否会转换为mapperredcucer任务并以批处理的方式处理来自datanode的数据，还是线性地处理数据？请告诉我，普通Java程序如何在HBase表上处理数据？提前致谢!!! 最佳答案

java MapReduce hbase section hadoop

hadoop - 普通身份验证失败 : User yarn is not configured for any impersonation. impersonationUser:alluxio mapreduce 中的 root

Causedby:org.apache.thrift.transport.TTransportException:Plainauthenticationfailed:Useryarnisnotconfiguredforanyimpersonation.模拟用户:root当我使用alluxio在本地运行wordcount程序时它工作正常。我也通过了集成测试，但是当我使用alluxio客户端jar运行相同的Hadoop程序时它给我一个错误bin/hadoopjar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarwordcount

impersonationUser impersonation alluxio section hadoop mapreduce hadoop-yarn

hadoop - 将普通的java程序转换为map reduce

我想编写一个Java包装器，它将“兼容程序”转换为mapreduce形式，以供Hadoop框架执行。我知道我的问题很含糊。但这是我打算做的。输入一个java程序。用户将指定的哪一部分程序将由mapreduce执行。这个java程序将是由我的程序输入，它将提供等效的mapreduce程序到hadoop。我被困在几点上。每个类(class)的Mapreduce程序都不同。我要怎么走概括它？从我应该开始的地方开始。解决这个问题的方法应该是什么？欢迎提出任何建议。这将帮助我决定进一步的方向。最佳答案一般来说是不可能的，并不是所有的程序都

hadoop reduce section li mapreduce

hadoop - 普通 Hadoop 安装与使用 Ambari 的 Hadoop 安装

我最近从Apache下载了hadoop发行版并启动并运行得非常快；下载hadooptarball，在某个位置和一些配置设置中解压它。这里的事情是我能够看到各种配置文件，如:yarn-site.xml、hdfs-site.xml等；我知道hadoop主页位置。接下来，我使用Ambari安装了hadoop(HDP)。混淆部分来了。似乎Ambarin在/usr/hdp中安装了hdp；然而，普通hadoop与Ambari中的目录结构完全不同。我无法找到配置文件，例如yarn-site.xml等那么谁能帮我揭开这个谜团呢？最佳答案所有配置

Hadoop section Ambari hadoop2 hortonworks-data-platform