草庐IT

hadoop-examples

全部标签

amazon-web-services - Hadoop 配置单元无法在 AWS EMR 上扩展

我正在hadoophive上运行一个实验。在这个实验中,我在2个不同的硬件设置上运行相同的配置单元作业。它托管在AWSEMR中。这是我运行的hive.sql脚本:DROPDATABASEIFEXISTSlabtest;CREATEDATABASElabtest;CREATETABLEIFNOTEXISTSlaborder(InserttsTIMESTAMP,ordernrSTRING,PatientnrSTRING,visitnrSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPE

hadoop - 将数据从 HDFS 加载到 Hive 时出现问题

场景1:在配置单元中创建表时提供​​自定义位置,然后使用“从本地复制”命令加载数据。下面的过程是直接将数据加载到我的表中。但是当我使用默认位置使用“从本地复制”命令加载数据时,方案2不起作用。因为它执行时没有任何错误,但没有加载我的表。场景1命令的链接---Scenario1Commands--这是将数据加载到表中。Scenario2Commands--将场景1的位置路径替换为默认配置单元路径--但未加载数据。 最佳答案 使用下面的命令找到文件需要复制到的确切位置hive-e'describeformattedEmployee'如果

hadoop - MapReduce 处理如何与本地文件系统一起工作?

如果输入/输出来自本地文件系统,MapReduce处理如何工作?MapReduce作业执行是否跨Hadoop集群异步发生?如果是,那是如何发生的?在哪个用例中,我们真的需要使用这种方法吗? 最佳答案 MapReduce在本地系统中的工作原理相同(mapper->reducer)(只是它的效率问题,因为它在本地系统而不是集群中效率较低)。是的,MapReduce作业执行在Hadoop集群中异步发生(这取决于您在mapreduce程序中使用的调度器类型)点击formoreaboutscheduler在大多数情况下,这用于测试目的(在本地

hadoop - 如何列出 Hive 中所有数据库中所有表中的所有列

我需要列出我的Hive中所有数据库的所有表中的所有列。我需要这样一行:Database.table.columncolumn_typecomment显然我可以使用showdatabases;对于我可以使用的每个数据库showtables;并且对于每个表使用:describetable_name;显然,我可以使用位于我的Postgress数据库中某处的Hive_metastore数据库,但我无法访问那里。但我想要一个bash脚本,它可以遍历数据库->表->列并获取详细信息。我已经开始生成数据库列表:hive-e'showdatabases;'|teedatabases.txt比起我要遍历

hadoop - Hadoop 2.x 上的应用程序(作业)列表为空

我在macOSSierra(Darwin内核版本16.7.0)上安装了Hadoop2.8.1,它工作正常,除了应用程序/任务跟踪。1)一开始,我以为是资源管理器网页界面的问题。所以:我已将yarn-site.xml模板复制到etc/yarn-site.xml文件,但没有帮助。我已经尝试更改默认的'dr.谁是资源管理器上我的Hadoop用户的用户(http://localhost:18088/cluster/apps/RUNNING?user.name=myUser),但这也没有帮助。2)即使在命令行上我也无法跟踪我的应用程序(工作):yarnapplication-list总是返回空的

hadoop - 使用 SSH 从本地访问我的虚拟机时遇到问题

我的本​​机和虚拟机都是ubuntu16.04,我想从我的native访问我的虚拟机,我已经把网卡改成了桥接(两个ips都在192.168,10.x).但是当我从我的本地终端运行sshvirtual_mac_ip时,我收到错误ssh:connecttohost192.168.10.7port22:Connectionrefused。ps:我想配置单节点hadoop集群 最佳答案 问题已经解决我再次将我的网络适配器更改为NAT,并在端口2222上使用端口转发。现在当我运行“ssh-p2222username@127.0.0.1”时,我

hadoop - 纱容器尺寸和 Tez 容器管理

我有一个集群,其中包含大约15TB的yarn资源。我正在尝试通过Hive提交查询。我在yarn上的默认容器大小是4GB。为该查询分配的映射器数量约为1000。我的yarn队列中总共分配了10%的资源。因此在单个时间点只会分配430个Container。每个映射器总共分配了1个容器。HDFS上的block大小为128MB。我如何优化查询。 最佳答案 您已经提到了内存设置,这听起来不错,因此您接下来优化查询的步骤(因为您没有提供)是AdditionallytunetheTezcontainers使您的HDFS输入文件的大小接近HDFSb

hadoop - HIVe - 创建表为 - 从现有表创建 Parquet 表时出错

我使用CTAS从现有表(订单)创建了一个Parquet表(orders_parquet),如下所示:CREATETABLEorders_parquetROWFORMATSERDE'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.parquet.MapredParquetO

Hadoop - 当有 Spark 作业正在运行时,Sqoop 作业卡在已接受状态

目前我有一个始终需要运行的spark作业(java)。它不需要太多资源。但是,每当我运行sqoop作业(MapReduce)时,该作业都会卡在已接受状态:WAITING分配、启动AM容器并向RM注册。我检查了Ambari,用于调度的spark配置是公平的。为了进行测试,我尝试运行2个相同的spark作业,但没有出现任何问题(两者的状态均为RUNNING)。应该有足够的内核和内存来运行mapreduce作业。Spark提交命令:/usr/hdp/current/spark-client/bin/spark-submit\--classcom.some.App\--masteryarn-c

python - 如何在没有 pip 和 brew 的 ssh hadoop 系统(沙箱)上安装 python 3?

在sshhadoop环境的终端上有什么可能的命令可以在不使用pip或brew的情况下安装和运行python?另外,我已经试过了yuminstallpython这给我带来了更多麻烦的Python2.6版。 最佳答案 您不会通过yum找到python3安装。您应该简单地使用标准的python.org安装:wgethttps://www.python.org/ftp/python/3.4.5/Python-3.4.5.tgztarxfzPython-3.4.5.tgzcdPython-3.4.5/./configuresudomakeal