草庐IT

Mongo-Hadoop

全部标签

scala - 下面的热烫预处理和后处理将在哪个hadoop节点上运行?

我有下面的example代码,用于在slading作业运行之前进行一些预处理和一些后处理。由于这些预处理和后处理正在调用一些mysql数据库,我想知道hadoop可能会在哪些hadoop节点上运行它们?(我需要打开从这些节点到数据库的端口)它可以运行任何hadoopdata-node的预处理和后处理吗?我尝试做一些研究但找不到任何迹象,如何通过文档/来源找到它将在哪个节点上运行?(PS工作安排在oozie)preProcessingBeforeJobRuns()//**inwhichhadoopnodewouldthisberun?coulditrunonanydatanode?**l

hadoop - 使用Oozie在hbase上创建hive表导致libthrift出错?

我在cloudera(cdh4)上使用ooziehive操作来创建hbasehive表。在我的本地开发工具箱上运行createtable命令没有错误。当我通过集群中的oozie配置单元操作执行相同的命令时,出现此错误:FailingOozieLauncher,Mainclass[org.apache.oozie.action.hadoop.HiveMain],main()threwexception,org.apache.thrift.EncodingUtils.setBit(BIZ)Bjava.lang.NoSuchMethodError:org.apache.thrift.Enco

hadoop - 在 hive 表下看不到 HDFS 文件中的数据

我必须从oracle表中的数据创建一个配置单元表。我正在做一个sqoop,从而将oracle数据转换为HDFS文件。然后我在HDFS文件上创建一个配置单元表。sqoop成功完成,文件也在HDFS目标目录中生成。然后我在配置单元中运行创建表脚本。表被创建。但它是一个空表,hive表中没有看到任何数据。有人遇到过类似的问题吗? 最佳答案 Hive默认分隔符是ctrlA,如果你没有指定任何分隔符,它将采用默认分隔符。在您的配置单元脚本中添加以下行。以'\t'结尾的行格式分隔字段 关于hadoo

超详细手把手教你部署全分布模式Hadoop集群

 1. Hadoop集群部署规划      全分布模式下部署Hadoop集群时,最低需要两台机器,一个主节点和一个从节点。本书拟将Hadoop集群运行在Linux上,将使用三台安装有Linux操作系统的机器,主机名分别为hadoop_base、hadoop_copy1、hadoop_copy2,其中hadoop_base作为主节点,hadoop_copy1和hadoop_copy2作为从节点。具体Hadoop集群部署规划表如表1-2所示。2.准备机器。编者使用VMwareWorkstationPro共安装了3台CentOS虚拟机,分别为hadoop_base、hadoop_copy1、hado

hadoop - DSE 4.7 中奇怪的 dse hive 集成

我正在尝试对现有的C*表运行Hive查询。这是我的C*表定义:droptableIFEXISTSmydata.site_users;CREATETABLEIFNOTEXISTSappdata.site_users(user_idtext,user_test_uuiduuid,--fortestingpurposes,ifwecanuseitinqueries,therecouldbesomeserdeproblems?user_nametext,PRIMARYKEY(user_id));这是我的外部配置单元表定义:CREATEEXTERNALTABLEc_site_users(user

hadoop - 将数据加载到 HIVE 中的问题

我们在AWS中启动了两个EMR,并在一个EMR中安装了hadoop和hive-0.11.0,在另一个EMR中安装了hive-0.13.1。一切似乎都工作正常,但在尝试将数据加载到TABLE时,它给出了以下错误,并且它发生在两个Hive服务器中。错误信息:AnerroroccurredwhenexecutingtheSQLcommand:loaddatainpath's3://buckername/export/employee_1/'intotableemployee_2Queryreturnednon-zerocode:10028,cause:FAILED:SemanticExcep

hadoop - 如何使用spark for map-reduce flow来选择文件夹下所有csv文件的N列,前M行?

具体来说,假设我们有一个包含10k制表符分隔的csv文件的文件夹,这些文件具有以下属性格式(每个csv文件大约10GB):idnameaddresscity...1Mattadd1LA...2Willadd2LA...3Lucyadd3SF......而且我们有一个基于上面“name”的查找表namegenderMattMLucyF...现在我们有兴趣将每个csv文件的前100,000行输出为以下格式:idnamegender1MattM...我们可以使用pyspark来有效地处理这个问题吗?如何并行处理这些10k的csv文件? 最佳答案

Hadoop Basic - 创建目录时出错

我最近开始学习hadoop,但在创建新文件夹时出现以下错误-vm4learning@vm4learning:~/Installations/hadoop-1.2.1/bin$./hadoopfs-mkdirhelloworldWarning:$HADOOP_HOMEisdeprecated.15/06/1419:46:35INFOipc.Client:Retryingconnecttoserver:localhost/127.0.0.1:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(

maven - 在 Microsoft Windows 8.1 中运行 Apache Hadoop 2.7.0

首先,我下载最新版本的HadoopApache2.7.0-src.tar.gz其次,我将它解压并移动到C。然后我使用了这个SDK7.1命令行:hdfs>mvnpackage-Pdist,native-win-DskipTests-Dtar这是我得到的输出:Downloading:http://repo.maven.apache.org/maven2/org/codehaus/plexus/plexus/3.3/plexus-3.3.pomDownloaded:http://repo.maven.apache.org/maven2/org/codehaus/plexus/plexus/3

java - Hadoop map reduce 从 csv 格式的 csv 文件中提取特定列

我是hadoop的新手,正在从事一个大数据项目,我必须清理和过滤给定的csv文件。就像如果给定的csv文件有200列,那么我只需要选择20个特定的列(所谓的数据过滤)作为进一步操作的输出。同样作为数据清理的一部分,我必须检查日期列的日期格式是否正确,并将所有格式更改为单一格式,如DD-MM-YYYY。到目前为止,我可以读取给定的文件,但是您能否建议如何选择特定的列以及如何检查日期格式? 最佳答案 您也可以使用ApachePig来过滤和验证日期格式。请按照以下步骤操作:将文件复制到HDFS使用加载命令和pigStorage()加载文件