草庐IT

hadoop-release

全部标签

hadoop - Pig 中的包和元组模式

我试图为我尝试使用JsonLoader加载的一些数据指定模式,我要上传的数据的格式为Features:["Speedy","New","Automatic",..]对于每条记录,特征的数量不是固定的,它可以不同。我在模式中将其表示为:Features:bag{a:tuple(t:chararray)}但是它不起作用。有人可以用正确的语法帮助我并指出我错在哪里吗? 最佳答案 字段名称规范是不必要的,因为您有没有任何字段名称的简单数组。试试这个:a=load'a.json'usingJsonLoader('value:int,featu

hadoop - 使用配置单元中的数据测量加载表的时间(可能吗?)

我使用以下命令从存储在hdfs中的数据在配置单元中创建了一个表:createexternaltableusers(IDINT,NAMESTRING,ADRESSSTRING,EMAILSTRING)ROWFORMATDELIMITEDFIELDSTERMINATEDBY'|'STOREDASTEXTFILELOCATION'/data/tpch/users';存储在hdfs中的这个用户表有10gb。而createtable只用了1秒来创建表和加载数据。所以这很奇怪或者真的很快。我的疑问是,要使用配置单元中的数据检查加载表的时间可以使用上面的命令和位置吗?或者该命令只是创建对存储在hdf

hadoop - 消除 MapReduce 中的相同单词对

我想计算文本中每行单词的共现次数,即一个单词与其他单词在同一行中出现的次数。为此,我创建了一个特殊的词对类,因此MapReduce会给我词对,然后是计数。问题是,我只想展示不同单词的共现。这是代码:publicclassCo_OcurrenciaMapperextendsMapper{@Overridepublicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{IntWritableone=newIntWritable(1);String[]palabras=

hadoop - 关于 IBM Analytics for Hadoop on Bluemix 的替代品有任何更新吗?

IBMAnalyticsforHadooponBluemix的替代服务是否有任何更新?我了解到该服务已于2月停用,并且正在开发替代服务的测试版。我是IBMAcademicInitiative的成员,计划在5月开始的类(class)中使用此服务,我和我所在大学的学术IT团队担心到那时我们还没有关于是否可以使用等效服务的消息。任何人都可以提供更新或建议吗?我们应该考虑其他基于云的Hadoop服务吗?提前致谢。 最佳答案 IBMAnalyticsforApacheHadoopBETA服务已被BiginsightsforApacheHado

hadoop - 如何运行映射?

我正在尝试在WindowsPC和8GBRAM上运行mapr沙箱。但是当我尝试导入ovf时,它总是说ovf已损坏,而我使用了多个源,而在另一台机器上运行的ovf却没有在我的机器上运行。我也尝试过使用配置我也尝试过提取ovf并将其作为vmdk运行,但不会进行任何配置设置,因此效果不佳。现在我已经尝试在vmplayer上安装它并说ovf格式不受支持,当你再次尝试时它不会看到ovf文件规范问题所以它成功导入了文件但现在它说vmx文件不兼容。我找不到出路? 最佳答案 我为在Ubuntu14.04上安装它做了以下操作(虚拟机是最终目的地,不应该

hadoop - 使用 WebHDFS 复制文件

有没有一种方法可以将文件从(比方说)hdfs://old复制到hdfs://new而无需先下载文件然后再上传又是? 最佳答案 不知道WebHDFS,但这可以使用hadoopdistcp实现.该命令看起来像这样:hadoopdistcphdfs://old_nn:8020/old/location/path.filehdfs://new_nn:8020/new/location/path.file 关于hadoop-使用WebHDFS复制文件,我们在StackOverflow上找到一个类似

hadoop - 无法启动 sqoop : jobtracker not found

当我使用sqoop将数据从mysql传输到cassandra时,出现如标题的错误。dsesqoopimport--connectjdbc:mysql:///Turkgen--usernameroot--tablemgs--cassandra-keyspaceturkgen_ks--cassandra-tablemgs--cassandra-thrift-hostlocalhost--cassandra-create-schema我运行这个命令,但我得到了错误:无法启动sqoop:找不到jobtracker编辑:当我查看jobtracker的日志文件时。有这样的错误:不包含有效的主机:端

hadoop - 如何从配置单元表中找到最大值及其引用名称?

我有一个像这样的hive表“航空公司”:nameairlineUSAAmericanAirlineNepalJetAirlineDubaiEmiratesUSASouthWesternUSAQuatarUSADelta现在,我想知道哪个国家/地区的航空公司数量最多。我正在使用嵌套子查询。selectmax(tot)from(selectnameascountryName,count(airline)astotfromairlinegroupbyname)a这给出了航空公司的最大数量,在本例中为4。4但我还需要国家名称。因此,所需的输出是:USA4我们如何使用子查询来做到这一点?我没有使

hadoop - 在 Hadoop 2.7.2(CentOS 7) Cluster 中,Datanode 启动但没有连接到 namenode

我安装了一个三节点hadoop集群。master和slave节点单独启动,但datanode没有显示在namenodewebUI中。datanode的日志文件显示以下错误:2016-06-1821:23:53,980INFOorg.apache.hadoop.ipc.Client:Retryingconnecttoserver:namenode/192.168.1.100:9000.Alreadytried0time(s);retrypolicyisRetryUpToMaximumCountWithFixedSleep(maxRetries=10,sleepTime=1000MILLI

hadoop - 如何将一行与 spark 数据集中的所有其他行进行比较?

我有一个从MySQL加载的spark数据集,我想将每一行与数据集中的所有其他行进行比较,并使用获得的结果创建一个新的数据集。有什么办法可以实现吗? 最佳答案 您可能想通过匹配行的字段来连接两个数据集。你可以像这样匹配两个数据集并加入这两个数据集valResult=DF1.join(DF2,(DF1("USER_ID")===DF2("USER_ID"))&&(DF1("SESSION_ID")===DF2("SESSION_ID"))&&(DF1("日期")===DF2("日期"))).select(DF1("USER_ID"),D