草庐IT

apache-karaf

全部标签

hadoop - PIG 脚本错误 : java. lang.NoSuchMethodError : org. apache.thrift.protocol.TProtocol.getScheme

我正在mapreduce模式下运行PIG脚本。该脚本读取RCFile(包含以GZIP压缩格式存储的Thrift序列化数据),使用UDF对其进行反序列化,从Thrift结构中提取某些字段并存储它们。一些映射器因以下错误而失败:2015-12-2303:07:45,638FATAL[Thread-5]org.apache.hadoop.mapred.YarnChild:Errorrunningchild:java.lang.NoSuchMethodError:org.apache.thrift.protocol.TProtocol.getScheme()Ljava/lang/Class;a

apache - Ambari 2.2 - 在 Ubuntu 14.04 Docker 容器上以非零状态代码退出

TL;DR-Ubuntu14.04Docker容器上的DockerizedAmbari在使用默认配置启动时抛出错误我正在尝试对Ambari部署进行Dockerize以支持它与我的Hadoop容器一起运行。这是我的Dockerfile:FROMubuntu:14.04ENVAMBARI_HOME/opt/ambariENVAMBARI_VERSION2.2.0.0RUNexportDEBIAN_FRONTEND=noninteractive\&&apt-getupdate\&&apt-get-yinstallwgetsoftware-properties-commonpython-sof

apache - Sqoop - 自定义水槽

我希望能够使用Sqoop将数据导入自定义Hadoop数据存储。这相当于从任意结构化数据库(MySql、Netezza等)导入我自己的自定义数据存储(在本例中,相当于Hive)对于创建此自定义接收器并与Scoop集成有什么建议吗? 最佳答案 我认为不支持使用sqoop创建自定义接收器。但是您可以使用flume创建自定义接收器,并且flume能够从数据源加载。顺便说一句,什么是自定义Hadoop数据存储?它存储什么格式以及与hadoop有何不同。我建议您为flume使用flume-ng-sql-source插件,然后将数据导入您的自定义

hadoop - Apache Kylin 无法找到 HBase 公共(public)库

我已经安装了Hadoop2.6.0版本,HBase0.99.0版本,Hive1.2版本,Kylin1.5.0版本。我在独立模式下设置了以上所有内容,同时在运行Kylin时它会在早期阶段检查Hadoop、HBase和Hive。一切都已安装,但是当我启动Kylin时,它给出了HBasecommonlibnotfound的错误。以下是ApacheKylin的日志。KYLIN_HOMEissettobin/../16/03/2418:02:16WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...

apache - 已安装 Hive 但运行时出错

我已经使用this安装了HIVE教程。但是当我运行以下命令时配置单元我收到这个错误SLF4J:类路径包含多个SLF4J绑定(bind)。SLF4J:在[jar:file:/usr/lib/hive/apache-hive-2.0.0-bin/lib/hive-jdbc-2.0.0-standalone.jar!/org/slf4j/impl/StaticLoggerBinder中找到绑定(bind)。类(class)]SLF4J:在[jar:file:/usr/lib/hive/apache-hive-2.0.0-bin/lib/log4j-slf4j-impl-2.4.1.jar!/

hadoop - Apache Ambari 未在 hortonworks 沙箱中启动

我正在玩hortonworkssandbox,但我无法让ApacheAmbari工作。如您所见,在访问Hortonworks沙箱的欢迎页面时,我收到一条消息:默认情况下禁用服务。要启用该服务,您需要以ambari管理员身份登录。如“SecureShell(SSH)Client”一节中所述,可以通过ssh以root身份进入vm来设置ambari管理员密码。以root用户身份登录后,执行ambari-admin-password-reset并按照提示进行操作我这样做了,但是当我访问链接时,它仍然无法正常工作:127.0.0.1:8080。我检查了ambari-server是否正在运行:[r

hadoop - Apache Apex 最小开发环境

我想知道开发和测试Apex应用程序所需的最低环境是什么?在Windows上的Eclipse中运行,我使用Apexarchtype生成了Apex项目并尝试运行默认的JUnit测试已创建但出现以下错误:2016-04-0513:00:02,677[main]DEBUGphysical.PhysicalPlaninitCheckpoint-Writingactivationcheckpoint{ffffffffffffffff,0,0}PTOperator[id=1,name=randomGenerator]RandomNumberGenerator{name=null}2016-04-05

hadoop - 如何在 Apache Pig 中按第二个字符排序列表?

如何按第二个字符排序列表?例如这个列表:applemangoorange我想按第二个字母排序(字母顺序)mangoappleorange谢谢! 最佳答案 根据第一个字段的第二个字符生成第二个字段,然后按第二个字段排序,最后从排序关系中只得到第一个字段。A=LOAD'test3.txt'USINGPigStorage('\t')as(a1:chararray);B=FOREACHAGENERATEa1,SUBSTRING(a1,1,2)asa2;C=ORDERBBYa2;D=FOREACHCGENERATEa1;DUMPD;输出

hadoop - 加入两个数据集时如何在 Apache Spark 中指定键

我正在加载两个文件,如下所示-f1=sc.textFile("s3://testfolder1/file1")f2=sc.textFile("s3://testfolder2/file2")此加载操作为我提供了元组列表。为每一行创建一个元组。file1和file2的架构如下-f1(a,b,c,d,e,f,g,h,i)f2(x,y,z,a,b,c,f,r,u)我想根据字段a、b、c连接这两个数据集。我做了一些研究,发现下面的方法可能有用。rdd.keyBy(func)但是,我找不到一种简单的方法来指定键和连接两个数据集。任何人都可以演示如何在不使用DataFrames的情况下做到这一点吗

hadoop - 从 org.apache.hadoop.hive.ql.exec.DDLTask 创建配置单元表 : FAILED: Execution Error, 返回代码 1 时出错。元异常

我有一个多节点hadoop集群,现在我在namenode上安装了hive。我试图从存储在hdfs中的文件创建一些配置单元表,但我收到了这个奇怪的错误:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.MetaException(message:hdfs://namenode-VirtualBox:9000/data/posts/posts.tblisnotadirectoryorunabletocreateone)hive>但是,然后我尝试从存储在hdfs中的文件创建一个表,只有2kb