草庐IT

connects

全部标签

hadoop - kafka connect - 使用 hdfs 接收器连接器的 ExtractTopic 转换抛出 NullPointerException

我正在使用confluenthdfssinkconnector5.0.0和kafka2.0.0,我需要使用ExtractTopic转换(https://docs.confluent.io/current/connect/transforms/extracttopic.html)。我的连接器工作正常,但是当我添加此转换时,我得到NullPointerException,即使是在只有2个属性的简单数据样本上也是如此。ERRORTaskhive-table-test-0threwanuncaughtandunrecoverableexception(org.apache.kafka.conn

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

对于生产类型的设置,其中TB的记录将写入KAFKA主题,使用KAFKAconnect-HDFS连接器的最佳实践是什么?我的kafka实例在AWS主机名a.b.c.d上运行,我的hadoop名称节点在AWS主机名p.q.r.s上。出于开发/POC的目的,我们在运行kafka实例的同一个盒子中保持融合,即在a.b.c.d上。HDFS集群大小为500GB。但是对于集群大小为20-30TB的生产类型设置,是否建议在与KAFKA实例相同的盒子或名称节点盒子或单独的盒子中保持汇合?在这样的生产案例中,confluent需要多少单独的磁盘大小? 最佳答案

java - 使用 Apache Sqoop 从 MySQL 导入数据 - 错误 : No manager for connect string

我正在尝试将Mahout与外部数据源集成。我正在关注ApacheMahoutCookbook为此预订。我已经配置了Hadoop2.4、MySQL服务器并且我已经将一个虚拟数据库导入到mysql中。我还按照书中的步骤安装了ApacheSqoop,并在Sqoop库(sqoop/lib)中下载并部署了mysql-connector-java-5.1.30.jar我用ant命令构建了sqoop:antmvn-install构建顺利。我正在尝试使用书中所述的以下命令从mysql导入数据:sqoopimport-all-tables--connectjdbc:mysql/localohost/bb

apache - TSocket : Could not connect to server (Connection timed out [110])

关注这篇文章http://nousefor.net/55/2011/12/php/hbase-and-hive-thrift-php-client/我下载了HBase和Thriftphp客户端包并将它们放在我的ubuntu机器上的var/www/thrift/目录中,并编写了这个简单的客户端代码来打开连接并显示数据库中的表。但是服务器不断返回错误消息“连接超时[110]”。有任何想法吗..??此外,当使用$transport=newTSocket('localhost',10001);在服务器(AmazonEC2)上运行时代码执行良好open();}catch(Exception$ex

java - createBlockOutputStream 中的异常 java.io.IOException : Bad connect ack with firstBadLink

知道为什么我会收到此错误吗?10.0.1.193是我的从属虚拟机之一。ubuntu@anmol-vm1-new:/home/hadoop/yarnpp$hadoopfs-puttez-0.4.1-incubating/*/apps/tez-0.4.1-incubating15/11/3002:53:28WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable15/11/3002:54:40INFOhdfs.DFSC

hadoop - 试图让 Hadoop 在伪分布式模式下工作 : connection refused and other errors

我已经在我的LinuxMint17.1机器上安装了Hadoop2.7.3,并且正在关注Apachetutorial让它运行。我一直在密切关注此页面上的说明,并且已经到了可以通过ssh进入localhost并运行start-dfs.sh和start-yarn的地步.sh。我还格式化了名称节点。我的core-site.xml文件是按照教程编辑的:fs.defaultFShdfs://localhost:9000与hdfs-site.xml一样:dfs.replication1但是,运行命令hadoopfs-mkdir/test会出现以下错误:mkdir:Failedonlocalexcep

hadoop - Kafka Connect HDFS 接收器与 Azure Blob 存储

我想使用KafkaHDFS接收器连接器连接到AzureBlob存储。到目前为止我已经做了:设置kafka-connect属性:hdfs.url=wasbs://hadoop.conf.dir={hadoop_3_home}/etc/hadoop/hadoop.home={hadoop_3_home}并且在core-site.xml中添加了对wasbs的支持:fs.wasbs.implorg.apache.hadoop.fs.azure.NativeAzureFileSystem导出HADOOP_CLASSPATH变量,添加到PATH但是无论如何,Hadoop找不到类-NativeAzu

Hadoop 多节点集群 : Connection failed with slave node

我正在尝试使用我的Hadoop多节点集群:1个名称节点(主节点)2个数据节点(slave1和slave2)我想用MapReduce做一些测试,但我遇到了一个问题,我找不到解决这个问题的地方。我向我的HDFS上传了一个名为data.txt的文件我创建了两个文件:ma​​pper.py和reducer.py,它们存储在我的hadoop本地存储库中。我执行了这个命令:hadoopjar/usr/local/hadoop-2.7.5/share/hadoop/tools/lib/hadoop-streaming-2.7.5.jar-mapper/usr/local/hadoop/mapper.

python - 如何配置 hive.Connection() 以将我想要的设置传递给 Hive?

我在Ubuntu17.10上运行Spyder3.2.8。我想传递远程集群上的Hive,以使用sethive.cli.print.header=true;命令为列名称命名。这是我到目前为止所做的:con=hive.Connection(host="name",port=someport,username="usr",configuration='hive.cli.print.header=True')设置配置的正确方法是什么,我什至找不到一个有效的例子。 最佳答案 你可以试试这样的东西conn=hive.Connection(host

java - Hadoop3 : worker node error connecting to ResourceManager

我有一个3节点的hadoop集群(DigitalOcean液滴):hadoop-master配置为namenode和datanodehadoop-worker1和hadoop-worker2配置为数据节点每当我运行一个mapreduce流式作业并选择一个工作节点来运行ApplicationMaster时,该作业会在尝试连接到ResourceManager时挂起。datanode日志显示它尝试连接到0.0.0.0INFO[main]org.apache.hadoop.yarn.client.RMProxy:ConnectingtoResourceManagerat/0.0.0.0:803