SomeProject_Wi_Fi_Connect

hadoop - kafka connect - 使用 hdfs 接收器连接器的 ExtractTopic 转换抛出 NullPointerException

我正在使用confluenthdfssinkconnector5.0.0和kafka2.0.0，我需要使用ExtractTopic转换(https://docs.confluent.io/current/connect/transforms/extracttopic.html)。我的连接器工作正常，但是当我添加此转换时，我得到NullPointerException，即使是在只有2个属性的简单数据样本上也是如此。ERRORTaskhive-table-test-0threwanuncaughtandunrecoverableexception(org.apache.kafka.conn

amazon-web-services - Kafka Connect 与 AWS Hadoop 实例的托管

对于生产类型的设置，其中TB的记录将写入KAFKA主题，使用KAFKAconnect-HDFS连接器的最佳实践是什么？我的kafka实例在AWS主机名a.b.c.d上运行，我的hadoop名称节点在AWS主机名p.q.r.s上。出于开发/POC的目的，我们在运行kafka实例的同一个盒子中保持融合，即在a.b.c.d上。HDFS集群大小为500GB。但是对于集群大小为20-30TB的生产类型设置，是否建议在与KAFKA实例相同的盒子或名称节点盒子或单独的盒子中保持汇合？在这样的生产案例中，confluent需要多少单独的磁盘大小？最佳答案

amazon-web-services services section 的汇合 hadoop apache-kafka hdfs apache-kafka-connect

java - 使用 Apache Sqoop 从 MySQL 导入数据 - 错误 : No manager for connect string

我正在尝试将Mahout与外部数据源集成。我正在关注ApacheMahoutCookbook为此预订。我已经配置了Hadoop2.4、MySQL服务器并且我已经将一个虚拟数据库导入到mysql中。我还按照书中的步骤安装了ApacheSqoop，并在Sqoop库(sqoop/lib)中下载并部署了mysql-connector-java-5.1.30.jar我用ant命令构建了sqoop:antmvn-install构建顺利。我正在尝试使用书中所述的以下命令从mysql导入数据:sqoopimport-all-tables--connectjdbc:mysql/localohost/bb

connect manager sqoop apache java mysql hadoop

apache - TSocket : Could not connect to server (Connection timed out [110])

关注这篇文章http://nousefor.net/55/2011/12/php/hbase-and-hive-thrift-php-client/我下载了HBase和Thriftphp客户端包并将它们放在我的ubuntu机器上的var/www/thrift/目录中，并编写了这个简单的客户端代码来打开连接并显示数据库中的表。但是服务器不断返回错误消息“连接超时[110]”。有任何想法吗..？？此外，当使用$transport=newTSocket('localhost',10001);在服务器(AmazonEC2)上运行时代码执行良好open();}catch(Exception$ex

Connection TSocket section thrift transport apache hadoop hbase hive

java - createBlockOutputStream 中的异常 java.io.IOException : Bad connect ack with firstBadLink

知道为什么我会收到此错误吗？10.0.1.193是我的从属虚拟机之一。ubuntu@anmol-vm1-new:/home/hadoop/yarnpp$hadoopfs-puttez-0.4.1-incubating/*/apps/tez-0.4.1-incubating15/11/3002:53:28WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable15/11/3002:54:40INFOhdfs.DFSC

createBlockOutputStream java DFSOutputStream section hadoop hdfs microsoft-distributed-file-system apache-tez

hadoop - Kafka Connect HDFS 接收器与 Azure Blob 存储

我想使用KafkaHDFS接收器连接器连接到AzureBlob存储。到目前为止我已经做了:设置kafka-connect属性:hdfs.url=wasbs://hadoop.conf.dir={hadoop_3_home}/etc/hadoop/hadoop.home={hadoop_3_home}并且在core-site.xml中添加了对wasbs的支持:fs.wasbs.implorg.apache.hadoop.fs.azure.NativeAzureFileSystem导出HADOOP_CLASSPATH变量，添加到PATH但是无论如何，Hadoop找不到类-NativeAzu

Connect hadoop code section apache-kafka azure-blob-storage apache-kafka-connect

java - DataNode 无法连接名称节点 - "org.apache.hadoop.ipc.Client: Retrying connect to server"

我已经部署了一个具有1个名称节点和2个数据节点的Hadoop3.1.2集群。NameNode已UP，secondaryNameNode和ResourceManager也up为MasterNode，但DataNode无法连接NameNode，因此没有显示容量。我一直在尝试找出错误可能是什么，但到目前为止还没有成功。删除了域解析，因为我遇到了奇怪的错误:WARNING:AttemptingtostartallApacheHadoopdaemonsashadoopin10seconds.WARNING:Thisisnotarecommendedproductiondeploymentconf

amp DataNode hadoop server apache java hdfs hadoop2

hadoop - 画面 : Error while using Impala to connect to Cloudera Hadoop

我正在研究如何使用Tableau连接到ClouderaHadoop。我提供服务器和端口详细信息并使用“Impala”进行连接。我能够成功连接，选择默认模式并选择所需的表。在此之后，当我将维度或度量拖放到“网格”上的行/列时，出现以下错误:[Cloudera][Hardy](22)来自ThriftHiveClient的错误:查询返回非零代码:10025，原因:失败:SemanticException[错误10025]:第1:7行表达式不在GROUPBY键中''.但是，如果我尝试使用与“HiveServer”(而不是“Impala”)相同的连接类型，它工作正常。我们不确定哪里出错了。非常感

Cloudera 画面 section Impala hadoop tableau-api

python - Spark 异常 : Python worker did not connect back in time

我正在尝试将Python作业提交到2个工作节点的Spark集群，但我一直看到以下问题，最终导致spark-submit失败:15/07/0421:30:40WARNscheduler.TaskSetManager:Losttask0.1instage0.0(TID2,workernode0.rhom-spark.b9.internal.cloudapp.net):org.apache.spark.SparkException:Pythonworkerdidnotconnectbackintimeatorg.apache.spark.api.python.PythonWorkerFact

connect python spark apache java hadoop apache-spark hadoop-yarn pyspark

hadoop - Kafka 主题与 Kafka Connect to HDFS 合并

是否可以配置KafkaConnect的HDFS连接器以将多个单独的主题写入/合并到一个文件中？主题将包含具有相同avro架构的消息，我希望KafkaConnect充当这些Kafka主题和HDFS之间的中介。最坏的情况是主题内容在写入HDFS后可能会合并，但我觉得使用HDFS连接器应该可以实现更简洁、更快速的方法。最佳答案现在HDFS连接器会将每个主题写入其自己的目录。你可以在写完之后在HDFS中组合目录，或者在写到HDFS之前在Kafka中组合topic，但是connector本身是不会做的。

Kafka Connect section HDFS hadoop apache-kafka confluent-platform apache-kafka-connect