FLink_草庐IT

java - YARN 上 Spark 提交和 Flink 的 HDFS 路径

我使用clouderalivevm，我有一个hadoop和spral独立集群。现在我想用sparksubmit和flinkrun脚本提交我的工作。这也有效。但我的应用程序可以在hdfs中找到输入和输出文件的路径。我设置的路径如下:hdfs://127.0.0.1:50010/user/cloudera/outputs我从这个端口得到的信息:如何在java中设置hdfs的路径？？最好的问候，保罗最佳答案您不必设置DataNode主机的路径。在“概述”页面上，您将看到NameNode的连接信息，这也是您必须连接到的地方。

Spark Flink section 中设 stackoverflow java hadoop apache-spark hdfs apache-flink

amazon-web-services - 无法使用 StreamExecutionEnvironment 使用 S3 接收器写入 S3 - Apache Flink 1.1.4

我创建了一个简单的ApacheFlink项目，它将从Kafka主题读取数据并将该数据写入S3存储桶。运行该项目时我没有收到任何错误，它成功地从Kafka主题读取每条消息，但没有任何内容写入我的S3存储桶。没有错误，因此很难尝试调试正在发生的事情。下面是我的项目和我的配置。这仅在我使用StreamExecutionEnviornment时发生。如果我尝试使用常规批处理ExecutionEnviornment生成到S3，它就可以工作。S3测试Java程序publicclassS3Test{publicstaticvoidmain(String[]args)throwsException{/

StreamExecutionEnvironment amazon-web-services lt gt artifactId hadoop amazon-s3 aws-sdk apache-flink

hadoop - 如何在flink中的readHadoopFile中指定TypeInformation？

在从Hadoop获取输入文件时，我无法理解Flink中如何指定类型信息。我正在尝试这样做:DataSet>data=env.readHadoopFile(newTextInputFormat(),LongWritable.class,Text.class,args[0],job,);文档说它需要类型信息作为最后一个参数。但我无法理解我应该如何给予它。有人可以帮忙吗？最佳答案这是一个如何在Flink中使用HadoopInputFormat的简短示例:finalExecutionEnvironmentenv=ExecutionEnv

中指 TypeInformation section LongWritable readHadoopFile hadoop apache-flink

maven - 需要将 flink-hadoop-compatibility-2.10 jar 显式复制到 EMR 集群上的 ${FLINK-HOME}/lib 位置

我目前正在开发一个Flink应用程序，该应用程序使用一些Hadoop依赖项将数据写入S3位置。在本地环境中它运行良好，但是当我在EMR集群上部署这个Flink应用程序时，它抛出了与兼容性问题相关的异常。我得到的错误信息是java.lang.RuntimeException:无法加载类“org.apache.hadoop.io.Writable”的TypeInformation。您可能缺少“flink-hadoop-compatibility”依赖项。在org.apache.flink.api.java.typeutils.TypeExtractor.createHadoopWritab

flink-hadoop-compatibility compatibility code TypeExtractor flink maven hadoop apache-flink

hadoop - Apache Flink : MapPartition Vs. 平面图

我对MapPartition没有搞清楚。请有人解释一下Mappartition的一些用例以及它与FlatMap有何不同？最佳答案区别在于方法的接口(interface)以及它们的调用方式。FlatMapFunction的flatMap(INval,Collectorout)为每条记录调用方法并且可以发出0,1,或每个输入记录的更多记录。因此，一个FlatMapFunction逐一处理记录。它不应跨函数调用保持状态。MapPartitionFunction的mapPartition(Iterablevals,Collectorou

MapPartition hadoop code section apache-flink

hadoop - 使用 S3AFileSystem 的 Flink 不会从 S3 读取子文件夹

我们正在使用具有建议的S3AFileSystem配置的Flink1.2.0。当源是S3存储桶中的单个文件夹时，简单的流式处理作业会按预期工作。作业运行时没有错误——但不产生输出——当它的源是一个本身包含子文件夹的文件夹时。为清楚起见，下面是S3存储桶的模型。运行指向s3a://bucket/folder/2017/04/25/01/的作业会正确读取所有三个对象以及存储桶中出现的任何后续对象。将作业指向s3a://bucket/folder/2017/(或任何其他中间文件夹)会导致作业在不产生任何内容的情况下运行。在绝望中，我们尝试了[in|ex]包含尾随/的排列。.`--folder`

S3AFileSystem 3AFileSystem code flink folder hadoop amazon-s3 apache-flink flink-streaming

maven - Flink 错误 - org.apache.hadoop.ipc.RemoteException : Server IPC version 9 cannot communicate with client version 4

我正在尝试使用来自HDFS的文件运行flink作业。我创建了一个数据集如下-DataSource>visits=env.readHadoopFile(newTextInputFormat(),LongWritable.class,Text.class,Config.pathToVisits());我使用的是flink的最新版本——0.9.0-milestone-1-hadoop1(我也尝试过0.9.0-milestone-1)而我的Hadoop版本是2.6.0但是，当我尝试执行作业时出现以下异常。我搜索了类似的问题，它与客户端和hdfs之间的版本不兼容有关。Exceptioninthr

version RemoteException section hadoop apache maven apache-flink

java - flink 文档中给出的代码无法编译

我是flink的新手，正在尝试flinkdocumnetation中给出的一些代码。flink文档中的代码:publicclassWordWithCount{publicStringword;publiclongcount;publicWordWithCount(){}publicWordWithCount(Stringword,intcount){this.word=word;this.count=count;}}DataStream>wordCounts=env.fromElements(newWordWithCount("hello",1),newWordWithCount("w

flink java code WordwithCount section hadoop apache-flink

【学习笔记】尚硅谷大数据项目之Flink实时数仓---数据采集

尚硅谷大数据项目之Flink实时数仓一思考：1.为什么会有DWM（中间层）层3.实时数仓为什么要分层？2.实时数仓的数据是存在哪里的呢？4.为什么DIM层的数据放在了Hbase中，不放在kafka中5.Flume中的TailDirSource当文件更名之后会重新读取该文件造成重复6.Flume中的TailDirSource中的监控的文件名直接写死，对每天重新生成一个hive.log进行监控，是否可行？7.框架复习逻辑线，flume，kafka8.HQL的书写9.FlinkCDC和MaxWell和Canal的区别介绍1.课程重点2.课程特色3.技术要求1.电商实时数层分层介绍（ODS）1.1普通

大数时数 span class token 大数据学习 flink

hadoop - Flink - 方案 : hdfs 没有文件系统

我目前正在开发一个Flink1.4应用程序，它从Hadoop集群读取Avro文件。但是，在我的IDE上以本地模式运行它非常好。但是当我将它提交给JobmanagerFlink时，它总是失败并显示以下消息:java.io.IOException:ErroropeningtheInputSplithdfs://namenode/topics/CaseLocations/partition=0/CaseLocations+0+0000155791+0000255790.avro[0,16549587]:Couldnotfindafilesystemimplementationforschem

hadoop Flink apache 34 hdfs apache-flink avro