nifi_草庐IT

hadoop - 使用 NiFi 将 CSV 数据提取到 Hive 中

我正在尝试将csv数据提取到Hive数据库中。为此，我试过listFile-->FetchFile-->ConvertCSVToAvro-->ConvertAvroToOrc-->PutHDFScsv数据被转换为ORC格式，数据正在加载到HDFS。在此HDFS数据之上，我可以创建Hive外部表。现在，我想用putHiveQL处理器进行测试。为此，我需要将CSV数据转换为AVRO到JSON？ORC数据不能直接加载到Hive中？如果是，我们必须手动创建Hive表还是自动创建？最佳答案我们可以在NiFi中创建Hive表流本身。Conv

oracle - Nifi 中的 ExecuteSQL 处理器以 avro 格式返回数据

刚开始使用ApacheNifi。我正在尝试从oracle获取数据并将其放在HDFS中，然后在其之上构建一个外部配置单元表。问题是ExecuteSQL处理器以avro格式返回数据。无论如何，我能以可读的格式获取这些数据吗？最佳答案 apachenifi还有一个“ConvertAvroToJSON”处理器。这可能会帮助您将其转换为可读格式。我们还真的需要让我们的内容查看器能够很好地呈现avro数据，这也会有所帮助。谢谢乔关于oracle-Nifi中的ExecuteSQL处理器以avro格

ExecuteSQL oracle section stackoverflow hadoop bigdata apache-nifi avro

hadoop - 如何使用 apache nifi 将值从一个处理器动态传递到另一个处理器

我想使用apacheNiFi将一个处理器的结果作为输入传递给另一个处理器。我正在使用ExecuteSQL处理器从mysql获取值。我想将此结果动态传递给apachenifi中的SelectHiveQL处理器。最佳答案 ExecuteSQL将结果集输出为Avro。如果你想单独处理每一行，你可以使用SplitAvro然后ConvertAvroToJson,或ConvertAvroToJson然后SplitJson.那时你可以使用EvaluateJsonPath将值提取到属性中(用于NiFiExpressionLanguage)，在某些

传递 hadoop nifi apache docs hive apache-nifi

hadoop - 如何使用本地 Windows Box 上安装的 Apache Nifi 实例连接到安装了 Hadoop 的远程 Linux 节点？

我已经在我的Windows本地系统上安装了Apachenifi1.1.1。如何使用本地WindowsBox上安装的ApacheNifi实例连接到安装了Hadoop的远程Linux节点？另外，如何使用这些本地Nifi实例在安装了Hadoop的远程Linux节点上执行数据迁移事件？我在这些远程Hadoop集群上启用了Kerberos。最佳答案 “Unsupportedmajor.minorversion”是因为ApacheNiFi1.x需要Java8，而您尝试使用Java7JVM启动它。你可以安装一个Java8JDK只供NiFi使用，

Windows hadoop section kerberos apache-nifi

hadoop - Nifi 在特定的通用 header 上加入两个 CSV 流文件

尝试以csv格式合并两个传入的流文件，并根据一些共同的header值准备一个组合的csv输出，其中包含来自这两个文件的数据。需要根据“creation_Date”和“Hour_of_Day”连接行，并根据“source_count”和“hive_count”之间的计算差异合并两个流文件。如果INPUT_2缺少某个creation_date/Hour_of_day而INPUT_1有我也需要包括它在“差异”标题下可能有一个“NOTAVAILABLE”。我如何在Nifi中实现这一点？有没有一种方法可以使用MergeContent加入并在输出文件上运行查询以生成差异？如有任何帮助，我们将不胜感

hadoop header 2018 section 08 apache-nifi hortonworks-data-platform

hadoop - 如何使用Nifi表达式语言将日期更改为文件夹路径？

在nifi中，我需要将一堆json文件传输到HDFS。json文件有一个名为“creationDate”的字段，其中包含UNIX格式的日期。我需要使用其中的日期将文件汇集到以日期命名的HDFS目录，例如“2019-01-19”“2019-01-20”“2019-01-21”等。起初我使用“EvaluateJsonPath”处理器转到“PutHDFS”处理器。“Evaluate...”处理器将“creationDate”作为属性，将“${creationDate}”作为值。在PutHDFS处理器中，我为目录放置了“/${creationDate}”但后来我意识到json文件中的日期具有完

hadoop Nifi section creationDate expression etl apache-nifi

azure - 使用 NiFi 从 Azure 到 Google Cloud Platform 的数据流

我的目标是使用NiFi将json/xml文件从Azure移动到GoogleCloudPlatform(GCP)>。在我所有的研发之后，我发现了一些可能有用的处理器。列表如下:获取文件放置文件putGCSObject-将数据放入GCPFoundthislinkasanalternativetogetfilesfromAzuresincethereisnoin-builtprocessoravailable上面的链接很复杂。所以根据我的目标，我走对了吗？我需要额外的处理器吗？？以及在定义此流程时我需要进行的任何重要配置？请帮助我，因为我是新手并且刚刚开始使用NiFi

Platform Google code section Azure hadoop google-cloud-platform bigdata apache-nifi

hadoop - NiFi 如何从 NiFi Flow 查询内容存储库

我有一个用例，我需要使用另一个流中的FlowFile。据我所知，所有流文件都保存到内容存储库中。因此，例如，我的第一个流程从DB读取数据，执行一些转换并放入Hive。我的第二个流需要获取那些转换后的流文件并将它们放到另一个地方或执行一些过滤等。如何从NiFi流中的内容repo中获取这些流文件？最佳答案你错了，流文件的内容被保存到内容存储库中。您无需查询内容存储库即可使用这些FlowFiles。我假设您正在使用PutHiveQL，因此只需为您的下一个流程使用success关系。示例:ExecuteSQL->(success)Tra

储库 NiFi section code hadoop apache-nifi hortonworks-data-platform hortonworks-dataflow

hadoop - Google Cloud Platform for NiFi 数据路径

我想在NiFi的GetFile处理器中给出inputfolder的位置。根据NiFi，我提供的路径不正确。它仍然显示警告标志。我跟着这个link但它不能提供太多帮助。下面是我在GetFile处理器的inputpath属性中使用的路径:/browser//我什至试过下面的链接gs://或gs://browser/他们都没有帮助。按照Shu的建议，我创建了一个ListGCSBucket处理器并为其创建了一个新的GCPCredentialsService但是当我运行这个处理器时它给出了一个错误:com.google.cloud.storage.StorageException:NotFoun

Platform hadoop code noreferrer noopener google-cloud-platform bigdata apache-nifi

hadoop - 如何使用 apache nifi 将多个 json 文件加载到具有正确映射的多个配置单元表？

我需要使用apachenifi将基于表名的多个csv文件提取到各自的配置单元表中。源json文件中的table_address数据应该转到hive中的table_address，其他表也类似。简而言之，需要将源json文件中的记录分成多个tablename.csv格式的csv文件，并加载到各自的hive表中。我正在使用的处理器消费kafka--->splitjson---->evaluatejsonpath---->updateattribute---->replacetext---->putfile来自kafkaGoldengatetrials消耗的源json文件的记录需要被分成多个

配置单 hadoop section strong code hive bigdata apache-nifi