我正在尝试将csv数据提取到Hive数据库中。为此,我试过listFile-->FetchFile-->ConvertCSVToAvro-->ConvertAvroToOrc-->PutHDFScsv数据被转换为ORC格式,数据正在加载到HDFS。在此HDFS数据之上,我可以创建Hive外部表。现在,我想用putHiveQL处理器进行测试。为此,我需要将CSV数据转换为AVRO到JSON?ORC数据不能直接加载到Hive中?如果是,我们必须手动创建Hive表还是自动创建? 最佳答案 我们可以在NiFi中创建Hive表流本身。Conv
刚开始使用ApacheNifi。我正在尝试从oracle获取数据并将其放在HDFS中,然后在其之上构建一个外部配置单元表。问题是ExecuteSQL处理器以avro格式返回数据。无论如何,我能以可读的格式获取这些数据吗? 最佳答案 apachenifi还有一个“ConvertAvroToJSON”处理器。这可能会帮助您将其转换为可读格式。我们还真的需要让我们的内容查看器能够很好地呈现avro数据,这也会有所帮助。谢谢乔 关于oracle-Nifi中的ExecuteSQL处理器以avro格
我想使用apacheNiFi将一个处理器的结果作为输入传递给另一个处理器。我正在使用ExecuteSQL处理器从mysql获取值。我想将此结果动态传递给apachenifi中的SelectHiveQL处理器。 最佳答案 ExecuteSQL将结果集输出为Avro。如果你想单独处理每一行,你可以使用SplitAvro然后ConvertAvroToJson,或ConvertAvroToJson然后SplitJson.那时你可以使用EvaluateJsonPath将值提取到属性中(用于NiFiExpressionLanguage),在某些
我已经在我的Windows本地系统上安装了Apachenifi1.1.1。如何使用本地WindowsBox上安装的ApacheNifi实例连接到安装了Hadoop的远程Linux节点?另外,如何使用这些本地Nifi实例在安装了Hadoop的远程Linux节点上执行数据迁移事件?我在这些远程Hadoop集群上启用了Kerberos。 最佳答案 “Unsupportedmajor.minorversion”是因为ApacheNiFi1.x需要Java8,而您尝试使用Java7JVM启动它。你可以安装一个Java8JDK只供NiFi使用,
尝试以csv格式合并两个传入的流文件,并根据一些共同的header值准备一个组合的csv输出,其中包含来自这两个文件的数据。需要根据“creation_Date”和“Hour_of_Day”连接行,并根据“source_count”和“hive_count”之间的计算差异合并两个流文件。如果INPUT_2缺少某个creation_date/Hour_of_day而INPUT_1有我也需要包括它在“差异”标题下可能有一个“NOTAVAILABLE”。我如何在Nifi中实现这一点?有没有一种方法可以使用MergeContent加入并在输出文件上运行查询以生成差异?如有任何帮助,我们将不胜感
在nifi中,我需要将一堆json文件传输到HDFS。json文件有一个名为“creationDate”的字段,其中包含UNIX格式的日期。我需要使用其中的日期将文件汇集到以日期命名的HDFS目录,例如“2019-01-19”“2019-01-20”“2019-01-21”等。起初我使用“EvaluateJsonPath”处理器转到“PutHDFS”处理器。“Evaluate...”处理器将“creationDate”作为属性,将“${creationDate}”作为值。在PutHDFS处理器中,我为目录放置了“/${creationDate}”但后来我意识到json文件中的日期具有完
我的目标是使用NiFi将json/xml文件从Azure移动到GoogleCloudPlatform(GCP)>。在我所有的研发之后,我发现了一些可能有用的处理器。列表如下:获取文件放置文件putGCSObject-将数据放入GCPFoundthislinkasanalternativetogetfilesfromAzuresincethereisnoin-builtprocessoravailable上面的链接很复杂。所以根据我的目标,我走对了吗?我需要额外的处理器吗??以及在定义此流程时我需要进行的任何重要配置?请帮助我,因为我是新手并且刚刚开始使用NiFi
我有一个用例,我需要使用另一个流中的FlowFile。据我所知,所有流文件都保存到内容存储库中。因此,例如,我的第一个流程从DB读取数据,执行一些转换并放入Hive。我的第二个流需要获取那些转换后的流文件并将它们放到另一个地方或执行一些过滤等。如何从NiFi流中的内容repo中获取这些流文件? 最佳答案 你错了,流文件的内容被保存到内容存储库中。您无需查询内容存储库即可使用这些FlowFiles。我假设您正在使用PutHiveQL,因此只需为您的下一个流程使用success关系。示例:ExecuteSQL->(success)Tra
我想在NiFi的GetFile处理器中给出inputfolder的位置。根据NiFi,我提供的路径不正确。它仍然显示警告标志。我跟着这个link但它不能提供太多帮助。下面是我在GetFile处理器的inputpath属性中使用的路径:/browser//我什至试过下面的链接gs://或gs://browser/他们都没有帮助。按照Shu的建议,我创建了一个ListGCSBucket处理器并为其创建了一个新的GCPCredentialsService但是当我运行这个处理器时它给出了一个错误:com.google.cloud.storage.StorageException:NotFoun
我需要使用apachenifi将基于表名的多个csv文件提取到各自的配置单元表中。源json文件中的table_address数据应该转到hive中的table_address,其他表也类似。简而言之,需要将源json文件中的记录分成多个tablename.csv格式的csv文件,并加载到各自的hive表中。我正在使用的处理器消费kafka--->splitjson---->evaluatejsonpath---->updateattribute---->replacetext---->putfile来自kafkaGoldengatetrials消耗的源json文件的记录需要被分成多个