excel-udf

hadoop - Flume有没有Excel源

我只是想知道是否有人遇到过需要将数据从excel导入或读取到Hadoop的场景？有没有FlumeExcel之类的源码？顺便说一句，我知道我可以将excel文件转换为csv然后处理它。真的只是想在这里进一步探索水槽源。最佳答案 SpoolingDirectorySource可以配置为从Excel文件(或任何其他格式)读取。如文档所述，此源可以配置为EventDeserializer-实现将文件解析为事件的逻辑的类。我不认为有人已经实现了这样的反序列化器，但使用ApachePOI库似乎很容易完成任务。

hadoop - 带参数的 Hive UDF

我想编写一个可以接受常量参数的自定义UDF(UDAF/UDTF)。比如我要写一个函数MAX(COL,i)，其中COL是求最大值的集合，i是位置(即i=1，求最大值，i=2，找到第二高等)，使得Hive查询看起来像:SELECTMAX(value,2)FROMtable;这不仅适用于MAX，所以我需要一种能够执行此操作的通用方法，因此无法从已排序的集合中进行排序和选择。最佳答案您可以使用ConstantObjectInspectors获取作为参数传递的常量值。在GenericUDF的initialize()方法或GenericUD

hadoop Hive section ConstantObjectInspector code apache-pig user-defined-functions user-defined-aggregate

64位WIN11安装MYSQL、ODBC链接工具并进行EXCEL数据连接

64位WIN11安装MYSQL、ODBC链接工具并进行EXCEL数据连接安装MYSQL/WORKBENTCH/ODBC,并导入.sql脚本数据进库，与EXCEL进行链接总述一、安装MYSQL8.0.30二、安装MYSQLworkbench8.0.33三、安装ODBC8.1.0四、EXCEL2019操作安装MYSQL/WORKBENTCH/ODBC,并导入.sql脚本数据进库，与EXCEL进行链接总述目的：安装MYSQL+MYSQLWORKBENTCH+MYSQLODBC，并将外部.sql脚本文件内容通过MYSQLWORKBENTCH导入数据库，然后利用MYSQLODBC将此内容导入EXCEL。

连接安装 xff xff0c xff0 mysql excel 数据库

hadoop - 在 udf 中加载外部属性文件

当写一个UDF比方说一个EvalFunc时，是否可以传递一个配置文件properties=newProperties();properties.load(newFileInputStream("conf/config.properties"));在Hadoop模式下运行时？最好的，将最佳答案这是从HadoopDFS读取和写入文件的简单示例来自http://wiki.apache.org/hadoop/HadoopDfsReadWriteExample也许您可以在其中找到一些有用的代码来完成您的工作。以下是我的代码，它成功地在ha

中加 hadoop section code user-defined-functions apache-pig

java - 从 HIVE UDF 读取 HDFS 文件 - 执行错误，返回代码 101 FunctionTask。无法初始化类

我们一直在尝试创建一个简单的HiveUDF来屏蔽Hive表中的某些字段。我们正在使用一个外部文件(放在HDFS上)来抓取一段文本，以便对屏蔽过程进行加盐处理。看起来我们一切正常，但是当我们尝试创建外部函数时它抛出错误:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode-101fromorg.apache.hadoop.hive.ql.exec.FunctionTask.Couldnotinitializeclassco.co

FunctionTask java apache hadoop hive hue

excel - 创建 Hive 表并从 xls 文件插入数据

我从主管那里接到了一个项目任务，他声称可以在HDInsight(适用于Windows)中使用Hive来查询两种不同的文件类型，然后从中提取数据。其中一个文件是.xls，另一个是.csv文件。我已经设法使用VS将这两个文件上传到Hadoop集群，然后尝试从.xls文件创建一个Hive表(我之前使用的教程使用.csv文件与Hive一起工作)但是我在尝试时不断收到.xls文件的“失败”错误。我尝试了以下示例代码来创建表格、定界、字段终止(其中我尝试了几个都没有成功)、文件类型(也不确定这里还有什么用)和目标位置。DROPTABLEIFEXISTStable1;CREATEEXTERNALTA

excel Hive section https csv hadoop hiveql

excel-嵌套条件格式

我只是想知道这是否是嵌套很多条件的正确方法。它确实有效，看起来可以更简单。=IF(H13>0,IF(H14>0,IF(H15>0,IF(H16>0,IF(H17>0,IF(H18>0,IF(H19>0,"Yes","No"),"No"),"No"),"No"),"No"),"No"),"No")看答案以上公式可以写为=IF(COUNTIF(H13:H19,">0")=7,"Yes","No")

嵌套条件 section IF No

java - 带有 datafu : Cannot resolve UDF's 的 apache PIG

我正在尝试从这里开始快速入门:http://datafu.incubator.apache.org/docs/datafu/getting-started.html我几乎尝试了所有方法，但我确定这一定是我的错。我已经试过了:导出PIG_HOME、CLASSPATH、PIG_CLASSPATH使用-cpdatafu-pig-incubating-1.3.0.jar启动pig在本地和hdfs中注册datafu-pig-incubating-1.3.0.jar=>都成功(至少没有显示错误)没有任何帮助在pig身上试试这个:registerdatafu-pig-incubating-1.3.0

resolve datafu pig section java hadoop apache-pig apache-datafu

hadoop - 如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF

我在配置单元中使用getLastProcessedVal2UDF从表中获取最新的分区。这个UDF是用java编写的。我想通过配置单元上下文使用来自pyspark的相同UDF。dfsql_sel_nxt_batch_id_ini=sqlContext.sql('''selectl4_xxxx_seee.**getLastProcessedVal2**("/data/l4/work/hive/l4__stge/proctl_stg","APP_AMLMKTE_L1","L1_AMLMKT_MDWE","TRE_EXTION","2.1")''')错误:ERRORexec.FunctionR

Hive 编写 code section pyspark hadoop apache-spark apache-spark-sql

hadoop - 如何读取 PIG UDF 中的静态文件

我是PIG和Hadoop的新手。我写了一个PIGUDF，它对String进行操作并返回一个字符串。我实际上使用了一个已经存在的jar中的类，它包含udf中的业务逻辑。类构造函数将2个文件名作为输入，用于构建一些用于处理输入的字典。如何让它在mapreduce模式下工作我尝试在pig本地模式下传递文件名它工作正常。但是我不知道如何让它在mapreduce模式下工作？分布式缓存能否解决问题？这是我的代码REGISTERtokenParser.jarREGISTERsampleudf.jar;DEFINETOKENPARSERcom.yahoo.sample.ParseToken('conf

hadoop PIG section stackoverflow 下工 apache-pig

74 75 767778 79 80