草庐IT

excel-udf

全部标签

hadoop - Flume有没有Excel源

我只是想知道是否有人遇到过需要将数据从excel导入或读取到Hadoop的场景?有没有FlumeExcel之类的源码?顺便说一句,我知道我可以将excel文件转换为csv然后处理它。真的只是想在这里进一步探索水槽源。 最佳答案 SpoolingDirectorySource可以配置为从Excel文件(或任何其他格式)读取。如文档所述,此源可以配置为EventDeserializer-实现将文件解析为事件的逻辑的类。我不认为有人已经实现了这样的反序列化器,但使用ApachePOI库似乎很容易完成任务。

hadoop - 带参数的 Hive UDF

我想编写一个可以接受常量参数的自定义UDF(UDAF/UDTF)。比如我要写一个函数MAX(COL,i),其中COL是求最大值的集合,i是位置(即i=1,求最大值,i=2,找到第二高等),使得Hive查询看起来像:SELECTMAX(value,2)FROMtable;这不仅适用于MAX,所以我需要一种能够执行此操作的通用方法,因此无法从已排序的集合中进行排序和选择。 最佳答案 您可以使用ConstantObjectInspectors获取作为参数传递的常量值。在GenericUDF的initialize()方法或GenericUD

64位WIN11安装MYSQL、ODBC链接工具并进行EXCEL数据连接

64位WIN11安装MYSQL、ODBC链接工具并进行EXCEL数据连接安装MYSQL/WORKBENTCH/ODBC,并导入.sql脚本数据进库,与EXCEL进行链接总述一、安装MYSQL8.0.30二、安装MYSQLworkbench8.0.33三、安装ODBC8.1.0四、EXCEL2019操作安装MYSQL/WORKBENTCH/ODBC,并导入.sql脚本数据进库,与EXCEL进行链接总述目的:安装MYSQL+MYSQLWORKBENTCH+MYSQLODBC,并将外部.sql脚本文件内容通过MYSQLWORKBENTCH导入数据库,然后利用MYSQLODBC将此内容导入EXCEL。

hadoop - 在 udf 中加载外部属性文件

当写一个UDF比方说一个EvalFunc时,是否可以传递一个配置文件properties=newProperties();properties.load(newFileInputStream("conf/config.properties"));在Hadoop模式下运行时?最好的,将 最佳答案 这是从HadoopDFS读取和写入文件的简单示例来自http://wiki.apache.org/hadoop/HadoopDfsReadWriteExample也许您可以在其中找到一些有用的代码来完成您的工作。以下是我的代码,它成功地在ha

java - 从 HIVE UDF 读取 HDFS 文件 - 执行错误,返回代码 101 FunctionTask。无法初始化类

我们一直在尝试创建一个简单的HiveUDF来屏蔽Hive表中的某些字段。我们正在使用一个外部文件(放在HDFS上)来抓取一段文本,以便对屏蔽过程进行加盐处理。看起来我们一切正常,但是当我们尝试创建外部函数时它抛出错误:org.apache.hive.service.cli.HiveSQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode-101fromorg.apache.hadoop.hive.ql.exec.FunctionTask.Couldnotinitializeclassco.co

excel - 创建 Hive 表并从 xls 文件插入数据

我从主管那里接到了一个项目任务,他声称可以在HDInsight(适用于Windows)中使用Hive来查询两种不同的文件类型,然后从中提取数据。其中一个文件是.xls,另一个是.csv文件。我已经设法使用VS将这两个文件上传到Hadoop集群,然后尝试从.xls文件创建一个Hive表(我之前使用的教程使用.csv文件与Hive一起工作)但是我在尝试时不断收到.xls文件的“失败”错误。我尝试了以下示例代码来创建表格、定界、字段终止(其中我尝试了几个都没有成功)、文件类型(也不确定这里还有什么用)和目标位置。DROPTABLEIFEXISTStable1;CREATEEXTERNALTA

excel-嵌套条件格式

我只是想知道这是否是嵌套很多条件的正确方法。它确实有效,看起来可以更简单。=IF(H13>0,IF(H14>0,IF(H15>0,IF(H16>0,IF(H17>0,IF(H18>0,IF(H19>0,"Yes","No"),"No"),"No"),"No"),"No"),"No"),"No")看答案以上公式可以写为=IF(COUNTIF(H13:H19,">0")=7,"Yes","No")

java - 带有 datafu : Cannot resolve UDF's 的 apache PIG

我正在尝试从这里开始快速入门:http://datafu.incubator.apache.org/docs/datafu/getting-started.html我几乎尝试了所有方法,但我确定这一定是我的错。我已经试过了:导出PIG_HOME、CLASSPATH、PIG_CLASSPATH使用-cpdatafu-pig-incubating-1.3.0.jar启动pig在本地和hdfs中注册datafu-pig-incubating-1.3.0.jar=>都成功(至少没有显示错误)没有任何帮助在pig身上试试这个:registerdatafu-pig-incubating-1.3.0

hadoop - 如何使用 Pyspark 从 Hive Context 调用用 Java 编写的 Hive UDF

我在配置单元中使用getLastProcessedVal2UDF从表中获取最新的分区。这个UDF是用java编写的。我想通过配置单元上下文使用来自pyspark的相同UDF。dfsql_sel_nxt_batch_id_ini=sqlContext.sql('''selectl4_xxxx_seee.**getLastProcessedVal2**("/data/l4/work/hive/l4__stge/proctl_stg","APP_AMLMKTE_L1","L1_AMLMKT_MDWE","TRE_EXTION","2.1")''')错误:ERRORexec.FunctionR

hadoop - 如何读取 PIG UDF 中的静态文件

我是PIG和Hadoop的新手。我写了一个PIGUDF,它对String进行操作并返回一个字符串。我实际上使用了一个已经存在的jar中的类,它包含udf中的业务逻辑。类构造函数将2个文件名作为输入,用于构建一些用于处理输入的字典。如何让它在mapreduce模式下工作我尝试在pig本地模式下传递文件名它工作正常。但是我不知道如何让它在mapreduce模式下工作?分布式缓存能否解决问题?这是我的代码REGISTERtokenParser.jarREGISTERsampleudf.jar;DEFINETOKENPARSERcom.yahoo.sample.ParseToken('conf