草庐IT

excel-udf

全部标签

scala - 尝试从 UDF 执行 spark sql 查询

我正在尝试使用scala在spark框架中编写一个内联函数,它将接受一个字符串输入,执行一个sql语句并返回一个字符串值valtestfunc:(String=>String)=(arg1:String)=>{valk=sqlContext.sql("""selectc_codefromr_c_tblwherex_nm="something"""")k.head().getString(0)}我正在将此Scala函数注册为UDFvaltestFunc_test=udf(testFunc)我在配置单元表上有一个数据框valdf=sqlContext.table("some_table")

hadoop - 创建一个使用可以返回列名的 UDF 函数的 hiveQL 查询

我想创建一个HiveUDF函数,该函数根据某些值返回特定的列名,例如retreivecol(age)。如果年龄为20,则返回要在选择查询中使用的列名列表,例如“name,email,fbuserid、friend列表等,如果年龄小于20岁,则单独返回“姓名”。所以我希望我的HIVEQL查询看起来像从User_Data中选择retreivecol(age);上面的查询只打印列的名称,如“name、email、fbuserid、friendslist”等,而不是将它们视为列名称并基于相同的名称进行过滤。感谢任何指针。 最佳答案 我不确定

Python 潮流周刊#17:Excel 终于支持 Python 了、Meta 重磅开源新项目、Mojo 新得 1 亿美元融资

这里每周分享优质的Python、AI及通用技术内容,大部分为英文。标题取自其中两则分享,不代表全部内容都是该主题,特此声明。精心筛选国内外的250+信息源,为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景:帮助所有读者精进Python技术,并增长职业和副业的收入。本周的大新闻一个接一个啊!微软在Python之父Guido的帮助下,在Excel中集成了Python;Meta开源了CodeLlama,让程序员看到拥有自己编码助手的福音;Mojo宣布1亿美元的巨额融资,势头之猛让人惊叹。本期周刊还分享了几则关于FastAPI的内容、大量学习资源、100多个新鲜出炉

map - PIG UDF 加载 .gz 文件失败

我编写了UDF以将文件加载到Pig中。它适用于加载文本文件,但是,现在我还需要能够读取.gz文件。我知道我可以解压缩文件然后处理,但我只想读取.gz文件而不解压缩它。我的UDF从LoadFunc扩展,然后在我的自定义输入文件MyInputFileextendsTextInputFormat中。我还实现了MyRecordReader。只是想知道extendsTextInputFormat是否是问题所在?我尝试了FileInputFormat,仍然无法读取文件。有人写过UDF从.gz文件读取数据吗? 最佳答案 TextInputForm

hadoop - 在 cloudera impala 1.2.3 中使用 date_sub() udf 从 View 查询时出现连接重置错误

我已经编写了一个查询来在Impala中创建一个View。该View包含一个字段record_date,它是格式为yyyy-MM-ddhh:mm:ss的字符串数据类型。在尝试执行使用date_sub('2014-01-3000:00:00',1)提取先前日期记录的查询时,我收到如下错误:错误:与impalad通信时出错:TSocket读取0个字节。如果我尝试对创建的表而不是View执行相同的查询,我会得到正确的输出。感谢任何帮助。谢谢 最佳答案 这是一个错误,请升级到最新版本的Impala,因为它似乎从1.2.3开始就已修复,这是很旧

hadoop - 在 hadoop Map reduce 中读取带有工作表的 Excel 文件

我有一个excel文件,在一个文件中包含大约20张纸。我想通过hadoop中的mapreduce程序读取它。任何人都可以帮助我解决这个问题。请建议我如何阅读它...提前致谢。 最佳答案 您可能会发现ApacheTika库可用于您的映射器以解析您的Excel文件。 关于hadoop-在hadoopMapreduce中读取带有工作表的Excel文件,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

C# 如何读取Excel文件

当处理Excel文件时,从中读取数据是一个常见的需求。通过读取Excel数据,可以获取电子表格中包含的信息,并在其他应用程序或编程环境中使用这些数据进行进一步的处理和分析。本文将分享一个使用免费库来实现C#中读取Excel数据的方法。具体如下:准备工作:在VS中通过Nuget安装免费Excel读写库–FreeSpire.XLSfor.NET.或者下载产品包后手动导入dll。实现思路:导入Spire.Xls命名空间加载Excel文件获取指定工作表,然后再获取其中包含数据的区域遍历数据区域中的行和列通过Worksheet.Range.Value属性,以字符串形式返回单元格内的数字或文本。读取Exc

java - Hive UDF 将 array<string> 作为参数传递

我正在尝试通过collect_set将数组传递给HiveUDF:SELECT...,collect_set(...)FROM...;我的HiveUDF想要接受这个数组并将每个数组元素的第一个字母附加到输出字符串:publicclassMyUDFextendsUDF{publicStringevaluate(String[]array){Stringoutput="";//Checkforvalidargumentif(array==null)returnoutput;try{//Addfirstcharacterofeveryarrayelementtooutputstringfor(

hadoop - 从 Pig UDF Java 类中的分布式缓存访问文件,Amazon EMR

我正在尝试访问UDF中的文件(sample.txt)。我想将该文件放在分布式缓存中并从那里使用它。我正在使用亚马逊EMR来运行Pig作业。我在创建集群时使用EMRbootstrap-action将文件(sample.txt)复制到HDFS。bootstrap.sh(将文件从s3复制到hdfs)hadoopfs-copyToLocals3n://s3_path/sample.txt/mnt/sample.txtUsingSample.java(使用sample.txt的UDF)publicclassUsingSampleextendsEvalFunc{publicStringuseSam

java - 鉴于我正在将 DataBag 溢出到磁盘,为什么这个 Pig UDF 会导致 "Error: Java heap space"?

这是我的UDF:publicDataBagexec(Tupleinput)throwsIOException{AggregateaggregatedOutput=null;intspillCount=0;DataBagoutputBag=BagFactory.newDefaultBag();DataBagvalues=(DataBag)input.get(0);for(Iteratoriterator=values.iterator();iterator.hasNext();){Tupletuple=iterator.next();//spillCount++;...if(someco