excel-udf_草庐IT

java - 使用 Hive UDF 计算加权因子

我是Hive的新手，我会帮助编写一个UDF函数来计算权重因子。计算看起来很简单。我有一个表，其中有一些值KEY,VALUE按GROUP_ID分组。对于一组中的每一行，我要计算权重因子，0和1之间的float，即组中该元素的权重。进入该组的权重因子之和必须为1。本例中值为距离，则权重与距离成反比。GROUP_ID|KEY|VALUE(DISTANCE)====================================110411131122213121453.......数学函数:1/(Xi*sum(1/Xk))从k=1到N)GROUP_ID|KEY|VALUE|WEIGHTING

PIG 脚本中的 Ruby UDF

我在Pig脚本中使用Ruby用户定义函数(UDF)。现在的要求是在UDF中使用“bunny”gem，所以我在所有数据节点上安装了那个gem。但是当我在PigUDF中访问该gem时，它在那里不可用。通过本地脚本，我可以在每台机器上使用该gem，但无法通过Pig脚本访问它。有什么帮助吗？最佳答案现在，我遇到了问题。Pig使用Jython和JRuby库来编译python和rubyudfs。所以如果我们单独在从节点上安装额外的模块没有任何区别。更好的方法是在这些场景中使用pig流功能。

Ruby PIG section stackoverflow hadoop gem

python - Pig脚本无法注册UDF

我有一个简单的Pig脚本，它使用我创建的PythonUDF。如果我删除UDF部分，脚本可以正常完成。但是当我尝试注册我的UDF时，出现以下错误:ERROR2997:EncounteredIOException.Filepig_test/py_udf_substr.pydoesnotexist这是我的UDF:@outputSchema("chararray")defget_fistsn(data,n):returndata[:n]这是我的Pig脚本:REGISTER'pig_test/py_udf_substr.py'USINGjythonaspyudf;A=load'pig_test/

python Pig section code pig_test hadoop apache-pig hue udf

hadoop - pig udf中是否有类似setup的功能

我想为一个文件添加mapDB，供pigUDF中的所有映射器使用。我怎样才能一次性设置这个mapDB对象？我们有没有在实例化pigudf时只调用一次的函数？谢谢。最佳答案在pig中，必须扩展EVALFUNC才能为记录的每一行调用udf。扩展了evalfunc的类可以通过在pig-script的开头定义来实例化。定义ex_argmy.udfs.Extract('true');这会导致类的实例化。关于hadoop-pigudf中是否有类似setup的功能，我们在StackOverflow

hadoop setup section pig stackoverflow apache-pig udf

hadoop - PIG UDF 中的表架构

在将数据加载到Hive表之前，我必须在平面文件中格式化数据。CF32|4711|00010101Z|+34.883|98562AS1D|N8594ãä|00|2该文件是管道分隔的，我需要在平面文件的不同列上应用不同的清理和格式化功能。我有Clean_Text、Format_Date、Format_TimeStamp、Format_Integer等多个函数。我的想法是将架构作为构造函数传递给我的UDF，并在pig中调用平面文件上的不同函数。A=LOAD'call_detail_records'USINGorg.apache.hcatalog.pig.HCatLoader();DESCRI

hadoop PIG code section schema hive apache-pig hcatalog udf

Pig UDF 中的 Java 依赖项

我写了一个使用JodaTime的UDF.我将其作为依赖项包含在pom.xml中。当我运行我的pig脚本时出现错误ERROR2998:Unhandledinternalerror.org.joda.time.LocalDate.parse(Ljava/lang/String;)Lorg/joda/time/LocalDate;我是java、maven和hadoop的新手。我如何将joda捆绑到我在集群上运行的jar(如c/c++中的静态链接)？这不是howtoincludeexternaljarfileusingPIG的副本因为我不能使用-D选项并且在pig脚本中注册JodaTime没有

Java Pig section stackoverflow joda hadoop apache-pig dependency-management udf

java - 带有外部库的 Hadoop Hive UDF

我正在尝试为HadoopHive编写一个UDF，用于解析用户代理。以下代码在我的本地机器上运行良好，但在Hadoop上我得到:org.apache.hadoop.hive.ql.metadata.HiveException:Unabletoexecutemethodpublicjava.lang.StringMyUDF.evaluate(java.lang.String)throwsorg.apache.hadoop.hive.ql.metadata.HiveExceptiononobjectMyUDF@64ca8bfbofclassMyUDFwitharguments{AllOccu

Hadoop java String code section hive user-agent udf

禁用ActiveX警告Excel Open

现在IAM在ExcelMacroProject中工作。我已经使用了一个ActiveX对象。当我打开excel文件时，它显示出弹出式弹出式弹出式控制可能不安全。贴上屏幕截图。我不想要此警告。请帮助警告屏幕截图看答案这是一个默认警告，这是一件好事-如果您不知道源，则不希望ActiveX控件实例化。宏观等等。等等。在下面File-＆gt;Options-＆gt;TrustCenter您可以使用这些设置进行访问并禁用警告。不过，我建议不要。请记住，每个用户都必须更改此设置，以使用启用宏的工作簿。

禁用警告 section 弹出式

使用aspose.cells读取Excel中的嵌入PDF文件

我正在尝试阅读PDF文件中的文件Excel并将其保存到本地aspose.cells为了C＃，但是当我阅读PDFobjectsourcefullname，它是“*。bin”，其他属性也没有显示任何标识其PDF的东西。这是怎么发生的以及如何解决这个问题？请帮助我，谢谢！！！看答案您可以识别OLE对象的类型班级识别器财产。这是一个16个字数。将其转换为GUID，然后检查Windows注册表中此GUID的含义。Guidguid=newGuid(wb.Worksheets[0].OleObjects[0].ClassIdentifier);以下屏幕截图解释了{B801CA65-A1FC-11D0-85A

嵌入读取 strong section 识别器

Pig 中的 Python UDF

我看过文档here，但我承认我觉得它相当缺乏。我想知道是否有人可以给我收集有关将PythonUDF合并到Pig中的示例。特别是在Pig0.10之前，不存在bool类型，但是FILTER操作需要将结果解析为bool值。如果我没有最新版本？是否无法从Python访问Algebraic、Accumulator和Filter接口(interface)？我也不能访问分布式缓存吗？Store/Load函数呢？最佳答案 PythonUDF非常有限。您不能使用Algebraic或Accumulator接口(interface)，也不能用Pytho

Python Pig section code hadoop mapreduce apache-pig