草庐IT

pentaho-aggdesigner-algorithm

全部标签

algorithm - Mahout 基于内容的推荐引擎

我正在研究推荐问题(基于内容的推荐)。我在mongodb中以json格式设置了数据集。问题陈述有些项目有自己的属性,用户对每个属性都有一些偏好。现在我正在考虑根据项目的属性预测用户对项目x的喜爱程度,并比较用户对项目x具有的相同属性的偏好。我想建立一个推荐系统,根据用户的喜好向他们推荐商品。我正在考虑使用Mahout和CBAYES分类器算法来预测“用户A会喜欢多少项目x”。但是我还没有找到任何使用mahout实现CBAYES的示例和数据集。如果您有任何其他建议使用任何其他分类器算法,请推荐。 最佳答案 您可以使用余弦相似度来计算“用

将红移用作Pentaho PDI数据库存储库

我在PDICE7.0上运行Spoon,并试图首次设置我的数据库存储库。我能够使用SQLServer作为数据库存储库,但是我想知道是否可以将RedShiftServer用作数据库存储库。当我测试数据库连接时,运行良好。但是,当我尝试连接到存储库时,我会收到一条错误消息,说“您似乎没有与服务器连接。请检查所使用的路径,并确保服务器启动并运行并运行””((单击查看错误消息)我已经尝试更改JDBC驱动程序。我已经使用PostgreSQL驱动程序9.3和8.4进行了测试,还与Amazon的Redshift驱动程序进行了测试。有了所有这些选项,我收到了相同的消息。是否可以将红移作为我的数据库存储库?这是我

algorithm - 评估 MongoDB 聚合查询复杂度 : cost of $lookup

我正在评估涉及一些MongoDB聚合查询的算法的计算成本,因此我试图计算出我使用的各种运算符的成本,那么整个查询的成本将只是以下总和所有这些都是级联应用的。我上来就说$project、$match和$unwind的成本是O(n),n是集合中文档的数量,因为我没有任何索引所以我需要扫描所有文件。现在我的问题是:新的$lookup运算符的成本如何?它对两个集合执行左连接,所以我首先猜测它有点计算两个集合的笛卡尔积,因此成本应该类似于O(n*m),其中m是第二个集合的大小。我对吗?MongoDB会做一些更有效率的事情吗?您对这个主题有任何引用吗? 最佳答案

algorithm - 使用的是什么 Mongo 索引算法?二叉树?

我想知道MongoDB使用的是哪种内部索引算法。因为我有一些数据要存储,而每个文档(行)都有一个id,它可能是一个唯一的哈希值。(例如,由md5()或其他哈希算法生成)。所以,我想了解我应该使用哪种哈希方法来创建id,以便MongoDB可以快速索引它。:) 最佳答案 是的,mongoDB使用b-tree,documentation:Anindexisadatastructurethatcollectsinformationaboutthevaluesofthespecifiedfieldsinthedocumentsofacolle

algorithm - 在 mongodb 中使用索引的运行时

基于mongodbdocumentationensureIndex()函数仅在索引不存在时才创建索引。一旦一个集合在一个键上被索引,随机访问匹配该键的查询表达式指定的键很快。如果没有索引,MongoDB必须遍历每个文档来检查查询中指定键的值:db.things.find({j:2});//fast-usesindexdb.things.find({x:3});//slow-hastocheckallbecause'x'isn't这是否意味着第1行代码运行时是big_theta=1,第2行代码是big_theta=n? 最佳答案 Mo

algorithm - MongoDB 查找和删除算法复杂性

MongoDBfind操作和remove操作的big-o复杂度是多少。假设我的MongoDB集合中有n个字符串-'abc',我使用abc.find()查询集合'abc'以获取abc中的所有元素此操作的运行时复杂度是多少?此外,如果我执行abc.remove({"string":s},假设我的集合中有n个元素,运行时复杂度是多少? 最佳答案 您的问题取决于索引是否可以用于querycriteria您的find与否。如果可以使用索引,还取决于typeofindex:如果没有索引可用,可以押O(n)。在大多数情况下,索引是b-trees,

oracle - 使用 Pentaho Kettle 将字符串转换为 bool 值

我正在使用PentahoKettle将Oracle数据库移动到Mongo数据库。我已经成功地完成了几乎所有我想做的事情,但我还有最后一个问题。在oracle数据库中,他们有一个字段有两个状态:Y或N,而不是漂亮的bool值true和false。我想在转换中做一个映射来说明Y是true而N是false,但是Pentaho将它翻译成字符串,而不像真正的true和false。我有设置bool值的简单方法吗?提前致谢! 最佳答案 您可以在Meta-data面板上通过Selectvalues步骤更改类型。而且有效!但是,由于PDI中bool值

多目标鳟海鞘算法(Multi-objective Salp Swarm Algorithm,MSSA)求解微电网优化MATLAB

一、微网系统运行优化模型微电网优化模型介绍:微电网多目标优化调度模型简介_IT猿手的博客-CSDN博客参考文献:[1]李兴莘,张靖,何宇,等.基于改进粒子群算法的微电网多目标优化调度[J].电力科学与工程,2021,37(3):7二、多目标鳟海鞘算法MSSA多目标鳟海鞘算法(Multi-objectiveSalpSwarmAlgorithm,MSSA)由SeyedaliMirjalili等人于2017年提出。参考文献:S.Mirjalili,A.H.Gandomi,S.Z.Mirjalili,S.Saremi,H.Faris,S.M.Mirjalili,SalpSwarmAlgorithm:A

MySQL Pentaho通信链接错误ETL

当试图在该月的最后一天或该月的倒数第二天从DW加载一个月的数据时,在加载数据时,出现通信链接错误并停止正在运行的作业。由于这最后几组数据没有加载。关于使用的转换步骤:表输入->DBJOIN->流查询->表输出请帮忙解决这个问题。我们坚持这个..2019/01/1105:42:18-Tableinput.0-ERROR(version6.1.0.1-196,build1from2016-04-0712.08.49bybuildguy):Unexpectederrorclosingquery:org.pentaho.di.core.exception.KettleDatabaseExcep

mysql - 如何从 MYSQL 存储过程中检索 OUT 参数以在 Pentaho 数据集成(Kettle)中流式传输?

我无法使用PentahoKettle的过程调用步骤在输出流中获取MySQL过程调用的OUT参数。我在从MYSQL存储过程中检索OUT参数到流时遇到了很大的麻烦。我认为这可能是一种错误,因为它只发生在Integerout参数上,它适用于Stringout参数。我得到的异常(exception)是:InvalidvalueforgetLong()-'我认为参数设置正确,如您在ktr中所见。您可以通过这种方式复制错误:架构createschemaifnotexiststest;usetest;DROPPROCEDUREIFEXISTSprocedure_test;delimiter$$CRE