草庐IT

pipelines

全部标签

python - 属性错误 : lower not found; using a Pipeline with a CountVectorizer in scikit-learn

我有这样一个语料库:X_train=[['thisisandummyexample']['inrealitythislineisverylong']...['hereisalasttextinthetrainingset']]和一些标签:y_train=[1,5,...,3]我想按如下方式使用Pipeline和GridSearch:pipeline=Pipeline([('vect',CountVectorizer()),('tfidf',TfidfTransformer()),('reg',SGDRegressor())])parameters={'vect__max_df':(0.

python - 如何在 Sklearn Pipeline 中进行 Onehotencoding

我正在尝试对我的Pandas数据框的分类变量进行oneHotEncode,其中包括分类变量和连续变量。我意识到这可以使用pandas.get_dummies()函数轻松完成,但我需要使用管道以便稍后生成PMML文件。这是创建映射器的代码。我想要编码的分类变量存储在名为“dummies”的列表中。fromsklearn_pandasimportDataFrameMapperfromsklearn.preprocessingimportOneHotEncoderfromsklearn.preprocessingimportLabelEncodermapper=DataFrameMapper

python - 如何在 scikit-learn 的 `pipeline` 中使用自定义特征选择函数

假设我想通过交叉验证和使用pipeline类比较包含n>2个特征的特定(监督)数据集的不同降维方法。例如,如果我想试验PCA与LDA,我可以这样做:fromsklearn.cross_validationimportcross_val_score,KFoldfromsklearn.pipelineimportPipelinefromsklearn.naive_bayesimportGaussianNBfromsklearn.preprocessingimportStandardScalerfromsklearn.ldaimportLDAfromsklearn.decomposition

python - 从 S3 开始的 Luigi Pipeline

我的初始文件在AWSS3中.有人可以指出我需要如何在LuigiTask中设置它吗??我查看了文档并找到了luigi.S3但我不清楚该怎么做,然后我在网上搜索并只获得来自mortar-luigi的链接。并在luigi之上实现。更新按照为@matagus提供的示例(我也按照建议创建了~/.boto文件):#coding:utf-8importluigifromluigi.s3importS3Target,S3ClientclassMyS3File(luigi.ExternalTask):defoutput(self):returnS3Target('s3://my-bucket/19170

python - sklearn pipeline - 如何对不同的列应用不同的转换

我对sklearn中的管道很陌生,我遇到了这个问题:我有一个混合了文本和数字的数据集,即某些列只有文本,其余列有整数(或float)。我想知道是否可以构建一个管道,例如在文本特征上调用LabelEncoder()并在数字列上调用MinMaxScaler()。我在网络上看到的示例主要指向在整个数据集上使用LabelEncoder(),而不是在选定的列上使用。这可能吗?如果是这样,将不胜感激。 最佳答案 我通常采用的方法是使用FeatureUnion,使用FunctionTransformer提取相关列。重要提示:您必须使用def定义您

python - 从 sklearn 中的 Pipeline 对象返回系数

我用RandomizedSearchCV安装了一个Pipeline对象pipe_sgd=Pipeline([('scl',StandardScaler()),('clf',SGDClassifier(n_jobs=-1))])param_dist_sgd={'clf__loss':['log'],'clf__penalty':[None,'l1','l2','elasticnet'],'clf__alpha':np.linspace(0.15,0.35),'clf__n_iter':[3,5,7]}sgd_randomized_pipe=RandomizedSearchCV(estim

ruby-on-rails-3 - Vendors/assets/javascript 中的 Rails 3.2 Asset Pipeline + html5shiv.JS

看完这篇post(推荐阅读)关于不像(几乎)每个人那样直接从源代码使用HTML5Shiv,我正在尝试使用Rails3.2AssetPipeline在我的应用程序中包含html5shiv.js。我下载了缩小版和非缩小版的javascript。约定告诉您将第三方文件添加到vendors/assets文件夹中。我现在有两个问题:1)我应该将哪个版本(缩小版或未缩小版)添加到vendors/assets/javascrip文件夹?2)因为它是条件引用,我应该如何调用脚本?我不想将它添加到application.jslist中,因为我想将它作为一个单独的文件保存并且我想使用条件。我有点迷路了!任

java - redis pipeline默认执行一次多少条命令?

我正在使用jedis管道将一批数据插入到redis中。现在我面临一个困惑的问题。我想批处理特定大小,然后调用sync(),但似乎管道将大约每200条记录自动调用一次同步。这是我的代码,谁能告诉我是否有关于此的任何配置?publicclassRedisClusterTest{publicstaticvoidmain(Stringargs[])throwsIOException,InterruptedException{Stringhost=args[0];intport=Integer.valueOf(args[1]);intcnt=Integer.valueOf(args[2]);Je

Redis: Publish pipelined/batched messages - 获取管道/批处理消息

我正在使用redisson作为javaredis客户端。当我将包含多个.publish(msg)命令的批处理发送到Redis时,Redis是否将这些消息作为“批处理/管道”发送回订阅者在一个网络连接中以便redisson一次处理它们?问候,RoboFlax 最佳答案 redisson的工作人员mrniko回答没有。https://github.com/redisson/redisson/issues/1347#issuecomment-374651601 关于Redis:Publishp

python-2.7 - redis.py : How to flush all the queries in a pipeline

我有一个redis管道说:r=redis.Redis(...).pipline()假设我需要删除任何残留查询,如果它存在于管道中而不执行。有没有类似r.clear()的东西?我有搜索文档和源代码,但找不到任何东西。 最佳答案 命令列表只是一个python列表对象。您可以这样检查它:fromredisimportStrictRedisr=StrictRedis()pipe=r.pipeline()pipe.set('KEY1',1)pipe.set('KEY2',2)pipe.set('KEY3',3)pipe.command_sta