pd4ml

python - 从 Azure ML 中的 pyodbc 连接到 Azure SQL 数据库的驱动程序的名称是什么？

我正在尝试创建一个“Reader”替代方案，以使用AzureML中的“执行python脚本”模块从AzureSQL数据库读取数据。在这样做的同时，我正在尝试使用pyodbc库连接到AzureSql。这是我的代码:defazureml_main(dataframe1=None,dataframe2=None):importpyodbcimportpandasaspdconn=pyodbc.connect('DRIVER={SQLServer};SERVER=server.database.windows.net;DATABASE=db_name;UID=user;PWD=Password

Azure 驱动 code 39 section python pyodbc azure-sql-database azure-machine-learning-studio cortana-intelligence

Python pandas : pd. options.display.mpl_style = 'default' 导致图形崩溃

一切都在标题中。如果我没有在我的python脚本的开头设置此选项，我的图表会正确显示，否则它会打开图表窗口但直接关闭它并结束运行。我使用的是pandas0.14.0和matplotlib1.3.0。有人看过吗？如果需要，您可以在下面查看我的代码。importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt#pd.options.display.mpl_style='default'df=pd.DataFrame(np.random.randn(1000,4),index=pd.date_range('1/1/2000',peri

amp mpl_style section pandas style python matplotlib

python - 在 Spark ML 中创建自定义交叉验证

我不熟悉Spark和PySpark数据框以及机器学习。如何为ML库创建自定义交叉验证。例如，我想改变训练折叠的形成方式，例如分层拆分。这是我当前的代码numFolds=10predictions=[]lr=LogisticRegression()\.setFeaturesCol("features")\.setLabelCol('label')#GridsearchonLRmodellrparamGrid=ParamGridBuilder()\.addGrid(lr.regParam,[0.01,0.1,0.5,1.0,2.0])\.addGrid(lr.elasticNetParam

中创自定 section indexOfStratifiedSplits python scala apache-spark apache-spark-mllib

python - gcloud ml-engine 本地预测 RuntimeError : Bad magic number in . pyc 文件

我的目标是在谷歌云机器学习引擎上做出预测。我在linuxubuntu16.04LT上按照Googleinstructions安装了gcloudsdk。.我已经有一个经过机器学习训练的模型。我使用python版本anacondapython3.5。我跑:gcloudml-enginelocalpredict--model-dir={MY_MODEL_DIR}--json-instances={MY_INPUT_JSON_INSTANCE}我收到消息:错误:(gcloud.ml-engine.local.predict)RuntimeError:Badmagicnumberin.pycfi

RuntimeError ml-engine google-cloud-sdk engine section python tensorflow google-cloud-platform gcloud google-cloud-ml

python - Google Cloud ML-engine scikit-learn 预测概率 'predict_proba()'

GoogleCloudML-engine支持部署scikit-learn的能力Pipeline对象。例如，文本分类Pipeline可能如下所示，classifier=Pipeline([('vect',CountVectorizer()),('clf',naive_bayes.MultinomialNB())])可以训练分类器，classifier.fit(train_x,train_y)然后可以将分类器上传到GoogleCloudStorage，model='model.joblib'joblib.dump(classifier,model)model_remote_path=os.

predict_proba scikit-learn code model noreferrer python google-cloud-platform google-cloud-ml

python - low_memory 和 memory_map 标志在 pd.read_csv 中做什么

pandas.read_csv的函数签名提供以下选项:read_csv(filepath_or_buffer,low_memory=True,memory_map=False,iterator=False,chunksize=None,...)我找不到任何关于low_memory或memory_map标志的文档。我很困惑这些功能是否已经实现，如果是的话它们是如何工作的。具体而言，memory_map:如果实现，它是否使用np.memmap，如果是，它是否将各个列存储为memmap或行。low_memory:它是否指定像cache这样的东西存储在内存中？我们可以将现有的DataFrame

memory 志在 code section python python-2.7 pandas

python - pd.read_csv 默认情况下将整数视为 float

我有一个csv看起来像(标题=第一行):name,a,a1,b,b1arnold,300311,arnld01,300311,arnld01sam,300713,sam01,300713,sam01当我运行时:df=pd.read_csv('file.csv')a和b列的末尾附加了一个.0，如下所示:df.head()name,a,a1,b,b1arnold,300311.0,arnld01,300311.0,arnld01sam,300713.0,sam01,300713.0,sam01列a和b是整数或空白，那么为什么pd.read_csv()将它们视为float，我如何确保它们读取

视为 read_csv code 300311 300713 python csv pandas integer

python - pd.Timestamp 与 np.datetime64 : are they interchangeable for selected uses?

这个问题的动机是ananswer到questiononimprovingperformance在pandas中与DatetimeIndex进行比较时。该解决方案通过df.index.values将DatetimeIndex转换为numpy数组，并将该数组与np.datetime64对象。这似乎是从此比较中检索bool数组的最有效方法。pandas的一位开发人员对这个问题的反馈是:“这些通常不一样。提供numpy解决方案通常是一种特殊情况，不推荐使用。”我的问题是:对于一部分操作，它们是否可以互换？我很感激DatetimeIndex提供了更多功能，但我只需要基本功能，例如切片和索引。对于

interchangeable Timestamp code datetime section python arrays pandas numpy

Python Pandas 使用 pd.qcut 创建新的 Bin/Bucket 变量

如何在python中使用pd.qut创建新的Bin/Bucket变量？这对于有经验的用户来说似乎很基础，但我对此并不是很清楚，而且在堆栈溢出/谷歌上搜索非常不直观。一些彻底的搜索产生了这个(Assignmentofqcutasnewcolumn)但它并没有完全回答我的问题，因为它没有采取最后一步并将所有东西放入垃圾箱(即1,2,...)。最佳答案在Pandas0.15.0或更新版本中，pd.qcut如果输入是一个系列(在您的情况下就是这样)或者如果labels=False，将返回一个系列，而不是分类。如果您设置labels=Fa

Python Pandas code section qcut bins buckets

python - 在非 Spark 环境中加载 pyspark ML 模型

我对在python中部署机器学习模型很感兴趣，因此可以通过向服务器发出请求来进行预测。我将创建一个Cloudera集群并利用pyspark库利用Spark开发模型。我想知道如何保存模型以便在服务器上使用它。我已经看到不同的算法具有.save函数(就像在这篇文章HowtosaveandloadMLLibmodelinApacheSpark中回答的那样)，但是由于服务器将在没有Spark的不同机器上而不是在Cloudera集群中，我不知道不知道是否可以使用他们的.load和.predict函数。是否可以通过使用pyspark库函数进行预测而不使用Spark？或者我是否必须进行任何转换才能保

中加 pyspark import spark python apache-spark machine-learning

7 8 91011 12 13