草庐IT

python - 将 jupyter notebook 转为 python 脚本的最佳实践

coder 2023-05-22 原文

Jupyter (iPython) 笔记本当之无愧地被称为代码原型(prototype)设计和交互式执行各种机器学习工作的好工具。但是我在使用的时候,难免会遇到这样的情况:

  • 笔记本很快变得过于复杂和凌乱,无法作为笔记本进一步维护和改进,我必须从中制作 python 脚本;
  • 当涉及到生产代码(例如,需要每天重新运行的代码)时,笔记本再次不是最佳格式。

假设我已经在 jupyter 中开发了一个完整的机器学习管道,其中包括从各种来源获取原始数据、清理数据、特征工程和训练模型。现在,用高效和可读的代码来制作脚本的最佳逻辑是什么?到目前为止,我曾经用几种方法来解决它:

  1. 只需将 .ipynb 转换为 .py,只需稍作更改,即可将 notebook 中的所有管道硬编码为一个 python 脚本。

    • '+':快速
    • '-':脏、不灵活、不方便维护
  2. 制作一个包含多个函数的脚本(大约,每个单元格对应一个函数或两个单元格),尝试用单独的函数组成管道的各个阶段,并相应地命名它们。然后通过argparse指定所有参数和全局常量。

    • '+':使用更灵活;更易读的代码(如果你正确地将管道逻辑转换为函数)
    • '-':通常情况下,管道不能拆分为逻辑上完整的部分,这些部分可以成为函数,而代码中没有任何怪癖。所有这些函数通常只需要在脚本中调用一次,而不是在循环、映射等中多次调用。此外,每个函数通常都会获取之前调用的所有函数的输出,因此必须向每个函数传递许多参数功能。
  3. 与第(2)点相同,但现在将所有函数包装在类中。现在所有全局常量以及每个方法的输出都可以存储为类属性。

    • '+':你不需要为每个方法传递很多参数——所有之前的输出都已经存储为属性
    • '-':一个任务的整体逻辑还没有被捕获——它是数据和机器学习管道,而不仅仅是类。类的唯一目标是创建,依次调用所有方法,然后将其删除。除此之外,类的实现时间也很长。
  4. 使用多个脚本将笔记本转换为 python 模块。我没有尝试过,但我怀疑这是处理问题的最长方法。

我想,这种总体设置在数据科学家中很常见,但令人惊讶的是,我找不到任何有用的建议。

各位,请分享您的想法和经验。你有没有遇到过这个问题?你是怎么解决的?

最佳答案

Life saver: as you're writing your notebooks, incrementally refactor your code into functions, writing some minimal assert tests and docstrings.

之后,从 notebook 重构为 script 就很自然了。不仅如此,它还能让您在编写长笔记本时更轻松,即使您不打算将它们变成其他东西。

带有“最少”测试和文档字符串的单元格内容的基本示例:

def zip_count(f):
    """Given zip filename, returns number of files inside.

    str -> int"""
    from contextlib import closing
    with closing(zipfile.ZipFile(f)) as archive:
        num_files = len(archive.infolist())
    return num_files

zip_filename = 'data/myfile.zip'

# Make sure `myfile` always has three files
assert zip_count(zip_filename) == 3
# And total zip size is under 2 MB
assert os.path.getsize(zip_filename) / 1024**2 < 2

print(zip_count(zip_filename))

一旦您将其导出为裸 .py 文件,您的代码可能还不会被结构化为类。但是值得努力将你的 notebook 重构到它有一组文档化的函数,每个函数都有一组简单的 assert 语句,可以很容易地移动到 tests.py 用于使用 pytestunittest 或您拥有的东西进行测试。如果有意义的话,之后将这些函数捆绑到您的类的方法中是非常容易的。

如果一切顺利,您接下来要做的就是写下您的if __name__ == '__main__':及其“钩子(Hook)”:如果您正在编写要由终端调用的脚本,您将需要 handle command-line arguments ,如果你正在编写一个模块,你会想要考虑 its API with the __init__.py file等。

当然,这完全取决于预期的用例:将笔记本转换为小脚本与将其转换为成熟的模块或包之间存在很大差异。

以下是笔记本到脚本工作流程的一些想法:

  1. 通过 GUI 将 Jupyter Notebook 导出为 Python 文件 (.py)。
  2. 删除不执行实际工作的“帮助”行:print 语句、绘图等。
  3. 如果需要,请将您的逻辑捆绑到类中。唯一需要的额外重构工作应该是编写您的类文档字符串和属性。
  4. 使用 if __name__ == '__main__' 编写脚本的入口。
  5. 为每个函数/方法分离 assert 语句,并在 tests.py 中充实一个最小的测试套件。

关于python - 将 jupyter notebook 转为 python 脚本的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32183164/

有关python - 将 jupyter notebook 转为 python 脚本的最佳实践的更多相关文章

  1. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  2. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  3. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  4. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  5. ruby-on-rails - 独立 ruby​​ 脚本的配置文件 - 2

    我有一个在Linux服务器上运行的ruby​​脚本。它不使用rails或任何东西。它基本上是一个命令行ruby​​脚本,可以像这样传递参数:./ruby_script.rbarg1arg2如何将参数抽象到配置文件(例如yaml文件或其他文件)中?您能否举例说明如何做到这一点?提前谢谢你。 最佳答案 首先,您可以运行一个写入YAML配置文件的独立脚本:require"yaml"File.write("path_to_yaml_file",[arg1,arg2].to_yaml)然后,在您的应用中阅读它:require"yaml"arg

  6. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  7. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  8. 叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2

    导读:随着叮咚买菜业务的发展,不同的业务场景对数据分析提出了不同的需求,他们希望引入一款实时OLAP数据库,构建一个灵活的多维实时查询和分析的平台,统一数据的接入和查询方案,解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型,最终引入ApacheDoris作为最终的OLAP分析引擎,Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图,在叮咚买菜数十个业务场景中广泛应用。作者|叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月,是一家专注美好食物的创业公司。叮咚买菜专注吃的事业,为满足更多人“想吃什么”而努力,通过美好食材的供应、美好滋味的开发以及美食品牌的孵

  9. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  10. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

随机推荐