PyData_草庐IT

python - pydata 火焰 : does it allow parallel processing or not?

我希望并行化numpy或pandas操作。为此，我一直在研究pydata的blaze。.我的理解是无缝并行化是它的主要卖点。不幸的是，我一直无法找到运行在多个内核上的操作。blaze中的并行处理是否可用或目前只是一个既定目标？难道我做错了什么？我正在使用blazev0.6.5。我希望并行化的一个函数示例:(pytables列的重复数据删除太大而无法放入内存)importpandasaspdimportblazeasbzdeff1():counter=0groups=pd.DataFrame(columns=['name'])t=bz.TableSymbol('t','{name:str

python - PyData 生态系统

我在一些地方读到了PyData(例如here)，但我仍然对这个术语的真正含义感到困惑。PyData是官方实体吗？(例如，是否有拥有/支持PyData.org的基金会？)。这只是一个session吗？或者它主要是一个松散地用来指代Python包列表的术语？还有哪些包被认为是PyData生态系统的核心部分？它只是任何可用于处理数据的包吗？(那将是非常通用的)。我发现的一些包通常与PyData相关:NumpyScipyPandasScikit-LearnNLTKPyMCNumbaBlaze此列表是否与通常与PyData关联的包组一致？还是有什么重要的遗漏？最后，PyData生态系统在多大程度