草庐IT

python - pydata 火焰 : does it allow parallel processing or not?

我希望并行化numpy或pandas操作。为此,我一直在研究pydata的blaze。.我的理解是无缝并行化是它的主要卖点。不幸的是,我一直无法找到运行在多个内核上的操作。blaze中的并行处理是否可用或目前只是一个既定目标?难道我做错了什么?我正在使用blazev0.6.5。我希望并行化的一个函数示例:(pytables列的重复数据删除太大而无法放入内存)importpandasaspdimportblazeasbzdeff1():counter=0groups=pd.DataFrame(columns=['name'])t=bz.TableSymbol('t','{name:str

python - PyData 生态系统

我在一些地方读到了PyData(例如here),但我仍然对这个术语的真正含义感到困惑。PyData是官方实体吗?(例如,是否有拥有/支持PyData.org的基金会?)。这只是一个session吗?或者它主要是一个松散地用来指代Python包列表的术语?还有哪些包被认为是PyData生态系统的核心部分?它只是任何可用于处理数据的包吗?(那将是非常通用的)。我发现的一些包通常与PyData相关:NumpyScipyPandasScikit-LearnNLTKPyMCNumbaBlaze此列表是否与通常与PyData关联的包组一致?还是有什么重要的遗漏?最后,PyData生态系统在多大程度