草庐IT

pyspark-dataframes

全部标签

python - PYODBC 到 Pandas - DataFrame 不工作 - 传递值的形状是 (x,y),索引暗示 (w,z)

我之前将pyodbc与python一起使用,但现在我已经将它安装在一台新机器上(win864位、Python2.764位、PythonXY和Spyder)。之前我曾经(在底部你可以找到更多真实的例子):columns=[column[0]forcolumnincursor.description]temp=cursor.fetchall()data=pandas.DataFrame(temp,columns=columns)它会很好地工作。现在似乎DataFrame无法再从游标获取的数据进行转换。它返回:传递值的形状是(x,y),索引表示(w,z)我有点明白问题出在哪里了。基本上,假设

python - 在 PySpark 中使用 Apache Spark 数据帧删除重音的最佳方法是什么?

我需要从不同数据集中删除西类牙语和其他语言字符的重音。我已经根据此post中提供的代码做了一个函数删除特殊的口音。问题在于该函数运行缓慢,因为它使用了UDF。我只是想知道我是否可以提高函数的性能以在更短的时间内获得结果,因为这对小数据帧有好处,但对大数据帧不利。提前致谢。这里是代码,您将能够按照显示的方式运行它:#Importingsqltypesfrompyspark.sql.typesimportStringType,IntegerType,StructType,StructFieldfrompyspark.sql.functionsimportudf,colimportunico

python - 如何为 dask.dataframe 指定元数据

文档提供了很好的示例,howmetadatacanbeprovided.但是,在为我的数据框选择正确的数据类型时,我仍然不确定。我可以做类似meta={'x':int'y':float,'z':float}而不是meta={'x':'i8','y':'f8','z':'f8'}?有人可以提示我列出可能的值,例如“i8”吗?什么dtype存在吗?如何指定包含任意对象的列?如何指定一个仅包含一个类实例的列? 最佳答案 可用的基本数据类型是通过numpy提供的。看看documentation获取列表。此集合中不包括日期时间格式(例如dat

python - 按对象将 pandas 组转换为多索引 Dataframe

如果我有以下数据框>>>df=pd.DataFrame({'Name':['Bob']*3+['Alice']*3,\'Destination':['Athens','Rome']*3,'Length':np.random.randint(1,6,6)})>>>dfDestinationLengthName0Athens3Bob1Rome5Bob2Athens2Bob3Rome1Alice4Athens3Alice5Rome5Alice我可以按名称和目的地进行组合...>>>grouped=df.groupby(['Name','Destination'])>>>fornm,gping

python - pandas dataframe 选择 nan 索引

我有一个包含以下内容的数据框df:In[10]:df.index.unique()Out[10]:array([u'DC',nan,u'BS',u'AB',u'OA'],dtype=object)我可以轻松地选择df.ix["DC"]、df.ix["BS"]等。但是我在选择nan索引时遇到了问题。df.ix[nan],df.ix["nan"],df.ix[np.nan]allwon'twork.如何选择以nan为索引的行? 最佳答案 一种方法是使用df.index.isnull()来识别NaN的位置:In[218]:df=pd.Da

python - pandas DataFrame 在 bool 掩码上设置值

我正在尝试将pandasDataFrame中的多个不同值全部设置为相同的值。我以为我了解pandas的bool索引,但我还没有找到关于这个特定错误的任何资源。importpandasaspddf=pd.DataFrame({'A':[1,2,3],'B':['a','b','f']})mask=df.isin([1,3,12,'a'])df[mask]=30Traceback(mostrecentcalllast):...TypeError:Cannotdoinplacebooleansettingonmixed-typeswithanonnp.nanvalue在上面,我想用值30替换

python - numpy.ndarray 与 pandas.DataFrame

我需要就在我的程序中保存统计数据框架的数据结构的基础选择做出战略决策。我在一张大表中存储了数十万条记录。每个字段都是不同的类型,包括短字符串。我会对需要快速实时完成的数据执行多重回归分析和操作。我还需要使用一些比较流行且支持良好的东西。我知道以下参赛者:array.array的列表这是最基本的事情。不幸的是它不支持字符串。而且我无论如何都需要在其统计部分使用numpy,所以这个是不可能的。numpy.ndarrayndarray能够在每一列中保存不同类型的数组(例如np.dtype([('name',np.str_,16),('grades',np.float64,(2,))])).这

python - 分区聚合 - pandas Dataframe

我正在寻找基于特定分区聚合值的最佳方法,相当于SUM(TotalCost)OVER(PARTITIONBYShopName)Earnings(SQLserver)我可以通过Pandas中的以下步骤来做到这一点,但我正在寻找一种我确信应该存在的原生方法TempDF=DF.groupby(by=['ShopName'])['TotalCost'].sum()TempDF=TempDF.reset_index()NewDF=pd.merge(DF,TempDF,how='inner',on='ShopName')非常感谢您通读! 最佳答案

python - PySpark 抛出错误方法 __getnewargs__([]) 不存在

我有一组文件。文件的路径保存在一个文件中,例如all_files.txt。使用apachespark,我需要对所有文件进行操作并合并结果。我想做的步骤是:通过读取all_files.txt创建一个RDD对于all_files.txt中的每一行(每一行都是某个文件的路径),将每个文件的内容读入一个RDD然后对所有内容做一个操作这是我为此编写的代码:defreturn_contents_from_file(file_name):returnspark.read.text(file_name).rdd.map(lambdar:r[0])defrun_spark():file_name='pa

python - 基于多列值函数的DataFrame排序

基于python,sortdescendingdataframewithpandas:给定:frompandasimportDataFrameimportpandasaspdd={'x':[2,3,1,4,5],'y':[5,4,3,2,1],'letter':['a','a','b','b','c']}df=DataFrame(d)df看起来像这样:df:letterxy0a251a342b133b424c51我想要这样的东西:f=lambdax,y:x**2+y**2test=df.sort(f('x','y'))这应该根据列'x'和'y'的平方值的总和来排序完整的数据框并给我:t