草庐IT

order_rows

全部标签

python Pandas 数据框: removing selected rows

我有一个pandas数据框,类似于:df=pd.read_csv('fruit.csv')print(df)fruitnamequant0apple101apple112apple133banana104banana205banana306banana407pear108pear1029pear103310pear101211pear10112pear10013pear104414orange10我想删除最后一个条目PERFRUIT,如果该水果的条目数为奇数(不偶数)(%2==1)。无需遍历数据帧。所以上面的最终结果是:--移除最后一个苹果,因为苹果出现了3次--删除最后一个梨--删除

python - 生成序列的 "ordered subsets"的最有效方法

我需要在Python中生成一个序列的所有“有序子集”(如果我没有使用正确的数学术语,我深表歉意),将省略的元素替换为None。给定[1,2],我想要[(1,2),(1,None),(None,2),(None,None)]。每个“有序子集”都应具有以下属性:在每个位置,它要么是与种子序列中的元素完全相同的元素,要么是None。我可以很容易地生成带有以下遗漏元素的子集:fromitertoolsimportcombinationsforlengthinxrange(len(items),0,-1):forcombinationincombinations(items,length):yi

python - Spark : More Efficient Aggregation to join strings from different rows

我目前正在处理DNA序列数据,但遇到了一些性能障碍。我有两个查找字典/散列(作为RDD),以DNA“单词”(短序列)作为键,索引位置列表作为值。一个用于较短的查询序列,另一个用于数据库序列。即使是非常非常大的序列,创建表的速度也非常快。下一步,我需要将它们配对并找到“命中”(每个常用词的索引位置对)。我首先加入查找词典,速度相当快。但是,我现在需要这些对,所以我必须进行两次平面映射,一次是从查询中扩展索引列表,第二次是从数据库中扩展索引列表。这并不理想,但我看不到另一种方法。至少它表现不错。此时的输出为:(query_index,(word_length,diagonal_offset

Python Jupyter 笔记本 : Specify cell execution order

我有一个Jupyter笔记本。在单元格1中,我定义了很多功能,这些功能需要在其他事情之前运行。然后在下面的单元格中,我开始呈现结果。但是,当我转换为HTML时,这种布局很难看。读者必须滚动很长时间才能看到结果,他们可能根本不关心这些功能。但我必须按此顺序放置代码,因为我需要这些功能。所以我的问题是,有没有一种方法可以在我点击全部运行后控制单元格的运行顺序?或者有没有办法我可以做类似下面的事情。我将所有函数定义放在单元格20中,然后放在单元格1中,我可以说告诉Jupyter类似“运行单元格20”的内容。只是好奇这是否可行。谢谢。 最佳答案

python - 将 JSON 读取到 pandas 数据框 - ValueError : Mixing dicts with non-Series may lead to ambiguous ordering

我试图将下面的JSON结构读入pandas数据框,但它抛出了错误消息:ValueError:Mixingdictswithnon-Seriesmayleadtoambiguousordering.Json数据:{"status":{"statuscode":200,"statusmessage":"EverythingOK"},"result":[{"id":22,"club_id":16182},{"id":23,"club_id":16182},{"id":24,"club_id":16182},{"id":25,"club_id":16182},{"id":26,"club_id

python Pandas : how to find rows in one dataframe but not in another?

假设我有两个表:people_all和people_usa,它们具有相同的结构,因此具有相同的主键。我怎样才能得到不在美国的人的表格?在SQL中,我会做类似的事情:selecta.*frompeople_allaleftouterjoinpeople_usauona.id=u.idwhereu.idisnullPython的等价物是什么?我想不出将这个where语句翻译成pandas语法的方法。我能想到的唯一方法是在people_usa中添加一个任意字段(例如people_usa['dummy']=1),进行左连接,然后只取“dummy”所在的记录'是nan,然后删除虚拟字段-这看起来

python Pandas : drop rows of a timeserie based on time range

我有以下时间序列:start=pd.to_datetime('2016-1-1')end=pd.to_datetime('2016-1-15')rng=pd.date_range(start,end,freq='2h')df=pd.DataFrame({'timestamp':rng,'values':np.random.randint(0,100,len(rng))})df=df.set_index(['timestamp'])我想删除这两个时间戳之间的行:start_remove=pd.to_datetime('2016-1-4')end_remove=pd.to_datetime

python - cx_Oracle : How can I receive each row as a dictionary?

默认情况下,cx_Oracle将每一行作为元组返回。>>>importcx_Oracle>>>conn=cx_Oracle.connect('scott/tiger')>>>curs=conn.cursor()>>>curs.execute("select*fromfoo");>>>curs.fetchone()(33,'blue')如何将每一行作为字典返回? 最佳答案 您可以覆盖游标的rowfactory方法。每次执行查询时都需要这样做。这是标准查询的结果,一个元组。curs.execute('select*fromfoo')cu

python - FutureWarning : specifying 'categories' or 'ordered' in . astype() 已弃用;改为传递 CategoricalDtype

标题中的警告是由pandas0.21.0在Python3.6.3上产生的,代码如pd.Series(["a","b","b"]).astype("category",类别=["a","b","c"])。现在应该怎么写这个? 最佳答案 警告中提到的CategoricalDtype可用pd.api.types.CategoricalDtype.所以,你可以这样写pd.Series(["a","b","b"]).astype(pd.api.types.CategoricalDtype(categories=["a","b","c"])).

mysql使用order by排序查询导致sql变慢

前几天发现一个页面加载缓慢,大概得有个二三十秒的样子,一开始并没有当回事以为第一次打开加载缓慢,后来反复打开,每次都加载十分缓慢,于是我开始排查问题页面上显示大概也就两万多条数据,而且还进行了分页,按理说不应该这么慢,于是我把执行的sql拿出来,单独执行了一下,这一试发现了问题严重性,单单这一个sql的执行时间就得有二十多秒,这个sql是进行了innerjoin关联查询的,查看两张表一张有5000多条数据,另一张有两万多条数据,这样算起下来笛卡尔积一下子数量一试相当庞大的,如果要是进行了全表扫描那可不得炸了于是首先受用explain命令来查看了一下sql,果然进行了全面扫描,经过返回的测试,最