澳门博彩官网

转载  2018-04-13   作者:STHSF   我要评论

下面小编就为大家分享一篇pandas数据预处理之dataframe的groupby操作方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

在数据预处理过程中可能会遇到这样的问题,如下图:数据中某一个key有多组数据,如何分别对每个key进行相同的运算?

dataframe里面给出了一个group by的一个操作,对于”group by”操作,我们通常是指以下一个或多个操作步骤:

l (Splitting)按照一些规则将数据分为不同的组;

l (Applying)对于每组数据分别执行一个函数;

l (Combining)将结果组合到一个数据结构中;

使用dataframe实现groupby的用法:

# -*- coding: UTF-8 -*-
import pandas as pd
df = pd.DataFrame([{'col1':'a', 'col2':1, 'col3':'aa'}, {'col1':'b', 'col2':2, 'col3':'bb'}, {'col1':'c', 'col2':3, 'col3':'cc'}, {'col1':'a', 'col2':44, 'col3':'aa'}])
print df
# 按col1分组并按col2求和
print df.groupby(by='col1').agg({'col2':sum}).reset_index()
# 按col1分组并按col2求最值
print df.groupby(by='col1').agg({'col2':['max', 'min']}).reset_index()
# 按col1 ,col3分组并按col2求和
print df.groupby(by=['col1', 'col3']).agg({'col2':sum}).reset_index()

输出结果为:

 col1 col2 col3 
0  a   1  aa 
1  b   2  bb 
2  c   3  cc 
3  a  44  aa 
 col1 col2 
0  a  45 
1  b   2 
2  c   3 
 col1 col2   
    max min 
0  a  44  1 
1  b  2  2 
2  c  3  3 
 col1 col3 col2 
0  a  aa  45 
1  b  bb   2 
2  c  cc   3 

注意点:

代码中调用了reset_index() 函数, 如果不使用这个函数输出的结果将是:

   col2
col1   
a    45
b    2
c    3
   col2  
   max min
col1     
a   44  1
b    2  2
c    3  3
      col2
col1 col3   
a  aa   45
b  bb    2
c  cc    3

上下两个结果还是有区别的,但是具体区别暂时不太清楚,不过下面的一种输出结果是不能跟使用df['col1']来提取第一列的。至于是什么原因暂时还不清楚,如果您对pandas比较理解或者知道原因,欢迎在评论中留言。

以上这篇pandas数据预处理之dataframe的groupby操作方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

相关文章

  • 浅析Python中else语句块的使用技巧

    浅析Python中else语句块的使用技巧

    这篇文章主要介绍了浅析Python中else语句块的使用技巧的相关资料,非常不错,具有参考借鉴价值,需要的朋友可以参考下
    2016-06-06
  • Python中列表和元组的相关语句和方法讲解

    Python中列表和元组的相关语句和方法讲解

    这篇文章主要介绍了Python中列表和元组的相关语句和方法讲解,是Python入门学习中的基础知识,需要的朋友可以参考下
    2015-08-08
  • python使用any判断一个对象是否为空的方法

    python使用any判断一个对象是否为空的方法

    这篇文章主要介绍了python使用any判断一个对象是否为空的方法,并给出了改进的方法供大家对比参考,具有一定的借鉴价值,需要的朋友可以参考下
    2014-11-11
  • python监控linux内存并写入mongodb(推荐)

    python监控linux内存并写入mongodb(推荐)

    这篇文章主要介绍了python监控linux内存并写入mongodb的相关资料,需要的朋友可以参考下
    2017-09-09
  • itchat接口使用示例

    itchat接口使用示例

    这篇文章主要介绍了itchat接口使用示例,itchat接口的相关知识,这里是一段代码示例,这里分享给大家,供需要的朋友参考。努力学习中~
    2017-10-10
  • Python解析excel文件存入sqlite数据库的方法

    Python解析excel文件存入sqlite数据库的方法

    最近工作中遇到一个需求,需要使用Python解析excel文件并存入sqlite,本文就实现的过程做个总结分享给大家,文中包括数据库设计、建立数据库、Python解析excel文件、Python读取文件名并解析和将解析的数据存储入库,有需要的朋友们下面来一起学习学习吧。
    2016-11-11
  • python处理图片之PIL模块简单使用方法

    python处理图片之PIL模块简单使用方法

    这篇文章主要介绍了python处理图片之PIL模块简单使用方法,涉及Python使用PIL模块实现针对图片的锐化、绘制直线、绘制椭圆等相关技巧,需要的朋友可以参考下
    2015-05-05
  • Django模板变量如何传递给外部js调用的方法小结

    Django模板变量如何传递给外部js调用的方法小结

    这篇文章主要给大家介绍了关于Django模板变量如何传递给外部js调用的相关资料,文中通过示例代码介绍的非常详细,对大家具有一定的参考学习价值,需要的朋友们下面跟着小编一起来学习学习吧。
    2017-07-07
  • 使用django-suit为django 1.7 admin后台添加模板

    前面我们介绍了Django-grappelli给admin添加模板,可是使用中发现inline有点问题,所以就换了今天我们要谈的Django-suit,貌似要稍微好一些
    2014-11-11
  • 批量将ppt转换为pdf的Python代码 只要27行!

    批量将ppt转换为pdf的Python代码 只要27行!

    这篇文章主要为大家详细介绍了批量将ppt转换为pdf的Python代码,只要27行,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-02-02

最新评论