• 售前

  • 售后

热门帖子
入门百科

pandas 实现某一列分组,其他列归并成list

[复制链接]
娣玲 显示全部楼层 发表于 2021-10-26 13:38:29 |阅读模式 打印 上一主题 下一主题
pandas列转换为字典,但将雷同第一列(键)的全部值合并为一个键
情势一:
  1. import pandas as pd
  2. # data
  3. data = pd.DataFrame({'column1':['key1','key1','key2','key2'],
  4.     'column2':['value1','value2','value3','value3']})
  5. print(data)
  6. # Grouped dict
  7. data_dict = data.groupby('column1').column2.apply(list).to_dict()
  8. print(data_dict)
复制代码
输出结果:
  1. column1 column2
  2. 0  key1 value1
  3. 1  key1 value2
  4. 2  key2 value3
  5. 3  key2 value3
  6. {'key1': ['value1', 'value2'], 'key2': ['value3', 'value3']}
复制代码
情势二:
  1. import pandas as pd
  2. # data
  3. df = pd.DataFrame({'column1':['key1','key1','key2','key2'],
  4.     'column2':['value1','value2','value1','value2'],
  5.     'column3':['value11','value11','value22','value22'],
  6.     'column4':['value44','value44','value55','value55']})
  7. # Grouped dict
  8. data_dict = df.groupby('column1').apply(lambda x: {col:x[col].tolist() for col in x.columns if col != 'column2'}).to_dict()
  9. print(data_dict)
  10. data_dict2 = df.groupby('column1').apply(lambda x: {col:x[col].tolist()[0] if col != 'column2' else x[col].tolist() for col in x.columns}).to_dict()
  11. print(data_dict2)
复制代码
输出结果:
  1. #data_dict
  2. {
  3.   'key1': {
  4.     'column1': ['key1', 'key1'],
  5.     'column3': ['value11', 'value11'],
  6.     'column4': ['value44', 'value44']
  7.   },
  8.   'key2': {
  9.     'column1': ['key2', 'key2'],
  10.     'column3': ['value22', 'value22'],
  11.     'column4': ['value55', 'value55']
  12.   }
  13. }
  14. #data_dict2
  15. {
  16.   'key1': {
  17.     'column1': 'key1',
  18.     'column2': ['value1', 'value2'],
  19.     'column3': 'value11',
  20.     'column4': 'value44'
  21.   },
  22.   'key2': {
  23.     'column1': 'key2',
  24.     'column2': ['value1', 'value2'],
  25.     'column3': 'value22',
  26.     'column4': 'value55'
  27.   }
  28. }
复制代码
增补:pandas中,使用groupby分组后,对字符串字段进行合并拼接
在pandas里对于数值字段而言,groupby后可以用sum()、max()等方法进行简朴的处理处罚,对于字符串字段, 假如把它们的值拼接在一起,可以用使用 str.cat() 和 lamda 方法。
如,将下面表格中的内容,对skill字段按照id进行分组合并

实现代码:
  1. import pandas as pd
  2. file_name='test.xlsx'
  3. df=pd.read_excel(file_name)
  4. data=df.groupby('id')['skill'].apply(lambda x:x.str.cat(sep=':')).reset_index()
  5. print(data)
复制代码
结果如下:

另,数据处理处罚时,经常必要将某一列进行拆分,分列,替换等,相关的函数有str.split()、str.extract()、str.replace().

以上为个人经验,希望能给各人一个参考,也希望各人多多支持脚本之家。如有错误或未思量完全的地方,望不吝赐教。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作