本文共 1585 字,大约阅读时间需要 5 分钟。
在数据分析过程中,数据的存储格式选择至关重要。R语言倾向于使用长格式数据,而SPSS则常用宽格式数据。了解如何在两者之间进行转换是数据分析中的核心技能之一。本文将详细介绍长宽格式数据的定义及其转换方法。
长格式数据:
宽格式数据:
不要将宽转换为宽格式理解为数据透视表。长转宽仅改变存储形式,不对操作对象进行计算。数据透视表通常用于对操作对象进行统计计算(如计数、求和等)。
import pandas as pdfrom dfply import *long_data = pd.DataFrame({ 'Player': ['Player1']*3 + ['Player2']*3 + ['Player3']*3, 'Introduction': ['name', 'education', 'sex']*3, 'Message': ['Sulie', 'master', 'male', 'LuBan', 'Bachelor', 'male', 'ZhenJi', 'PhD', 'female']})long_data = long_data[('Player', 'Introduction', 'Message')]long_data.pivot(index='Player', columns='Introduction', values='Message') long_data >> spread('Introduction', 'Message') library(tidyverse)long_data %>% group_by(Player) %>% pivot_wider(names_from = Introduction, values_from = Message)
wide_data.melt(id_vars='Player', var_name='Introduction', value_name='Message')
wide_data >> gather('Introduction', 'Message', ['name', 'sex', 'education']) wide_data %>% pivot_longer(cols = -Player, names_to = "Introduction", values_to = "Message")
转载地址:http://amtfk.baihongyu.com/