Python是广受欢迎的编程语言,它有着简单易学、灵活多样的特点,可应用于各种领域。在数据处理方面,Python的数据分析库pandas是非常强大的,它可以轻松地对数据进行统计、筛选、清洗等操作。
下面,我们就来看一个涉及Python数据分析的真题:如何用Python统计一组人的年龄分布。
import pandas as pd
# 假设这是一个人的年龄数据
ages = [22, 33, 18, 25, 29, 21, 25, 26, 30, 30, 32, 35, 20, 18, 28, 25]
# 将年龄数据装进DataFrame中
age_df = pd.DataFrame(ages, columns=['age'])
# 统计各个年龄段的人数
bin_edges = [0, 20, 25, 30, 40] # 年龄段的边界值
labels = ['0-20', '20-25', '25-30', '30-40'] # 年龄段的标签
age_df['age_group'] = pd.cut(age_df['age'], bins=bin_edges, labels=labels)
count_df = age_df.groupby('age_group').size().reset_index(name='count')
# 输出统计结果
print(count_df)
# age_group count
# 0-20 2
# 20-25 5
# 25-30 5
# 30-40 4
以上代码首先将一组年龄数据装进DataFrame中,然后使用pandas的cut函数将年龄数据分组。该函数接受一个边界值列表和一个标签列表作为参数,将数据根据边界值划分成不同的组,并赋予对应的标签。然后使用groupby函数对年龄组进行分组并统计人数,最后输出统计结果。
通过以上代码,我们可以很方便地得到一组年龄数据的分布情况,从而更好地了解数据的特征。
本文可能转载于网络公开资源,如果侵犯您的权益,请联系我们删除。
0