Categories
程式開發

用机器学习分析流行音乐(二):探索性数据分析


本文是该系列的第二部分,我从变量中发现了有趣的见解,并发布了相关视频。 本系列第一部分的主要工作是数据收集和数据清理。本文,我们做一些探索性数据分析,这是该项目的一部分, 全部代码 都可以在这里找到。

完成数据清理

我意识到,在之前的文章中,我忘记清理这三个列(变量):“ gender_pref ”、“ reason ”和“ job ”。所以,我很快对它们进行了清理。

  • 对于“ gender_pref ”,我将它们重新标记为“ male ”、“ female ”、“ both ”和“ it's about music ”,以简化它们。
  • 对于“ reason ”,我把它们分为“ unique music style ”、“ unique choreography ”、“ attractive idols ”、“ many reasons ”和“ other reason ”。
  • 对于“ job ”,我按照“ student ”、“ full-time woker ”和“ unemplppyed ”来分类。

分析连续变量

首先,检查连续变量的描述,包括:“ yr_listened ”、“ daily_music_hr ”、“ daily_MV_hr ”、“ yr_merch_spent ”、“ age ”、“ num_gr_like ”。

原文链接:【https://www.infoq.cn/article/BB8FuiGMBjwz6QHQDfyV】。未经作者许可,禁止转载。