Categories
程式開發

用机器学习分析流行音乐(三):构建模型


本文是本教程的第三部分,在本文中,我将构建不同的预测模型,并比较结果。 你可以先阅读本教程的第一部分和第二部分,也可以在文末找到本文完整代码的链接。 现在,让我们来构建模型!

对数据帧进行子集化,并将分类变量转换为虚拟变量

为了构建模型,我去掉了“ fav_grp ”一列,因为我们在教程第二部分探索性数据分析中看到的那样,有太多的团体,而 BTS 是占主导地位的团体。

df_model = df[['popl_by_co_yn', 'reason', 'yr_listened',     
'gender_pref','daily_music_hr', 'watch_MV_yn', 'daily_MV_hr', 
'obsessed_yn','news_medium', 'pursuit', 'time_cons_yn', 'life_chg', 
'pos_eff','yr_merch_spent', 'money_src', 'concert_yn', 'crazy_ev', 'age','country', 
'job', 'gender', 'num_gr_like', 'bts_vs_others']] 

然后,我得到虚拟数据,将分类变量转换为回归模型的虚拟/指标变量。

原文链接:【https://www.infoq.cn/article/RpO2oAjua52z4LMycCJZ】。未经作者许可,禁止转载。