黄震宁:我的大数据能力提升之路 | 提升之路系列(六)

f6233cf6b7230c960edaa5d18126a2ca.png

导读

为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。

42be4fb6faf4bca19d29b2e4190f96d1.png

黄震宁个人生活照

2022年9月,刚刚入学的我在选课的界面看到了大数据能力培养计划的通知,而我在本科期间就对大数据颇有兴趣,辅修了数据科学与大数据技术,这个计划对于我来说正是一次学习大数据相关知识的好机会,我在很短时间内就就决定了加入。在了解了培养计划后,我决定在最短时间内加强自身的能力,最终在一年内超额修满了学分。学习的过程无疑是充实而收获颇丰的。

在《数智安全与标准化》课程中我学习到了许多关于数据、网络安全的相关知识,与来自各个专业素不相识的同学组成队伍开始研究《算力网络节点可信度评估和安全管控方案》的课题,并担任组长带领大家进行研究。在我们组员都对该课题了解不深的情况下,但在大家齐心协力,查阅了大量文献和网络资料,积极与老师沟通,在老师的帮助下与专业从业人士进行了交流,最终取得了不错的成果,也在过程中锻炼了自身。

在《大数据算法基础》课程中我从零学习到了图搜索、数据流挖掘等大数据算法;在《统计学习理论与应用》课程中,跟着老师学习了从传统机器SVM算法、决策树算法到深度学习生成模型、概率图模型等等大量知识。在课程中,我逐渐对机器学习产生了浓厚的学习兴趣,利用了大量课余不断学习,提高自身能力。对于从零基础开始学习的我来说,这些学习任务无疑是异常艰巨的,但在不断地克服苦难后,我的收获也是非常巨大的。

在完成前两门课程的学习,且在课外学习了大量知识后,今年的大数据实践课中,我选择参加竞赛“中国高校计算机大赛2023年大数据挑战赛–基于多源数据的IT系统故障发现”的方式来完成实践,这也是我第一次参加大数据类竞赛。经过了不少努力之后,不是很精通于代码的我第一次成功地提交代码之时,真切地感受到了将知识运用于实践地快乐和成就感,并下定决心好好完成比赛。也是多亏于本次竞赛的良好讨论氛围,在初赛阶段有不少高手分享了自己对于数据的分析和自己对于模型的思考,我也在学习他们思路的过程中不断地成长。从最开始的几百名,不断上升到100多名触摸到了进入复赛的门槛,到最终以30几名进入复赛。在这个过程中我学会了从数据清洗、分析、挖掘到建模的全流程实现,也逐渐加深了对于XGBOOST、LGBM等集成模型的理解。在进入复赛后的激烈角逐中,我一度闯进前十可惜由于单人参赛,在比赛后期的劣势明显,最终有所跌落,在2200多支队伍中获得了22名的排名,但这也是我参赛前未曾想过的好名次。

9b0108fb51e6a9e44aa15f5ca214b471.png 

14626b9fa87ca98bf4f96829b4c016b6.png

ec15e24c080cd763d7ddd4348b3ea031.png

在今年10月到12月,我与室友和同学成立了一支队伍,参加了世界知名数据科学平台kaggle中的比赛Optiver-TradingattheClose。由于上次比赛积累了充足的经验,在此次比赛中我们发挥出色,最终取得了第15名的成绩,位处金牌区。而我们的模型也将运用到长达3个月的真实数据进行检验,根据结果与4436支参赛队伍一起竞争获得最后的奖金。在本次竞赛中,我深刻体会到了对于数据特性的分析和理解的重要性,也学会了更多处理数据、构造特征的特征工程方法,并且加深了模型ensemble的理解。

在数据分析方面,我学习了大数据分析(A)课程,在学习课程的过程中,我熟练掌握了R语言与python来进行数据分析,可以独立自主地进行数据清洗、建模、可视化,更好地表达出对于数据的理解。于此同时,我结合自身健身的兴趣,加入了Keep公司成为数据分析实习生,在工作中,我不断加深了各项指标的理解,以及数据分析的模型。在获得了Mentor的认可后参与设计了总计300万人群的AB实验,对该群体在实验中表现数据进行分析、归纳、总结,提升实验效果。实践中的数据无疑更加真实,在实践中,我也大大加强了对于hive、spark、sql、BI等大数据组件、工具的使用熟练度,使我离成为一名datascientist的目标更近一步。

回首过去一年多的时间,参与大数据能力提升项目无疑是我取得如此多收获,如此大进步的重要契机,让我从大数据懵懂无知的状态,一步步提高认知,加强自身能力,一步一个脚印脚踏实地地成长到了今天。

1c8663f8612d799343af1344b0ade10e.png

编辑:于腾凯

校对:林亦霖

88930b3e2eee4a8caac3bd425508c36e.png

本文来自网络,不代表协通编程立场,如若转载,请注明出处:https://net2asp.com/494aad4bab.html