「量化好声音」02 我如何赢得了Citadel比赛?量化好声音

「量化好声音」02 我如何赢得了Citadel比赛?

12分钟 ·
播放数316
·
评论数0

量化好声音

睡前听一听

欢迎大家

我是Flora

我是Aaron

常常有粉丝来问啊

我很想入行量化

但是简历过不了关

怎么办呢

Aaron你也招过一些量化研究员了

你能不能给大家支个招

说说你作为面试官

愿意招什么样的人呢

好的

这方面可以分享的招数啊比较多

那今天呢

先给大家讲一招

就是打比赛

打比赛什么样的比赛

能够具体讲一讲吗

可以

那其实量化界有很多个重要的比赛

比如简街

千禧年他们都有比赛

那今天我们给大家介绍的呢

是Citadel的Datathon

Citadel我知道

就是城堡投资嘛

它的创始人是肯尼斯·格里芬

这可是个传奇人物

大学起他就开始投资

到今年年初呢

他们管理了650亿美元的资产

这是世界上最赚钱的对冲基金之一了

所以他们组织的比赛

含金量可想而知

那赢得了这个比赛

基本上就拿到了顶级私募的门票

确实如此

那Citadel的Datathon

到底是个什么样的比赛

我们应该怎么报名呢

Citadel Datathon

它是一个数据科学竞赛

那这个名字呢

来自于马拉松的一个仿造词儿

类似的仿造词儿呢

还有hackathon等等

我知道的

hackathon是面向极限编程的一种挑战

所以说从名字上听起来

这个比赛就挺够劲儿的

对这个比赛

在量化和数据科学圈子里啊

关注度其实还挺高的

那今天呢

我们整合了一些资料

像是官方介绍

还有论坛上的一些讨论

甚至呢还有

一位冠军的经验分享

对所以我们今天的目标啊

就是要详细介绍这个比赛

以及怎么报名参加

又如何能成功的脱颖而出

好那咱们就直接切入主题啊

我们先来说说报名的事儿

好的我这边查了一些资料

Citadel一年常常会举行好几次的Datathon

分布在全球各个地区

先是在各个地区举行分赛

最后这些分赛的获胜者

甚至有可能被邀请到美国总部

去参加最后的决赛

那今年怎么样

现在报名还来得及不

到目前为止

今年还只是在2月份

举办了一次欧洲女性的Datathon

其他地区的Datathon目前还没有安排

一般来说啊

全年会有好几次的Datathon

所以

距离国内选手可以参加的亚洲Datathon

很可能是越来越近了

大家可以随时准备着

那如果我想要参加今年的Datathon

我从哪里可以得到报名的通知信息

一般来说

我们随时关注Citadel官网主页就好了

在Citadel官网主页

有一个叫做careers的栏目

找到其中的programs & events

再到undergraduates菜单下面

就可以找到Datathon活动了

听起来要找到这个活动页面并不难

不过呢你等会会把公众号上面啊

会提供一个链接信息对吧

是的

那对报名者会有哪些要求

对国内的选手来说啊

要求是在读本科、满18周岁

并且学业表现良好

预计呢在26年12月到28年6月期间毕业

就可以参加这个比赛了

那如果你是博士生

就要参加博士数据马拉松这

个没有毕业时间的要求

只要学业良好就可以了

这里的学业表现良好是什么意思

要求必须是985吗

这是个好问题

Datathon并没有对国内参赛者的学校

做出要求

不过啊从过往的数据来看

985学校的学生参赛呀

确实是会有一些主场优势的

这个怎么理解

比赛不是在线上进行的吗

是的从国内之前的比赛经验来看啊

先是线上申请报名

这个报名

可能会跟前程无忧

这样的招聘网站合作

申请者在线提交简历和参加评估

然后啊官方会从中选择一部分选手

邀请他们参加线下的比赛

那线下比赛的举办地点呢

就会是像在北大清华

复旦和华科这样的学校了

而且这些学校还会通过自己的渠道

发布赛程通知

那这么说起来

985学校和北京上海武汉等一线城市

确实会享受到一些主场的优势

对的甚至如果学校在外地

会不会主办方在邀请参赛上

考虑会务安排难度而减少名额

那这个我们就不得而知了

所以啊

如果你没有进入Datathon的比赛的

这样一个机会

怎么办那么其实对普通人来讲呢

还有很多去进入量化这一行的机会

那这部分呢

我们就在后面的节目中再来介绍

一句话啊

只要有创新的思维办法

总比困难多

好的刚刚

Aaron你提到了在线提交简历的事儿

以及在线评估的事情

这方面你也给大家介绍一下吧

好那这个评估需要一个小时内完成

题目呢大概

是15道选择和填空题

那目前有一些真题泄露出来吗

有内容比较多

那这些内容呢

我们就放在播客对应的资料当中了

题目呢大概是两类

一类呢是报名环节的在线评估真题

我们提供了一个2024年的真题

供大家参考

另外一类呢

是比赛环节的试题

这部分的题目啊

我们有10套左右

都有答案

哦那这些题目的难度怎么样呢

可不可以透露一些大致有哪些方向呢

题目整体上看不算难

以数理统计、机器学习和Python编程为主

听上去

这好像都是我们匡醍课程覆盖的内容

啊哈哈

现在这是广告时间了

对那试题呢

我们放在Quantide research platform

这个平台上了

大家可以在订阅之后进行查看

假设我们过了评估阶段

那么要如何准备正式的比赛呢

一方面

可以从我们收集到的历年的试题当中

去进行挖掘

比如呢

这些题他要求使用什么样的技术

数据又会以什么样的格式来提供

因为比赛他是有时间要求的

如果呢我们对数据集的格式不熟悉

在数据预处理阶段

我们就会花很多时间

那显然就会在进度上显著落后于他人

这点呢

在我们后面的分享中还会看到

非常有道理

其实这些我们从过往的真题中

应该都能够看出来

有哪些是必须掌握的基本功

除了这些之外

有没有真正参加过比赛的人

可以分享一下经验呢

还真有那这里呢

我们采访了David Veitch

他赢得了2021年的博士数据马拉松冠军

他是多伦多大学的统计学博士

现在担任美国银行的固收交易员

他是啊 2021年的PHD Datathon

作为博士呢

他是一般要求是独立参赛啊

而不是组队

了解了那这里

你可能要给大家再介绍一下

组队的事儿

对博士阶段的比赛

一般是独立参赛

其他阶段的Datathon

官方要求呢

还是组队参赛

组队呢可以自己组织

也可以由官方指派

当然了如果是自己组队的话

可能合作上会更默契

也会从而就更有优势

那比赛时间是多久

最后提交的成果又是什么样的呢

以David参加的比赛为例啊

那一年呢

比赛是时间是一周

最后要求提交一份15页左右的报告

参赛的题目是利用气候相关数据

来发现和分析

与全球变暖成因及影响相关的模式

听起来这个是属于生态学的范畴了呀

那大家可能会关心

如果说我们碰到这样的题目

它是属于自己之前没有接触过的领域

那怎么办呢

对通常来说

试题都会超过你博士阶段的研究范围

而且呢时间只有一周

所以你必须充分利用自己啊

已有的技能

那对David Veitch来讲

他对时间序列分析非常熟悉

所以在比赛当中啊

一开始就打定主意

要利用平稳时间序列分析

来分析和研究数据

以期呢找到一个结论

同时呢

他也啊对R语言是掌握得非常熟练

那么这对他清洗数据

以及啊得出最终的结论

以及结论的可视化

都起到了关键的作用

对那从David的介绍

来看在这个过程当中

懂得如何搜索

特别是找到那些补充数据集

也是非常重要的

那比如说

David在进行了几天的研究之后啊

发现他的模型需要一个雨水数据集

这个可是主办方没有提供的

好在他很快通过谷歌搜索

找到了一个雨水数据集

并且呢

还附赠了一个更好的温度数据集

与组织方提供的数据集相比啊

多出了一类非常重要的数据

就是最高温度

所以David他在面对问题的时候

非常灵活

办法也很多

对的但是在处理这两个数据集时

其实David还是遇到了很多问题的

这些数据

是以他没有见过的格式存储的

好在最后

他在网上找到了

如何去解析这种格式的文章

所以这就看出来

我们平时多练习的重要性了

在解决工程问题上

你花时间多了

那么在最重要的分析构建模型上面

花的时间必然就会少

是的这些是hard skill方面的技巧

那最后呢

David还分享了一个没有证据

但是他自己认为是非常重要的观点

就是你不能假设评委什么都懂

或者他有足够的时间来研究你的报告

他的原话是这样的

我知道评委的注意力有限

因此啊他对可视化是非常重视的

所以David的经验总结起来

首先呢你要熟悉一门编程语言

尤其是跟统计相关的库

是的从David的例子来看是这样子的

时间序列分析呢

是他的专长

对我们熟悉Python的听众来说呢

可能需要掌握一下

Scipy和statsmodels这两个库

另外在这种级别的比赛中

可能也需要掌握机器学习库

比如Sklearn

另外他也提到

我知道评委的注意力有限

这也是很有意思的一句话

那实际上

我觉得这是一个非常重要的经验

因为不止在这样一个大赛当中有评委

在工作当中

我们的领导和用户

他们都是评委

而他们呢

都有一个共同点

就是注意力有限

如何把我们的工作更好的呈现出来

这也很重要

还有一点就是平常我们也需要多关注

在什么地方你可以找到有用的数据结

那尽管我们可以临时去搜索

但毕竟呢

比赛它是有时间限制的

如果有自己一些熟悉的站点

这样就不容易跑空

对的我记得

我们在因子挖掘与机器学习策略

这门课中

也讲到了去哪里找数据对吧

对毕竟机器学习最重要的部分之一

就是数据

data song比赛的奖项是怎么设置的呢

一般各个地区赛他都会有一到三等奖

不过名额不多

最后的决赛呢

一般只授予一个小组

不过只要你进了决赛

那即使拿不到奖金和证书

各种现场照片

新闻报道也不会少

那这些都是可以记入自己的简历的

对找工作非常有帮助

好的那关于Datathon

我们应该介绍的很全面了

如果听众朋友们

要想获取评估阶段和比赛阶段的真题

这个资料啊

我们对会员都是开放的

那你要不要介绍一下

会员都有哪些福利

这个会员啊

指的是Quantide Research platform

我们在公众号发的一些文章

许多都配有Notebook

这些notebook

都是在这个平台上

可以查看和运行的

对关于Datathon的真题

我们也会陆续放进来

好的以上就是本期的所有内容啦

我们下期再见!再见!