banner
NEWS LETTER

第一段科研经历总结

Scroll down

这个暑假一共两个月的时间,总共进行了三篇工作。一篇不work,一篇放弃,一篇做出了成果,准备投稿。
梳理一下自己的科研过程:
- 首先海量阅读论文,前期在刚入门的时候笔记写的还多一点,后期阅读量上来之后根本就没空写笔记。每天都要读8~10篇左右。基本上不太有时间抽空对每个文章写笔记。反而是需要一段时间对某个领域了解之后,静下心思考这个领域,然后复盘进行总结
- 读论文,读什么样的论文很重要。我觉得论文分为两种类型:提供insight型和方法trick型。即,你能从这篇文章中学到一些对领域知识的洞察,即为insight型。你能学到一些解决问题的trick,即为trick型。在此我举两个例子:
- 清华大学的Beyond the 80/20 Rule- High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning就是一篇典型的insight型的文章。从这篇文章中,你可以洞察到高熵token的重要性,以及它可能是影响算法的重要因素。从而启发你进入更深的思考,以及做一些相关的实验。
- GPG:group policy gradient算法。其本质就是把group advantage换到了TD3上面。其实想法很naive。你就可以从中学习到Advantage的替换是算法创新的一个trick。
- 关于代码工程部分。我觉得最好的实践就是给代码一行一行注释,知道它每一行在做什么。由于python这种解释器型的语言天然的劣势,其可读性非常的差。可以用断点的方式进行debug,这样可以帮助你提高对于整个代码数据流的理解。最好跟着断点走一遍训练流程,每一步都注释下来,这样一定会能读懂
- 还有一点要注意。挂机很重要。我最开始的时候不懂得可以把要评测/要训练的所有模型写到一个shell里面,然后挂机。极大的降低了我的效率。
- baseline的复现优先于自己的想法的实现。你在复现的时候,大概率就能察觉到baseline到底哪里做的不好,而且如果baseline表现好的很夸张,这样你也可以节省掉实现自己想法的时间。

关于自己的不足:
- 代码依赖AI严重,我打算在大四或者gap的时候努力提升代码的阅读水平和写作水平
- 数学功底薄弱。本来有一个比较好的纯理论的想法,但是后续认识到推bound太难,遂放弃。需要提高水平再来做
- 多机多卡训练原理解读不足。需要了解更多包括ray的底层工作机制。

如果您喜欢我的文章,可以考虑打赏以支持我继续创作.

其他文章
请输入关键词进行搜索