第一段科研经历总结

这个暑假一共两个月的时间，总共进行了三篇工作。一篇不work，一篇放弃，一篇做出了成果，准备投稿。
梳理一下自己的科研过程：
- 首先海量阅读论文，前期在刚入门的时候笔记写的还多一点，后期阅读量上来之后根本就没空写笔记。每天都要读8~10篇左右。基本上不太有时间抽空对每个文章写笔记。反而是需要一段时间对某个领域了解之后，静下心思考这个领域，然后复盘进行总结
- 读论文，读什么样的论文很重要。我觉得论文分为两种类型：提供insight型和方法trick型。即，你能从这篇文章中学到一些对领域知识的洞察，即为insight型。你能学到一些解决问题的trick，即为trick型。在此我举两个例子：
- 清华大学的Beyond the 80/20 Rule- High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning就是一篇典型的insight型的文章。从这篇文章中，你可以洞察到高熵token的重要性，以及它可能是影响算法的重要因素。从而启发你进入更深的思考，以及做一些相关的实验。
- GPG：group policy gradient算法。其本质就是把group advantage换到了TD3上面。其实想法很naive。你就可以从中学习到Advantage的替换是算法创新的一个trick。
- 关于代码工程部分。我觉得最好的实践就是给代码一行一行注释，知道它每一行在做什么。由于python这种解释器型的语言天然的劣势，其可读性非常的差。可以用断点的方式进行debug，这样可以帮助你提高对于整个代码数据流的理解。最好跟着断点走一遍训练流程，每一步都注释下来，这样一定会能读懂
- 还有一点要注意。挂机很重要。我最开始的时候不懂得可以把要评测/要训练的所有模型写到一个shell里面，然后挂机。极大的降低了我的效率。
- baseline的复现优先于自己的想法的实现。你在复现的时候，大概率就能察觉到baseline到底哪里做的不好，而且如果baseline表现好的很夸张，这样你也可以节省掉实现自己想法的时间。

关于自己的不足：
- 代码依赖AI严重，我打算在大四或者gap的时候努力提升代码的阅读水平和写作水平
- 数学功底薄弱。本来有一个比较好的纯理论的想法，但是后续认识到推bound太难，遂放弃。需要提高水平再来做
- 多机多卡训练原理解读不足。需要了解更多包括ray的底层工作机制。

第一段科研经历总结

BIMU

其他文章

一定要和同行多交流

编译概述