最近在申请暑研(暑期研习),目前申请了两个,申请的第一个老师和我说,说他已经招满了,让我去申请另外一个老师,然后我就马上给第二个老师写邮件,出乎意料的,这个老师很快地给我回了邮件,然后让我加他微信,说我们可以聊一聊
之后我们第二天约了一下,聊了大概半个小时,主要问了这样的几个问题:
- 为什么要从物理系转到生物
- 在做分子对接的这个项目的时候,蛋白序列是怎么来的
- 解释一下细胞扰动预测和基因调控
聊到最后,老师说他们实验室主要的背景是数学和物理,哪怕是计算机的都很少——因为他觉得学计算机的数学也不太行,然后这时候我就知道自己要被刷了
其实在面试刚结束的时候,我还是有点不甘心的,因为我觉得其实我简历还挺漂亮的,有物理系的背景、有软件所的项目、有开源项目经历,但是PI说你不行就是不行
而且经过这次面试「拷打」其实我想清楚了很多问题
是为了刷简历 or 科研#
这是一个很好的问题,我去找实习,去找暑研,到底是为了什么,是为了做科研吗?我想应该不是,因为找的都是比较牛逼的大组,他们做的方向我并不是很喜欢;是为了刷简历吗?我想应该是,因为经常刷小红书,看到很多和我差不多的大二、大三学生,大家的简历都非常漂亮的经历,有的有文章,有的有各种厉害的实验室或者大厂实习
看多了,不焦虑是不可能的,但也正是因为焦虑,才让我变得很急很急,甚至在前面面试PI问我最简单的怎么从转录组获得蛋白序列还要思考半天
大二学生能力的边界到底在哪里#
这其实是对本科生科研的一个反向思考,我们进入到实验室,放弃我们的空闲时间,投入到科研训练当中,到底是为了什么?
以我们学校的生物本科生的教学安排为例,大一会上完数学、物理、化学等基础课,数学只会学高数B,化学会上完无机和有机,Python的编程课甚至不会教你怎么装第三方的包和依赖
其实我觉得这种状态,如果是去实验室刷试管可能都没人愿意用,尽管导师和师兄师姐人比较好,还是会给安排一些活,但是事实就是这样啊,基本干不了什么「严肃的科研」
那如果是做生物信息学,也就是所谓的干实验呢?我觉得其实结果也是差不多的,第一Python课上学的完全无法支撑科研,用课上的知识去装一个biopython库恐怕都难,另外生科没有安排很完整的数学思维训练,现代的人工智能算法是建立在线性代数和离散数学之上的,但是生科连线性代数都没有设置
那我们为什么还要进实验室#
对我来说,我觉得进实验室参加科研训练的一个很重要的原因是,我觉得探索一些别人还没有做的事情是很有意思的,另外也能用一些实验室的资源(比如说隔壁组非常牛逼的A100)来做一些事情
我是有过编程和计算机基础的,在参加学校的科研训练之前,我就能熟练写Python,并且做Linux的运维的,我想这是很多生科和我同龄的同学所不具备的
在做干实验的时候,我们大多数时候是在和环境、依赖、数据是否正确打交道的
我接触的第一个科研立项的项目是写一个分子对接的Pipeline,我当时很自信地和我的导师说,我说我一个礼拜就能做完,我两位师姐露出很惊讶的表情
最后的结果是打脸的,这个项目等我大二第一学期结束还没有做完,一直耽搁到了过年才勉强没有烂尾
如果我继续做云原生,传统的前后端开发的话,我可能这一辈子都不知道「高通量」是什么概念,最后我们的这个Pipeline完成了亿级的分子对接,这也是我非常骄傲的一个成果
我们是不是太快了#
之前和一些开源社区的朋友做了一些公众号推文的工作,然后我当时提出了一个观点,我说「字别写太多,大模型时代大家不会耐心去看」
这其实也在一定程度上,反应了我当前的状态,因为有了大模型,如果有什么问题可以直接问AI,根本不用专门去读某本专著,认真读某篇论文,这其实也道出一个问题,在大模型时代,随手到来的答案是不是让系统性的知识变得廉价了
我觉得这个「快」要从两个方面来看
认识我的朋友都知道,我喜欢一个人在路上走,在路上走的时候我会带上耳机,然后打开Gemini,用语言输入和他来来一场头脑风暴,针对一个小的问题来进行提问和对话,Gemini免去了我解答问题的成本,以往我们需要借助搜索引擎,要自己过滤信息,探索欲望的多巴胺因此流失,但是现在可以借助这股劲把问题解决了
另外一个需要去看待的「快」,其实是科研上的
比如我们实验室是做鳞翅目昆虫与植物次代谢物互作的,如果没有Gemini,我可能甚至要半个学期才能搞懂师姐他们到底在做什么,用的什么方法,我也没办法快速上手Pipeline的搭建,我觉得这是大模型在科研中好的地方
另外不那么好的一点是大模型带给我们的,虚假的「掌控感」,有了大模型,可能就没有那么有想读文献的欲望了,我认为这一个学期科研带给我的其实没啥学术上的帮助,可能更多的是怎么和集群打交道,这也是现在我非常焦虑的一点,如果是湿实验的话倒还好,至少会跑胶嘛
所以我觉得未来需要慢下来,去学一些系统化的东西,甚至是做数据库清洗这种简单的工作,我觉得都是有意义的,现在我在和师姐做一个鳞翅目的数据库,实际做的过程我们发现,这里面很多数据库对于同一物种的收录是不一样的!如果没有一些生物学和分类学的基础,其实是很难做好,很难对齐的
还有一个比较有意思的例子,我寒假帮师姐写了一个小脚本,然后我用Codex把需求给输入进去,差不多10分子Codex就完成了全部的代码,并且完成了测试,但是我师姐一用就知道这东西不对,但是我就看不出来,人类专家的知识在大模型和智能体时代,我觉得是最珍贵的东西,编码智能体能在软件工程的领域大放光彩,但是在生物学这个不那么稳定领域并没有那么完善,代码本质上也是解决问题的一种手段
漫漫#
今年寒假回家的时候,我认识了一位中科院的老师,是做脑科学的,我当时问他说要在本科要做些什么,然后他当时和我说,找一些自己感兴趣的东西做一下
这话真的是说起来简单,做起来难,很容易被带节奏,加入到内卷的行列中
我觉得还是先慢下来吧,只有慢下来,才有机会在beloved生物世界漫游
