导航菜单
首页 » 无极荣耀 » 正文

brown-王童:知行合一 · 当大数据遇到生物学

[ 导读 ]清华-青岛数据科学研讨院(以下简称“数据院”)自2014年4月建立以来,秉承“校园统筹,问题引导,社科打破,商科优势,工科整合,业界联盟”的辅导准则,建立跨学科穿插交融渠道,立异跨学科穿插培育形式,培育具有大数据思想和立异才干的“”型人才。

大数据才干进步项目由清华大学研讨生院,数据院及相关院系一同安排,面向在校研讨生(包含硕士和博士)。项目构成大数据思想与技能、跨界学习、实操运用相结合的大数据课程体系和线上线下混合式教育形式,旨在进步学生数据剖析和办理数据的才干,让学生在本专业的学习和实践中扩宽思想,并训练在本专业范畴的数据研讨才干。

到2019年6月,已有来自31个院系的271名同学取得“大数据才干进步项目”证书,其间信息类同学160人,非信息类同学111人。

大数据才干进步项目究竟为同学们带来了什么改动?下面,就让咱们倾听优异结业生们与大数据结缘的故事,一同发现大数据对他们学习、科研和创业的启示与协助吧!


2019年结业于生命科学学院生物学专业核算生物学方向的博士生王童,在2015年参加大数据才干进步项目。在大数据的四年中,他将大数据技能与生物学原理紧密结合,运用深度学习和大数据技能进行蛋白质三维结构猜测和蛋白折叠机理的研讨,第一次把深度学习技能和大数据技能运用到了片段拼装法的蛋白质结构猜测中。他行将入职微软亚太研讨集团,任高档算法工程师。

一、我与大数据:专业结合,归纳培育,团队协作,长时刻追寻

与大数据结缘,王童更多是出于自己的专业。核算生物学常常面临的是百亿到千亿量级的数据量,需求屡次处理、清洗的杂乱数据。

“生物信息也是一种大数据。”

大数据才干进步项目的课程包含了大数据理论学习、大数据实践实习以及相关知名企业的观赏造访等内容。

理论学习首要是对本科所学的数理基础常识、计算学习办法,高等数学学习办法等的回忆、总结和收拾。项目实践首要是将理论常识运用到详细的项目和实践中。

以王童形象最深的徐葳教师的大数据体系课程为例,前三分之一以教学经典算法、软件和操作等大数据基础常识;后三分之二则是分组做一个实在的数据课题。他其时参加的一个课题是《微博水军的判别》。该课题颇具挑战性:数据量多达数千万条,需求用教师上课教的memory reduce的算法进行数据处理;数据很杂,需求做许多的数据清洗。

“理论和实践相结合,知行合一。”王童在采访中反复强调了这一观念。“清华的同学很聪明也很尽力。可是在实践运用和作业中仍是需求从头去学一些东西和怎么将理论运用到实践傍边。实现从理论到运用的过渡,我主张咱们运用好在大数据实践课和实践项目中运用讲堂上学习的内容的时机;而且,将大数据理论运用到研讨生的实习或许博士生的课题中也是一个很值得测验的办法。”

企业对接需求了解企业的需求,报告作业进展和洽谈企业可提供的协助。在这个进程中,王童实在地感知到这个职业的现状,有助于他往后的实习和职业挑选。brown-王童:知行合一 · 当大数据遇到生物学他也主张同学们要勇于和项目、企业、公司协作。“大数据离不开实践的项目,只需实在和企业沟通与协作,你才干实在了解企业的需求以及怎么把技能转变为出产力,再把出产机转化为产品和价值。技能落地和技能变现是在讲堂上和实验室很少触及的,可是却是需求同学们仔细考虑的一个很重要的问题。

大数据才干进步项目汇集了来自不同专业、不同年纪、不同布景的同学,在团队协作中,尽管开端或许会有妨碍,但最终收成的是思想的磕碰和深沉的友谊。

团队组成许多样brown-王童:知行合一 · 当大数据遇到生物学,文理工科都有,组员各自发挥自己所长,核算机系同学工程才干和代码实践才干强,我作为组里仅有的博士生担任规划科研道路和模型算法,文科的同学则担任项目需求调研和与客户的沟通,清晰客户的需求和洽谈咱们需求的协助,整个课题做下来,咱们这个团队里建立了十分深沉的友谊。

对学员的长时刻追寻是大数据才干进步项目的杰出特色。在大数据的四年里,王童学到了许多。而在结业今后,他与大数据的联络也不曾连续。

“我一向和教师们保持联络,活跃参加一些相关的活动,教brown-王童:知行合一 · 当大数据遇到生物学师们也对我有长时刻的盯梢和注重,也很关怀我的结业去向和作业。我觉得这种长时刻盯梢的培育形式对项目里的学员有十分大的协助。”

二、大数据与生物:优化猜测蛋白质结构的算法

王童的博士研讨课题是蛋白质结构猜测,猜测的模型通过两个阶段的优化,各项目标都取得了巨大腾跃:

“我的博士研讨课题可以分为两个阶段,第一个课题是和哈佛大学协作的联合项目,这个项目将序列猜测蛋白质结构的F1-Score从之前其他优异算法取得的45%进步到了约60%,第二个课题则在国际范围内首要广之旅官网开发了一些相关算法,进一步改进第一个课题中的模型,将第一个课题中的F1-Score从60%进步到90%。可以说咱们的研讨效果是在所有目标上都是抢先国际的。”

在优化模型的进程中,大数据算法在其间发挥了重要作用。

“第一个课题首要运用了传统机器学习的算法,包含逻辑回归模型、集成学习的办法去建模,处理的是百亿量级的数据。咱们测验了经典传统机器学习的三种模型:逻辑回归,随机森林,支撑向量机,最终发现逻辑回归特别合适海量数据样本的处理,效率高、速度快。在准确性差不多的情况下逻辑回归的速度是其他两种办法的几十倍乃至上百倍。可是逻辑回归模型的问题是它的准确性不高。

第二个课题用的技能是LSTM(长短时记忆网络)、聚合残差网络ResNeXt和常识蒸馏技能。前两个技能特别合适处理序列问题和对序列信息建模,也进步了准确率,可是与此同时速度也减慢了。而常识蒸馏技能首要是用来对模型进行加快,也可以说是一种‘加快算法’,在准确brown-王童:知行合一 · 当大数据遇到生物学性简直不变的情况下,咱们的模型运转时刻缩短了三倍以上。”

王童用图表生动地为咱们展现了他们算法的优势:



咱们DeepFragLib算法与其他SOTA算法比较在各项目标上进步显着,运用咱们算法发生的猜测结构(brown-王童:知行合一 · 当大数据遇到生物学蓝色)比其他算法发生的猜测结构(赤色)与实在晶体结构(绿色)比较更为挨近。



三、挑选大数据:认清方向,进步自我

谈到对当时在大数据才干进步项目学习、将来或许进入大数据的同学的主张时,王童说:

我觉得在大数据的学习也是一个认清自己,进行职业生涯挑选的进程。由于咱们参加项目比较早,对自己的职业生涯也比较苍茫。在大数据才干进步项目中从理论到实践到实习的进程中,实在地在企业作业、和企业打交道会发现自己是更喜爱企业的气氛仍是纯科研的气氛,然后找到自己职业生涯开展方向。

“此外我觉得大数据才干进步项目包容性很强,同学们来自校园的各个专业、年纪也不同。brown-王童:知行合一 · 当大数据遇到生物学不管是什么专业、什么年纪的同学,只需有超卓的才干和效果都能取得奖学金。

咱们必定要趁早学,活跃学。参加项目四年来,数据院给我带来了许多的收成和支撑。假如咱们参加了这个项目,坚持下来必定会有收成。大数据才干进步项目开展至今,从小到大,资源从少到多,能提供给学员的也越来越多,主张咱们在项目中要活跃地参加。

最终,从我自己的阅历中来说,我觉得不管是科研仍是实习、找作业,更多受注重的是归纳实力。我期望学弟学妹可以充分运用校园的资源,多走出书本,多训练自己,进步自己的言语表达才干、沟通才干和安排协调才干,进步归纳本质。”

口述:王童

采访:陈沅倩

收拾:肖祎涵

— 完 —

注重清华-青岛数据科学研讨院官方微信大众渠道“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

二维码