当前位置:首页 >财经 >95后AI“天才少女”刷屏!雷军千万年薪挖角  !|AI

95后AI“天才少女”刷屏!雷军千万年薪挖角  !|AI

2025-05-10 12:45:15 [新闻] 来源:大冢网

与DeepSeek一起进入大家视野的天才少女,是屏雷95后AI“天才少女”罗福莉。她曾在DeepSeek参与了DeepSeek-V2的军千角研发,是薪挖这款模型的关键开发者之一。在DeepSeek-V3发布前几天,天才少女媒体报道称小米创始人雷军已开出千万年薪,屏雷将罗福莉招至麾下,军千角罗福莉将就职于小米AI实验室,薪挖领导大模型团队。天才少女

“AI界拼多多”刷屏海外

据最新发布的屏雷技术报告,DeepSeek-V3参数量为671B,军千角激活参数为37B,薪挖使用的天才少女预训练token量为14.8万亿。其多项评测成绩超越了阿里的屏雷Qwen2.5-72B和MetadeLlama-3.1-405B等其他开源模型,并在性能上和世界顶尖的军千角闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

“中国AI公司Deepseek发布并开源了一个前沿的大语言模型,而其训练的预算却非常低。”前OpenAI联创、知名AI科学家AndrejKarpathy在其个人社交平台上表示,DeepSeek-V3整个训练过程仅用了不到280万GPU小时,相比之下,Meta旗下顶尖的开源模型Llama-3405B的训练时长是3080万GPU小时。如果DeepSeekV3的优良表现能够得到广泛验证,那么这将是资源有限情况下对研究和工程的一次出色展示。

若从成本上进行更直观的对比,假设H800的租金为每GPU小时2美元,DeepSeek-V3的总训练成本仅为600万美元不到,是Llama-3405B超6000万美元训练成本的十分之一不到。

极高的性价比让DeepSeek-V3一经发布便引发国内外广泛关注。Meta的AI研究科学家田渊栋称“在非常有限的预算下实现强劲表现”,“这是一项了不起的工作”。知名AI数据公司ScaleAI创始人兼CEOAlexandrWang也表示,DeepSeek-V3“训练所需计算量减少了10倍”,“在美国休息的时候,他们努力工作,以更低的成本、更快的速度和更强的实力迎头赶上。”

这一圈粉无数的大模型,由被称为“AI界拼多多”的DeepSeek研发。公开资料显示,DeepSeek专注于开发先进的大语言模型和相关技术,由国内知名量化资管巨头幻方量化于2023年创立,也被美国硅谷誉为“来自东方的神秘力量”。

事实上,DeepSeek并非第一次“出圈”。早在半年前,其发布的DeepSeek-V2就因性能达GPT-4级别,但开源、可免费商用、且API价格仅为GPT-4-Turbo的百分之一而引发业内关注。对于为何能做到如此高的性价比,DeepSeek官方解释称,DeepSeek-V2采用了创新的架构,例如注意力机制方面的MLA和前馈网络方面的DeepSeekMoE架构等,以实现具有更高经济性的训练效果和更高效的推理。

正因为在训练效率和成本方面的优势,DeepSeek也是国内最早开启大模型降价的厂商,也是大模型价格战的源头和推动者。在其发布DeepSeek-V2之后,字节、阿里、百度等厂商纷纷跟进降价。同时,DeepSeek也是中国互联网大厂以外,唯一一家储备了万张A100芯片的公司,这为其早期的技术研发提供了坚实的算力基础。

“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”在回应当初为何打响大模型价格战第一枪时,DeepSeek创始人梁文锋表示。这位毕业于浙江大学电子工程系的80后,一直潜心研究技术。据媒体报道,梁文锋在工作中始终保持着低调的作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。

一名人工智能行业资深业内人士向证券时报记者分析称,DeepSeek以200人左右的小团队,且不依靠外部融资,做出了一个有性价比并被全球主流AI界人士所认可的大模型。“一是他们在早期就买了很多算力卡,投入了很多资源做研究;二是他们是做量化的,不像大厂有其他各种各样的盈利需求,也跟他们不构成竞争关系,能更专注于模型开发。”该业内人士表示。

背后的AI“天才少女”引发关注

在DeepSeek-V3爆火之后,背后的AI“天才少女”罗福莉也进入了人们的视野。据媒体报道,小米创始人雷军以千万年薪招揽DeepSeek开源大模型DeepSeek-V2的关键开发者之一罗福莉,领导小米AI大模型团队。

公开资料显示,罗福莉本科就读于北京师范大学计算机专业,硕士毕业于北京大学计算语言学专业。2019年,还在北大读硕士的她在人工智能领域顶级国际会议ACL上发表8篇论文,登上了知乎热搜。罗福莉用本人知乎账号回应称,“这次投稿ACL是我近一年的产出,所以我认为自己是付出了足够的努力的,当然也可能也有运气成分加持。”

硕士毕业后,罗福莉先是进入阿里达摩院做人工智能研究,从事预训练语言模型相关的工作,负责阿里达摩院AliceMind开源项目,主导开发了多语言预训练模型VECO。2022年,罗福莉加入幻方量化从事深度学习相关策略建模和算法研究,后又跳槽到DeepSeek担任深度学习研究员,参与研发MoE大模型DeepSeek-V2。

今年5月,在DeepSeek-V2发布以后,罗福莉在知乎上撰文,发表了对于DeepSeek-V2的看法。她表示,“单论DeepSeek-V2模型的中文水平,是真实处在国内外闭源模型的第一梯队”,“外加1元/百万输入Tokens的价格,只有GPT4价格的1/100,性价比之王”。

事实上,罗福莉被重金招入小米,是小米全面发力AI大模型的其中一个动作。2023年4月,小米正式组建了AI实验室大模型团队,并表示将不断挖掘AI相关的用户场景,发挥自身技术优势,并以开放的态度与合作伙伴开拓更多机会。今年11月,小米成立了专门的AI平台部,小米的元老级技术大牛张铎为负责人。张铎本硕毕业于清华计算机系,曾被雷军公开称赞是“小米的大神”,送以“铎神”的称号。

兵马未动,粮草先行。除了招募人才以外,最近,媒体报道称小米正着手搭建自己的GPU万卡集群,并在过去几个月里持续提升算力储备,为大模型研发提供更充分的算力供给。雷军在公开演讲时曾表示,小米做大模型的思路和很多公司不太一样,选择主力突破的是轻量化和本地部署。对于小米这样无论在手机还是造车上都讲究“性价比”的公司而言,如何在烧钱的大模型业务中平衡成本,无疑是雷军考虑的核心问题。而这,或许也是拥有DeepSeek-V2研发背景的罗福莉被雷军看中的原因。

(责任编辑:军事)

    推荐文章
    • 浙江广厦男篮迎战强力内线外援博班 加固球队防守体系

      浙江广厦男篮迎战强力内线外援博班 加固球队防守体系2025年1月2日,浙江广厦篮球俱乐部宣布正式与塞尔维亚籍内线球员博班·马扬诺维奇签约。目前,这位NBA征战9个赛季的“高塔”已经抵达杭州 ,并即将完成相关手续后代表广厦男篮出战。博班·马扬诺维奇于19 ...[详细]
    • 寒冬至心脑血管“怕冷” 专家支招儿保健康

      寒冬至心脑血管“怕冷” 专家支招儿保健康据介绍,脑动脉瘤是脑血管壁上的异常膨出。脑动脉壁先天性薄弱 ,在血流不断冲击下形成局部膨出,就像血管壁上吹起的一个气泡。这个“气泡”是藏在颅内的一颗“不定时炸弹”:当患者出现精神紧张  、情绪激动、劳累 、用 ...[详细]
    • 涉收受贿赂侵占政治献金 柯文哲被检方求刑28年半

      涉收受贿赂侵占政治献金 柯文哲被检方求刑28年半检方在量刑意见中提及 ,柯文哲图予财团百亿不法利益并收受千万贿赂 ,侵占数千万政治献金 ,犯后尚于办公处所遭查获撕碎便条纸,上载指示共犯出境等文字。检方侦查起诉新闻稿未揭露被告全名 ,相关人员包括柯文哲、李文 ...[详细]
    • 2024年全年粮食收购超过8000亿斤

      2024年全年粮食收购超过8000亿斤在精心组织好市场化收购的同时 ,国家有关部门先后批准在河南、江苏 、黑龙江、安徽等省启动中晚稻最低收购价执行预案,开辟收储库点228个,收购最低收购价稻谷100多亿斤。中储粮在各玉米主产区共布设收购库点超 ...[详细]
    • 香港赛马会倾情助力,携手打造广东美丽乡村体育新面貌-

      香港赛马会倾情助力,携手打造广东美丽乡村体育新面貌-2025年1月2日  ,香港赛马会简称“马会”)与广东省体育总会于香港从化马场共同签署了一份关于体育发展的合作备忘录。此次签署的合作备忘录旨在延续和深化双方长期的友好合作关系 ,并进一步推动粤港澳大湾区体育 ...[详细]
    • “考古中国”进展更新 !夏文化探索有重大突破

      “考古中国”进展更新
!夏文化探索有重大突破河南省安阳市殷墟遗址山西省昔阳县钟村墓地四川省广汉市三星堆遗址河南省洛阳市二里头遗址画重点 :首次完整揭露出十字路口区域四个分区围墙并立的布局二里头遗址位于河南省洛阳市偃师区 ,地处洛阳盆地中部  、古伊洛河 ...[详细]
    • 上海港年吞吐量突破5000万,中国港口群集体崛起

      上海港年吞吐量突破5000万,中国港口群集体崛起目前,上海港已拥有近350条国际航线,覆盖全球200多个国家和地区的700多个港口。随着国际航运网络加速构建,上海港对全球航运资源的配置能力不断提升 ,航运金融 、保险、国际海事仲裁等功能持续集聚。上港集 ...[详细]
    • 殡葬专业渐火背后,还有多少偏见待摒弃

      殡葬专业渐火背后,还有多少偏见待摒弃殡葬专业走红是社会进步的体现 ,但不少人仍对这一专业存在误解 。比如 ,有人觉得这一专业的毕业生就是做些运尸火化之类人人会做的杂事而已 ,无非是混张文凭 ,而相关高校则是在趁机收钱;一些人对殡葬从业者抱有恐惧心 ...[详细]
    • 历史罕见 ,工行H股被举牌

      历史罕见
,工行H股被举牌首页资讯视频直播凤凰卫视财经娱乐体育时尚汽车房产科技读书文化历史军事旅游佛教更多国学数码健康家居公益教育酒业美食财经 财经资讯 正文历史罕见 ,工行H股被举牌中国基金报下载客户端独家抢先看2025年01 ...[详细]
    • 长江干线港口货物吞吐量首次突破40亿吨

      长江干线港口货物吞吐量首次突破40亿吨熊宇表示,长江是贯通东西、连接南北 、通江达海的一条水运大动脉。目前 ,长江航运的运输规模相当于数十条重载铁路线满负荷运行 。长江运输了煤炭、金属矿石、砂石等大宗原材料,为沿江经济“引擎”提供了源源不断的“ ...[详细]
    热点阅读