1024g抖音版|第44节-凯发ag旗舰厅

我要跟贴

2025-03-12 14:14:49
回复

快科技2月5日消息，今天是蛇年开工第一天，很多企业都会发放"开工利是"，讨个好彩头。小米也不例外，小米公司昨天就已经准备好了开工红包，今天由雷军、许斐等高管亲自发放给员工。魏思琪晒图称自己领到两个，她还透露今年有隐藏款，红包中装着蛇年纪念钞。2025年蛇年贺岁纪念钞面额为20元，今年的纪念币、纪念钞十分抢手，一套总价接近1500元。值得注意的是，今年红包封面上还有ultra和小米集团15周年字样。其中的ultra一方面代表小米su7 ultra，今日起样车陆续全国到店，3月发布；另一方面代表着小米15 ultra，将在本月中下旬发布，是蛇年第一款超大杯。据卢伟冰近日介绍："春节期间，不论是小米手机，还是汽车，还是家电类产品，销售都非常火爆，这是跟往年非常大的不一样。很多用户即便过年回家，还是会优先选择小米之家购物。"近期，小米股票也突破38港元，不断刷新历史新高，在手机、家电等行业稳扎稳打，获得了极高的预期。尤其手机高端化的战略取得出色成果，如今手机方面已经稳坐全球前三，并且遥遥领先于后者，目前的目标就是冲击苹果。

一大早看到罗志祥前女友，周扬青上热搜了！有狗仔拍到周扬青深夜与一男子去酒吧，二人举止亲密，疑似热恋中！当晚周扬青与一男子在酒吧对面马路下车，周扬青穿着短裙，长靴，黑色皮草，头发盘起，气场强大，下车以后周扬青手里拿着外套，蹦蹦哒哒，男方穿着米色裤子，迷彩羽绒服，戴着眼镜，卷发，特别贴心的搂着周扬青的腰过马路，看得出来他是怕周扬青冷！散场以后，周扬青一直在打电话，该男子手里拎着周扬青的包，边走边给周扬青披外套，搂着周扬青的腰，一路小跑上车！举止亲密，疑似新恋情！不得不说该男子全程特别贴心，对周扬青照顾有加，暖男一枚！周扬青有钱，又有颜值，前男友不是明星罗志祥，就是好利来公子哥，现在这位，网友觉得颜值差点意思，还有网友说有点像雪梨前夫！也有网友说看着不像情侣，感觉更像贴身助理或者保镖，一时间热议不断，目前周扬青还没有回应，拭目以待！#周扬青##周扬青新恋情##周扬青新恋情疑曝光##罗志祥周扬青分手##周扬青再发声#
2025-03-12 14:14:49
回复

2月16日，第34届巴塞罗那半程马拉松比赛进行，来自乌干达的选手雅各布-基普里莫以56分42的成绩夺得冠军，这一成绩大幅提升了原世界纪录，成为了男子半程马拉松单次最大幅度提升。人类半程马拉松首次跑进56分时代。基普里莫从比赛开始就展现出了极佳的状态，前5公里仅仅用时13分34秒。第2个5公里基普里莫的配速再次提升，跑完10公里时他的用时为26分46秒。10公里到15公里基普里莫再次提升自己的配速，5公里仅仅用时13分钟。20公里基普里莫的用时为53分09秒，世界纪录近在咫尺。最后阶段基普里莫全力冲刺，56分42秒基普里莫率先撞线完成比赛。这已经不是基普里莫首次打破半马世界纪录，在2021年的里斯本半马比赛中，他跑出了57分31秒的成绩，以1秒优势破了坎迪保持的原世界纪录。去年底在瓦伦西亚半马的比赛中，科杰查将基普里莫的纪录提升了1秒。仅仅几个月之后，基普里莫就再次将纪录收入囊中。大幅提升半程马拉松世界纪录，让人对基普里莫在全马赛场的表现充满了期待。24岁的他将在今年4月份的伦敦马拉松赛上迎来自己的全马首秀，人类历史全马首次破二会不会属于基普里莫？让我们拭目以待。

巨量的关注再次“挤崩”deepseek。1月27日11点左右，deepseek凯发ag旗舰厅官网一度显示“deepseek网页/api不可用”，截至发稿，功能已恢复。而在昨日（26日），deepseek也“崩”了两次。就此，《每日经济新闻》记者联系了deepseek客服。客服人员回答称：“稍后再试。”当记者进一步追问是否由于服务器过载导致此次服务中断时，客服人员未给予答复。与此同时，deepseek在海外又一次掀起巨浪。1月27日早间，deepseek应用登顶苹果中国地区和美国地区应用商店免费app下载排行榜，在美区下载榜上超越了chatgpt。近期，包括纽约时报、经济学人、华尔街日报等在内的多家英美主流媒体都报道了deepseek的研究进展，高度赞扬其模型的强大性能。当地时间1月23日，一位德国顶尖的人工智能研发人员对《自然》评论说，比起openai公司那些闭源的ai模型，deepseek的开源程度“相当优秀”。《纽约时报》引用一位在加拿大从事科技咨询工作的人士的说法称，deepsee-r1才是他们符合他们需求的工具，因为性价比很高。然而，deepseek背后的团队和领头人却非常低调且神秘，公司创始人梁文锋在网上的公开采访只有寥寥几篇。每经记者尝试联系到deepseek的一名员工，他表示，公司规定，不能够对外接受采访。此外，每经记者加入了deepseek的官方交流群。该群的群公告写道，“暂不对外进行项目合作，不提供私有化部署及相关支持服务；deepseek将集中研发精力奉上更强的模型，敬请期待！”每经记者深入探究梁文锋及其deepseek团队的核心成员，揭开它如何从一个默默无闻的小公司，一步步崛起成为震动全球ai圈的“东方神秘力量”的背后故事。创始人梁文锋是浙江大学信息与通信工程专业的硕士，在他带领下的deepseek对人才极其看重，不看经验，只看能力。据多位与deepseek有过接触的行业人士表述，deepseek的优势之处就在于人才密度极高，且多来自于中国本土市场。deepseek团队规模并不大，不到140人，工程师和研发人员几乎都来自清北等国内顶尖高校，鲜有“海归”，而且工作时间都不长，不少还是在读博士。从廉价出租屋到ai“风暴眼”，deepseek创始人梁文锋：我们要做agi在刚刚成立的一年多时间里，deepseek一直不声不响，v2模型的发布成为其破圈的关键。2024年5月发布的deepseek v2提供了一种史无前例的性价比：推理成本被降到每百万token仅1块钱，约等于llama3 70b的七分之一，gpt-4 turbo的七十分之一，deepseek因此被业内戏称为“ai届拼多多”。此外，因为其低调的作风，deepseek又被称“来自东方的神秘力量”。这之后，deepseek也引发了硅谷的恐慌，openai迎来一个最强劲的对手。实际上，deepseek背后并是不什么互联网科技大厂，而是来自金融领域的头部量化：幻方量化。梁文锋（右）图片来源：新闻截图2023年，全球ai热潮爆发，梁文锋也来到了他创业之路的第十个年头。当年5月，38岁的梁文锋宣布要做通用人工智能（agi）。同年7月，杭州深度求索人工智能基础技术研究有限公司（deepseek）成立，专注于ai大模型的研究与开发。梁文锋也成为量化投资者投身ai创业的“第一人”。梁文锋是幻方量化的实际控制人，天眼查信息显示，他在deepseek最终受益的股份比例超80%。图片来源：天眼查1985年，梁文锋出生于广东湛江的一个五线城市。其具体的童年成长轨迹已不可考，从公开信息唯一可知的是，梁文锋有在采访中提到过自己的父亲是一名小学老师。2002年，17岁的梁文锋凭借优异成绩考入浙江大学电子信息工程专业。2007年，22岁的梁文锋又考上了浙江大学信息与通信工程专业硕士，师从项志宇，主要做机器视觉研究。2008年，在浙大读书期间，23岁的梁文锋与同学一起组团队开始积累市场行情数据、金融市场其他相关数据以及宏观经济等数据。2010年6月，25岁的梁文锋从浙江大学信息与通信工程专业硕士毕业，其毕业论文题目为《一种鲁棒的ptz摄像机目标跟踪算法》。毕业后，他没有像周围人一样去大厂做个程序员，而是躲在成都的廉价出租屋里，不停接受进入诸多场景中尝试的挫败，最终切入了最复杂场景之一的金融，并成立了幻方量化。他主导的幻方量化在2016年首次上线ai策略，并于2017年实现投资策略全面ai化，成为量化投资领域的创新先锋。幻方量化成立仅6年，管理规模曾达到千亿，被称为“量化四大天王”之一。它也是国内唯一公开宣称有拥有万张英伟达a100显卡的企业，其算力储备量就算是在一众互联网公司科技公司里，也豪不逊色。在此前接受媒体采访时，梁文锋表示，幻方量化进入ai领域并非偶然，而是源于对ai的深厚兴趣与坚定信念。早在浙江大学攻读ai时，梁文锋就坚信“ai一定会改变世界”，尽管当时这一观点并不被广泛认同。梁文锋强调，幻方量化进入ai领域并非为了复刻chatgpt，而是希望通过研究和探索，解开agi的更多未知之谜。他们将从语言大模型入手，逐步拓展到视觉等领域，致力于打造真正人类级别的ai。梁文锋告诉媒体，“我们要做的是通用人工智能，也就是agi。语言大模型可能是通往agi的必经之路，并且初步具备了agi的特征，所以我们会从这里开始，后边也会有视觉等。”时至今日，梁文锋的日常依旧是看论文、写代码、参与小组讨论，是少有的能堪比一线研究员能力的公司掌舵者。一位ai创业者在社交媒体上爆料称，他去年问过deepseek团队的一名成员：“为什么你们的ai表现这么好？”那位成员回答：“因为我们的ceo自己读论文、写代码、招募人才。”不到140人！deepseek团队成员揭秘：年轻化，清北应届生领衔，还有在读生便宜！开源！好用！凭借集齐这三大优势的ai大模型，deepseek一飞冲天，成为了全球ai圈热议的对象。据多位与deepseek有过接触的行业人士表述，deepseek的优势之处就在于人才密度极高，且多来自于中国本土市场。另一位与deepseek有过接触的行业人士称，“deepseek给出的薪酬待遇非常具有竞争力，这让其一直对人才有很强的吸引力”。在接受媒体采访时，梁文锋认为，如果追求短期目标，找现成有经验的人是对的。但如果看长远，经验就没那么重要，基础能力、创造性、热爱等更重要。从这个角度看，国内合适的候选人就不少。“不一定是做过这件事的人才能做这件事。我们招人有条原则是，看能力，而不是看经验。我们的核心技术岗位，基本以应届和毕业一两年的人为主。”这一原则贯穿到了deepseek的团队组成中，最大的特点就是年轻。应届生、在读生，特别是来自清北的应届生在其中非常活跃。“只招1%的天才，去做99%中国公司做不到的事情。”面试过deepseek的应届生这样评价其招聘风格。这也使得deepseek全员上下，都保持着极致的创新动力。deepseek团队规模并不大，不到140人，工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校，鲜有“海归”，而且工作时间都不长，不少还是在读博士。即便是团队的管理者，也非常年轻。梁文锋曾说过，“v2模型没有海外回来的人，都是本土的。前50名顶尖人才可能不在中国，但也许我们能自己打造这样的人。”让deepseek破圈的v2模型最重要的创新是提出了一种新型注意力，在transformer架构的基础上，用mla（multi-head latent attention）替代了传统的多头注意力，大幅减少了计算量和推理显存。在一众贡献者中，高华佐和曾旺丁为mla架构做出了关键创新，两人都刚从学校出来没几年。高华佐非常低调，目前只知道是北大物理系毕业；曾旺丁来自北京邮电大学，研究生导师是北京邮电大学人工智能与网络搜索教研中心主任张洪刚。deepseek大模型的另一大突破，是通过一种名为grpo的算法，创新训练方法，大大降低了成本。核心成员之一邵智宏此前是清华大学交互式人工智能（coai）课题组博士生，主要研究自然语言处理、深度学习，对构建稳健且可扩展的ai系统有着独特见解。他曾服务于微软研究院，加入deepseek团队之后，参与了多个重要项目的研发，包括deepseek-math、deepseek-prover和deepseek-coder-v2等。朱琪豪图片来源：北京大学程序设计语言研究室网站截图grpo算法创新的另一重要贡献者是朱琪豪，是北京大学计算机学院2024届的博士毕业生，专注于深度代码学习研究。他的同学代达劢则在更早的时候加入这个团队，参与了deepseek大模型从v1到v3每一代的研发，已经是元老级研发人员，也在学生时代获得多项论文奖。负责deepseek大模型训练及推理基础架构的，是同样刚毕业的工程师赵成钢。加入deepseek之前，他曾在英伟达公司实习。deepseek团队中其他核心人员还包括：peiyi wang（北大博士生）、王炳宣（清华博士生）、吴作凡（中山大学博士生）、任之洲（中山大学博士生）、周雨杨（中山大学博士生）和罗翔煜（中山大学博士生）等。这些一边搞研发一边写论文的年轻人，也一次又一次带给梁文锋惊喜。
2025-03-12 14:14:49
回复

根据国家电影专资办的最新统计，2025年中国电影票房已达到惊人的115.66亿！其中，《哪吒2》独领风骚，票房超过50亿，成为观众热捧的爆款；《唐探1900》紧随其后，收获超23亿；而《封神第二部：战火西岐》也表现不俗，票房突破10亿。问题一：说实话，没谁能预料到《哪吒2》能这么厉害，竟然超出所有人的预期！这场面，让人想起了《战狼2》的疯狂崛起，那时票房从33亿直冲到56亿，刷新了无数人的眼界。这不仅仅是票房的狂欢，更是国产动画和电影产业实力的体现。无论是精彩的故事情节，还是出色的制作团队，都让我们对未来的电影市场充满期待。现在的观众，不再只是看热闹，更是参与到这场电影盛宴中。大家准备好了吗？接下来的影片中，或许又会出现下一个现象级的作品！问题二：第七天了，《哪吒2》的票房却依然在逆跌。数据显示，虽然五成的排片却贡献了七成的票房，上座率依旧维持在50%。这说明，目前的排片远远跟不上观众的需求。《哪吒2》不仅诚意满满，还是一部有内容、有深度的精品佳作。它在冲击70亿的过程中，展现了当代观众对优质内容的渴求。与短剧和短视频的快餐文化不同，这部影片赢得了观众的心，甚至在数据上看，它的受欢迎程度超过了过去几年的春节档电影。这种现象背后，反映的不仅是电影本身的吸引力，更是观众对优质影视作品的热爱。随着票房的持续攀升，《哪吒2》无疑为整个市场注入了强心剂，证明了只要用心去制作，观众始终会给予回报。面对这样一部值得观看的作品，影院的排片和观众的需求之间的矛盾显得愈发突出。希望在未来的日子里，更多的优质内容能得到应有的关注和支持，让观众享受到更丰富的观影体验！

#endtext .video-info a{text-decoration:none;color: #000;}
2025-03-12 14:14:49
回复

中国战略新兴产业融媒体记者艾丽格玛2024年12月26日，深度求索（deepseek）发布了其最新人工智能大模型deepseek v3，并同步开源。这两年来，每家ai公司都会对自己的ai大模型不断进行迭代更新，这已不是什么新闻。然而，deepseek v3的发布却在圈内外引发了热烈的讨论，引发了极大的关注。据称，deepseek v3拥有6710亿参数的混合专家模型（moe）在多项基准测试中表现优异，超越了llama 3.1 405b等开源模型，并与gpt-4o、claude 3.5 sonnet等闭源模型分庭抗礼。而更引人注意的是，根据公开消息，其训练成本仅为557.6万美元，远低于gpt-4o等模型的10亿美元预算。deepseek v3的训练方式与算法优化，显著降低了训练和推理大模型对高端硬件的需求——这背后隐含的可能性是，通过软件优化，可以在有限硬件资源下实现顶尖性能。这一点，可以使得ai大模型大大减少对高端gpu的依赖，甚至有人认为，这套训练算法将对“卖铲子”的英伟达等硬件供应商带来巨大的动荡。01 低成本高性能，怎么做到？deepseek官方在其同步开源的53页deepseek v3模型论文中提到，deepseek v3的生成速度达到每秒60个token，api价格仅为claude 3.5 sonnet的1/53。在知识类任务（包括mmlu、mmlu-pro、gpqa和simpleqa）上，deepseek v3的表现优异，已经接近于当前表现最好的模型，即anthropic公司于10月发布的claude-3.5-sonnet-1022。在美国数学竞赛（aime 2024和math）和全国高中数学联赛（cnmo 2024）上，deepseek v3的表现大幅超过了其他所有开源和闭源模型。>> deepseek开源的文档同时，deepseek v3的生成速度从20tps（每秒完成的事务数量）提高至60tps，相比v2.5模型实现了3倍的提升。这种“低成本≠低性能”的特点，正是deepseek v3热度的来源。那么，这种绕过硬件掣肘，从算法上大幅降低成本的路径，究竟是如何达成的？首先，在架构方面，deepseek v3采用了混合专家架构（mixture-of-experts, moe），包含256个专家，每次计算选取前8个最相关的专家参与。想象一下，有一个机器人，它有很多小助手，也就是“专家”。总共有256个专家，每个专家都擅长做不同的事情。现在，假设机器人要解决一个问题，它不需要让所有的专家都来帮忙，因为那样会浪费时间和精力。相反，它会从这些专家中挑选出最厉害的8个专家来帮忙。这些被选中的专家是最适合解决这个问题的，所以它们可以又快又好地完成任务。这种混合专家架构就像是一个聪明的管理者，总是能选出最合适的人来完成任务，也就可以减少不必要的计算和内存消耗。moe通过动态选择部分专家模型处理输入，减少了不必要的计算开销，显著提升了训练和推理效率，例如，谷歌的gemini 1.5就采用了moe架构，通过路由机制将请求分配给多个专家模型。但是，moe模型仍然有些问题。例如，训练过程较为复杂，尤其是门控网络的设计和专家模型的负载均衡问题，可能导致训练不稳定；moe需要将所有专家模型加载到内存中，显存需求较高，限制了其在资源受限设备上的部署；同时，在分布式计算环境中，moe模型的专家模型可能分布在不同的计算节点上，导致通信开销较大，影响整体效率。moe的选择机制可能导致某些专家被频繁调用（过载），而其他专家则很少被使用（欠载）。这种负载不均衡会降低模型的整体效率，甚至影响性能。为了解决这个问题，传统方法通常会引入辅助损失（auxiliary loss），通过惩罚负载不均衡的情况来强制均衡专家的使用频率。然而，辅助损失本身可能会对模型的主任务性能产生负面影响，因为它会干扰模型的优化目标。因此，deepseek v3在混合专家（moe）架构中，引入了无辅助损失的负载均衡策略，通过动态调整专家偏置值，确保每个专家负载均衡，避免了传统辅助损失对模型性能的负面影响。具体来说，deepseek v3根据每个专家的历史使用频率，实时调整其偏置值（bias）。如果某个专家被频繁调用，其偏置值会被降低，从而减少其被选择的概率；反之，如果某个专家很少被调用，其偏置值会被提高，增加其被选择的概率。由于没有辅助损失的干扰，模型能够专注于主任务优化，从而提升整体性能。而且，动态调整偏置值的计算开销较低，不会显著增加模型的计算负担。同时，避免了辅助损失可能导致的训练不稳定问题，使模型更容易收敛。这种无辅助损失的负载均衡策略，是deepseek v3独有的。另外，在传统的transformer架构中，多头注意力机制（multi-head attention, mha）是核心组件之一。mha通过并行计算多个注意力头，捕捉输入序列中的不同特征。然而，mha需要存储大量的键（key）和值（value）矩阵，尤其是在处理长序列时，内存需求呈平方级增长。而且mha的计算复杂度与序列长度的平方成正比，导致在处理长文本时效率较低。deepseek v3使用的mla通过引入低秩联合压缩技术，将键和值矩阵压缩为潜在向量（latent vectors），这就可以帮它大大减少内存占用和计算开销。除了这些，deepseek v3还自创了一种dualpipe流水线并行算法，这也是其高效训练框架中的一项关键技术。在训练大规模ai模型时，通常需要将计算任务分配到多个gpu或节点上进行分布式训练。然而，分布式训练面临两个主要挑战：计算与通信的串行化：在传统流水线并行中，计算和通信操作通常是串行进行的，即在进行通信时，计算资源处于空闲状态，导致资源浪费；通信开销：在跨节点训练中，数据传输（如梯度同步）会占用大量时间，成为训练效率的瓶颈。deepseek v3的dualpipe流水线并行算法通过将计算与通信时间完全重叠，最大化硬件资源的利用率，从而显著提升训练效率。dualpipe算法将训练过程分为两条独立的流水线：计算流水线和通信流水线。计算流水线负责模型的前向传播和反向传播，而通信流水线负责跨节点的数据传输（如梯度同步）。这两条流水线可以并行运行，互不干扰。dualpipe流水线并行算法在实际应用中取得了显著效果，通过将计算与通信时间完全重叠，dualpipe算法将硬件资源的利用率提升到了接近100%。而且，由于计算和通信并行进行，训练时间显著缩短，尤其是在大规模分布式训练中效果更为明显。通过优化通信内核和充分利用高速网络带宽，dualpipe算法将通信开销也降到了最低。此外，在深度学习训练中，传统的浮点数精度通常是32位（fp32）或16位（fp16）。混合精度训练通过在不同计算阶段使用不同精度的浮点数（如fp16和fp32），在保持模型性能的同时，减少内存占用和计算开销。然而，随着模型规模的不断增大，fp16和fp32的计算和存储开销仍然较高。为了进一步优化资源利用，deepseek v3引入了fp8混合精度训练。fp8是一种8位浮点数格式，其存储和计算开销仅为fp16的一半，fp32的四分之一。包括llama系列、mixtral 8x7b、inflection-2、零一万物的双语llm模型以及coat框架下的模型，都通过fp8技术显著提升了训练效率和资源利用率，同时保持了模型性能。deepseek v3还采用了多令牌预测目标（multi-token prediction, mtp），在训练过程中，模型不仅预测下一个令牌，还同时预测后续的多个令牌。例如，给定输入序列“我喜欢吃”，模型可能同时预测“苹果”“香蕉”“与/和”等多个令牌。这种密集的训练信号显著提高了数据利用率，减少了训练所需的样本数量。在推理阶段，模型能够同时生成多个令牌，从而加速文本生成过程。deepseek v3的开源策略引发了全球开发者的广泛关注。openai创始成员karpathy称赞其“让在有限算力预算上进行模型预训练变得容易”。meta科学家田渊栋则惊叹其训练技术为“黑科技”。最重要的是，这一策略降低了技术门槛，为中小企业和初创公司提供了低成本的高性能ai凯发ag旗舰厅的解决方案。>> deepseek-v3的基本架构示意图。在deepseek-v2的基础上，采用了mla（多头潜在注意力）和deepseek moe，以实现高效的推理和经济高效的训练。整理总结可以发现，deepseek v3不论是采用现有的技术，还是独创自己的路线，都另辟蹊径。这或许与它的母公司和创始人的调性脱不开干系。02 “不务正业”的私募巨头深度求索（deepseek）公司的成立和发展，与量化私募巨头幻方量化有着密切的关系。深度求索成立于2023年7月17日，创始人就是幻方量化的创始人梁文锋。幻方量化是中国知名的量化私募公司，专注于利用算法和高性能计算进行金融投资，幻方量化为深度求索提供了强大的资源支持。彼时，幻方量化是“大厂”外唯一一家储备万张a100芯片的公司，这些高性能计算集群和资金投入使得深度求索能够在短时间内推出高性能的大模型。deepseek一跃成名，起因是他们此前发布的deepseek v2开源模型：deepseek v2的推理成本在当时就被降到每百万token仅 1块钱，约等于llama3 70b的1/7，gpt-4 turbo的1/70——deepseek因而被称作“ai界拼多多”。在低成本的压力下，字节、腾讯、百度、阿里的大模型开始纷纷降价——可以说，中国大模型“价格战”由此而始。受到影响的不只是国内的“大厂”，有不少圈内人士都受到了deepseek开源内容的启发。例如，openai前员工andrew carr从deepseek-v2论文中获取灵感，将其训练设置应用于自己的模型。在硅谷，deepseek被称作“来自东方的神秘力量”。semianalysis首席分析师认为，deepseek v2论文“可能是今年最好的一篇”。openai前政策主管、anthropic联合创始人jack clark认为，deepseek“雇用了一批高深莫测的奇才”，还认为中国制造的大模型，“将和无人机、电动汽车一样，成为不容忽视的力量”。有人认为，这种强烈的反响源自架构层面的创新，这是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。创始人梁文锋早年就读浙江大学电子工程系人工智能方向，无比笃信“人工智能一定会改变世界”。在接受“暗涌”的采访时，梁文锋说：“过去很多年，中国公司习惯了别人做技术创新，我们拿过来做应用变现，但这并非是一种理所当然。这一波浪潮里，我们的出发点，就不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。我们认为随着经济发展，中国也要逐步成为贡献者，而不是一直搭便车。过去三十多年it浪潮里，我们基本没有参与到真正的技术创新里。”“中国ai不可能永远处在跟随的位置。我们经常说中国ai和美国有一两年差距，但真实的gap是原创和模仿之差。如果这个不改变，中国永远只能是追随者，所以有些探索也是逃不掉的。”梁文锋在说到成本路线时，表示很意外：“我们只是按照自己的步调来做事，然后核算成本定价。我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”“我们降价，一方面是因为我们在探索下一代模型的结构中，成本先降下来了，另一方面也觉得无论api，还是ai，都应该是普惠的、人人可以用得起的东西。”幻方量化作为量化私募巨头，“囤”了大量的芯片。这也是deepseek得以起步的重要基础。实际上，量化交易需要处理海量数据并进行实时分析，这与ai大模型的训练和推理需求高度契合。幻方量化在高性能计算和分布式系统上的经验，可以直接应用于大模型的开发。同时，量化交易中的算法优化技术（如深度学习、强化学习）与大模型训练中的优化策略（如混合专家架构、fp8混合精度训练）有共通之处。这些技术可以相互借鉴，提升效率。不过，幻方本身的交易成绩和盈利情况在近年来却经历了显著波动，尤其是在2024年。2024年，幻方量化的量化中性策略（如dma策略）因市场波动和监管政策调整（如融券和t 0功能的限制）遭遇了显著回撤。例如，幻方旗下的“慧冲10号a期”在2024年亏损5.36%，近1个月亏损1.33%。2024年初，小微盘股出现流动性危机，导致幻方的量化指增策略（如中证500指增）也受到较大影响。例如，其代表性产品“九章量化多策略1号”在2024年1月至2月期间最大回撤达34.55%。截至2024年7月，幻方量化的旗舰产品“中证500量化多策略”近三年收益率为-12.58%，年内净值收益为-10.07%，与同期中证500指数收益（-10.26%）基本持平。幻方管理的资金规模也从千亿元级的峰值大幅缩减至几百亿。尽管2024年表现不佳，幻方量化在2021年及之前曾取得显著超额收益。据了解，其以指数增强策略为主，通过全市场选股、日内交易和科创板打新等策略获取超额收益。此前，幻方通过多空对冲（如多股票、空股指期货）获取稳定收益，并且是中国首家管理规模突破千亿的量化私募公司。为了在投资之外做更多的研究，搞清楚“什么样的范式可以完整地描述整个金融市场、有没有更简洁的表达方式、不同范式能力边界在哪、这些范式是不是有更广泛适用”之类的问题，幻方从2012年起，就开始关注到算力的储备，并有意识地去部署尽可能多的算力。墙内开花墙外香，可以说，虽然资金规模缩水、业绩表现有争议，但幻方“歪打正着”的开源大模型反而在ai界内掀起了一阵又一阵的巨浪。03 抄了硬件供应商的“老底”？deepseek v3在仅使用2048块nvidia h800 gpu的情况下，完成了6710亿参数模型的训练，成本仅为557.6万美元，远低于其他顶级模型的训练成本（如gpt-4的10亿美元）。这意味着，ai大模型对算力投入的需求可能会从训练侧向推理侧倾斜，即未来对推理算力的需求将成为主要驱动力。而英伟达等硬件商的传统优势更多集中在训练侧，这可能会对其市场地位和战略布局产生影响。训练是指使用大量数据训练ai模型的过程，通常需要极高的计算能力和存储资源。训练过程通常在数据中心完成，耗时较长，成本高昂。推理是指将训练好的模型应用于实际任务（如生成文本、识别图像、推荐商品等），通常需要低延迟和高吞吐量。推理过程可以在云端或边缘设备（如手机、自动驾驶汽车）上进行。为什么推理算力需求会成为主要驱动力？随着各类大模型的成熟，许多企业和开发者可以直接使用预训练模型，而不需要从头训练。例如，gpt-4和本文所述的deepseek v3等模型已经提供了强大的通用能力。对于特定任务，企业通常只需对预训练模型进行微调，而不需要大规模训练，这减少了对训练算力的需求。与之相对地，生成式ai在文本生成、图像生成等领域的应用迅速扩展，推理需求激增。例如，chatgpt每天处理数百万用户的请求，需要强大的推理算力支持。在自动驾驶、智能家居、工业互联网等领域，推理需要在边缘设备上实时完成，这对低功耗、高性能的推理硬件提出了更高要求。训练大模型需要数千甚至数万块gpu，成本高达数百万美元。例如，gpt-4的训练成本估计超过1亿美元。推理对算力的需求远低于训练，但规模更大。chatgpt的推理成本虽然低于训练，但由于用户量巨大，总体算力需求仍然很高。英伟达的gpu（如a100、h100）在训练大模型时表现出色，提供了强大的计算能力和显存带宽。例如，gpt-3的训练使用了数千块英伟达v100 gpu。英伟达的cuda平台还为开发者提供了丰富的工具和库，简化了大规模模型训练的开发过程。所以在训练侧，英伟达的优势几乎是压倒性的。不过，在推理侧，英伟达的gpu能效比相对较低，尤其是在边缘计算场景中，功耗和成本成为瓶颈。以openai为例，虽然它使用英伟达gpu支持chatgpt的推理，但也在探索专用推理硬件以降低成本。还有特斯拉，则是使用自研的fsd芯片（基于npu）进行推理，以满足低功耗和实时性需求。单纯依赖硬件性能的提升已无法完全满足市场需求，而软件优化、算法创新和生态构建的重要性日益凸显。与其说这是对硬件供应商的挑战，不如说，在当前这个“摩尔定律”显著放缓、行业面临瓶颈期的时节，这是一个转型的机遇。随着半导体工艺接近物理极限，硬件性能的提升速度放缓，单纯依赖硬件升级难以满足ai计算的需求。而高端硬件（如gpu、tpu）的采购和维护成本高昂，且能耗较大，无论是在大规模普及中还是对于资金薄弱的中小企业来说，硬件成本费用都是一个沉重的负担。目前看来，deepseek带来的最大的启示，就是通过算法优化（如混合精度训练、模型压缩、量化等），可以在不增加硬件成本的情况下显著提升计算效率。而英伟达等硬件商则更应该通过提供软件工具和框架（如cuda、tensorrt），构建开发者生态，从单纯的硬件销售转向提供综合凯发ag旗舰厅的解决方案（如云服务、ai平台）。例如，英伟达通过cuda平台为开发者提供了丰富的工具和库（如cudnn、cublas），简化了ai模型的开发和优化过程。尽管amd、英特尔等公司推出了类似平台（如rocm、oneapi），但它们在性能和生态成熟度上仍无法与cuda匹敌。semianalysis创始人迪伦·帕特尔（dylan patel）指出，英伟达的竞争优势就在于其软件和硬件的紧密结合，cuda的高效性和易用性使得英伟达在ai芯片市场占据了主导地位。英伟达ceo黄仁勋也认为，cuda正是英伟达从图形处理器公司转型为全球计算巨头的关键。可以预见，未来硬件商将开发更多专用ai硬件（如npu、tpu），并通过算法与硬件的协同设计，进一步提升计算效率和能效比。软硬件协同优化和综合凯发ag旗舰厅的解决方案是未来发展的重要路径。
2025-03-12 14:14:49
回复

南都讯记者陈荣梅 2025年情人节，深圳市龙岗区民政局联合龙岗儿童公园推出“龙岗有囍，爱有意思”主题活动，为选择在情人节登记结婚的新人送上诚意满满的福利，包括抽奖、摩天轮体验以及专业跟拍服务等。2月12日和2月14日，到龙岗区民政局登记结婚的新人，在完成登记后可在民政局婚姻登记处免费参与抽奖。每天提供10份大礼，包括一等奖1份（摩天轮体验全程跟拍），二等奖9份（摩天轮体验）。礼包有效期至2025年2月28日，先到先得，抽完即止。此外，新人还可以在每天19点至22点期间，以39元1分钟的价格，通过文字霸屏摩天轮进行告白。

1月21日，国家传染病医学中心，复旦大学附属华山医院张文宏团队在感染病领域顶刊《clinical microbiology and infection》上发表了一项关于新型口服抗流感药物zx-7101a的2/3期临床数据，研究了这种药物在治疗单纯性成人流感中的安全性和有效性，该药物也有望成为流感明星药“玛巴洛沙韦”的国产版本。▍“国产版玛巴洛沙韦”美国食品和药物管理局（fda）于2018年批准了新型帽依赖型核酸内切酶（cen）抑制剂玛巴洛沙韦上市。据张文宏团队介绍，zx-7101a是新型cen抑制剂zx-7101的前药，与玛巴洛沙韦作用机制相同。临床前研究表明，zx-7101a针对甲、乙型流感及高致病性禽流感有广谱抗病毒活性，其体外抗病毒活性与巴洛沙韦相当。最新的临床研究数据表明，zx-7101a能显著加快流感症状缓解，与安慰剂组相比，能让受试者更早达到症状缓解标准。“单剂量口服zx-7101a，能够有效减轻流感症状，快速降低病毒水平并清除病毒，且无需要根据体重调整剂量。同时安全性与安慰剂组相当，具有较好的安全性保障。”研究团队称。▍主流流感用药现状目前，感染人类的流感病毒主要是甲型流感的h1n1和h3n2亚型，以及乙型流感的victoria和yamagata系。我国目前已批准的主流口服抗流感病毒药物根据作用机制分为3种，其中神经氨酸酶抑制剂代表药物奥司他韦是当前应用广泛的抗流感病毒药物之一，然而奥司他韦对2009年部分h1n1病毒株耐药，另外研究表明奥司他韦对乙型流感的临床有效性低于甲流，因此临床需要针对新靶点的抗流感病毒药物。另外还有m2离子通道阻滞剂，国内上市有金刚烷胺和金刚乙胺。由于对流感病毒普遍存在耐药性，目前不推荐金刚烷胺和金刚乙胺用于流感治疗。玛巴洛沙韦是新一代rna聚合酶pa亚基抑制剂，全疗程单剂量口服，临床研究表明玛巴洛沙韦可显著降低单纯性流感患者的病毒载量，rna聚合酶pa亚基抑制剂或将逐渐成为抗流感治疗的重要手段。▍仿制药已布局尽管玛巴洛沙韦这款全新机制的流感药尚在专利保护期，但国内部分药企已布局仿制。2025年1月7日，青峰医药的1类创新药玛舒拉沙韦片的ⅲ期临床研究数据，在全球医学科研顶刊《nature medicine》发表。该药物中国首个自主研发的pa靶点抗流感药，玛舒拉沙韦片注册临床数据全部来源于中国患者，拥有充分中国人群循证证据，预计今年上半年获批上市。2025年1月13日，国家药监局网站显示，郑州泰丰制药有限公司申报的玛巴洛沙韦片仿制药获批。这属于国产仿制的第2家获批，而早在2022年10月，石药欧意药业有限公司获得首家仿制药一致性评价获得批准。两家均按照仿制4类申请的一致性评价。本文开头所述国产新型抗流感药物zx-7101a，是南京征祥制药有限公司开发的rna聚合酶pa亚基抑制剂，已经于2024年初提交上市申请，有机会在今年获批。整理自：第一财经、生命科学前沿
2025-03-12 14:14:49
回复

新浪科技讯 2月11日上午消息，昨日晚间，抖音集团副总裁李亮微博发文回应了“麻六记旗下多个店铺开启抖音直播”一事。他表示，抖音欢迎每一个认真做产品的商家和个体。直播可以更好地向用户展示产品与服务，抖音倡导商家通过店铺直播直接与消费者沟通，像麻六记这种借助品牌自播实现销售的模式，平台是欢迎和支持的。李亮还提到，对抖音电商而言，店播是主流，平台上开启店播的中小商家数量远超依托达人直播带货的商家。2024年仅从销售额突破百万元的中小商家维度来看，依靠店播达成这一目标的已超过 9 万家，这一数据大幅领先于达人直播带货。但达人特别是新闻人物往往会更容易引起社会关注，很多人误以为达人直播是电商直播的主流，这是一个误区。2月8日，抖音安全中心宣布对“我是夏小健”“张兰·俏生活”“张兰之箖玥甄选”“汪小菲”四个账号予以无限期封禁。抖音方面表示，上述账号利用逝者恶意炒作营销，推荐不实视频，以获取商业利益，并屡次发布不实、侵权内容，进行违规炒作，处罚后未有改正。随后，李亮发文回应此事：2月5日晚，账号“我是夏小健”发布所谓“包机”视频；6日，在逝者家属否认包机后（热点事件常有反转，故没有完全定性为谣言），平台向该账号发送核实站内信，并对该账号暂时禁言30天，也同步对外做进一步核实；2月7日上午，包机公司公开辟谣，因此确定为谣言且性质恶劣，对该账号永久禁言。对于其他几个利用此事件进行炒作，推荐不实视频，获取商业利益的相关账号。内部也进行了多次讨论，鉴于这几个账号历史上屡次违规被处罚而没有改正，因此最终决定予以封禁。来源：新浪网

2月9日晚，云南丽江机场官方微博发布《关于旅客孙先生反映问题的处理情况说明》： 2025年2月8日，乘客孙先生乘坐航班从绵阳至丽江机场，计划由丽江乘坐航班到昆明中转前往合肥。到达丽江机场后，乘客在值机柜台办理值机手续过程中，值机柜台工作人员未能对乘客的问题进行有效答复，服务态度差，存在撕毁登机牌的过激行为。值机维序员发现相关情况后，及时引导乘客至头等舱柜台办理值机，值机值班经理当场对乘客致歉。随后乘客顺利登机。对涉事员工的过激行为，我们表示诚挚的歉意。下一步，我们将按照规定严肃处理涉事员工，并深刻汲取教训，立即开展中转标识标牌的排查整改，加强员工业务培训，提升员工服务意识。