AG百家乐上头继DeepSeek后, MiniMax也发布了挑战传统Transformer架构的国产开源模子

发布日期：2024-09-26 03:57 点击次数：192

AG百家乐上头

蓝鲸新闻1月15日讯（记者朱俊熹）国产开源大模子再添一员强将。1月15日，大模子独角兽MiniMax发布并开源了MiniMax-01全新系列模子，包含基础谈话大模子和视觉多模态大模子两个模子。

据MiniMax先容，其基础谈话大模子MiniMax-Text-01在大批任务上，追平了GPT-4o、Claude3.5Sonnet这两个国际公认起先进的闭源模子。在评估模子辅导苦守技艺的IFEval和C-SimpleQA汉文评测勾通，该基础谈话大模子的得分也跳动了另一国产开源模子DeepSeek-V3。

与DeepSeek模子肖似，MiniMax的新系列模子也对传统的Transformer架构进行了立异。MiniMax称，在模子中初次大限制竣事了线性注主见机制，每8层中有7个是基于LightningAttention的线性注主见，有一层是传统的SoftMax注主见。

时时来讲，要是比方成要在一群东谈主中找到最迫切的阿谁，传统注主见需要每个东谈主跟其他东谈主都单独聊一遍，一一比拟总计东谈主的迫切性。而线性注主见只用调查每个东谈主手中的柬帖，快速统计出哪些东谈主握有的信息是最迫切的。因此，传统注主见机制精确但计较繁忙，合适短输入或复杂任务，而线性注主见以其高效更合适超长输入、需要快速处置的任务。

MiniMax在本事评释中提到，正在盘问更高效的模子架构，但愿简略皆备去除SoftMax谛视机制，从而竣事无尽长的落魄文窗口，而不会加多计较支拨。

幻方量化旗下AI公司DeepSeek在12月底发布了V3开源模子，选用的是立异的多头潜在注主见机制（MLA）和DeepSeekMoE羼杂内行架构。在省俭内存占用和计较资源的同期，确保资源被高效欺骗。DeepSeek-V3以极低的检会资本竣事了对皆领军闭源模子的性能，激发国表里科技社区热议。不仅被前OpenAI联创AndrejKarpathy赞为“在资源受限的情况下对盘问和工程的一次令东谈主印象深切的展示”，也被OpenAI列作中国AI本事快速发展的法度。

围绕线性注主见机制，MiniMax对模子的检会和推理系统进行了重构。其模子包含4560亿个参数，单次推理激活459亿个。简略高效处置最长400万token的落魄文，AG百家乐打闲最稳技巧是GPT-4o的32倍，Claude3.5Sonnet的20倍。在长落魄文的测评集上，MiniMax-Text-01的证据权贵当先于其他开闭源模子。

MiniMax默示，01系列模子将简略救援改日一年内智能体应用的大幅增长需求，因为智能体系统越来越需要更长的落魄文处置技艺和握续的追思。“咱们肯定2025年会是Agent（智能体）高速发展的一年。”该公司称，“在这个模子中，咱们走出了第一步，并但愿使用这个架构握续建筑复杂Agent所需的基础技艺。”

智能体正成为国表里AI公司竞相押注的赛谈。OpenAICEOSamAltman本月初发文称，到2025年，将可能看到第一批AI智能体“加入劳能源军队”，并本色性地编削公司的产出。谷歌在推出新一代Gemini2.0大模子时也默示，这是为智能体时间构建的。该模子主打救援多模态输入和输出，以构建出更接近通用助手愿景的智能体。

MiniMax在发达为何选用将模子开源时提到，一是觉得这有可能启发更多长落魄文的盘问和应用，从而更快促进智能体时间的到来。二是通过开源促使其悉力作念更多立异，更高质料地开展后续的模子研发职责。

MiniMax缔造于2021年12月，被浩繁称为国内“大模子六小龙”之一。旗下领有AI随同应用星野，以及集成了对话、视频、音乐功能的海螺AI等代表性居品，在国际市集蕴蓄了一定热度。其最新清楚的一轮融资一经在昨年3月，由阿里领投的6亿好意思元B轮融资，公司估值达25亿好意思元。此前腾讯、米哈游、高瓴创投等机构也参投了MiniMax。

六小龙中，各公司的大模子开源过程不一。其中，百川智能、智谱AI、零一万物开源了多款模子，涵盖大谈话模子、多模态模子等。而月之暗面、阶跃星辰仅开源了部分本事AG百家乐上头，举例月之暗面谐和清华大学等机构开源的大模子推理架构Mooncake，以及阶跃星辰专注普及光学字符识别（OCR）本事的GOT-OCR2.0模子。

AG百家乐上头继DeepSeek后, MiniMax也发布了挑战传统Transformer架构的国产开源模子

热点资讯

推荐资讯

AG百家乐上头 继DeepSeek后, MiniMax也发布了挑战传统Transformer架构的国产开源模子

热点资讯

推荐资讯

AG百家乐上头继DeepSeek后, MiniMax也发布了挑战传统Transformer架构的国产开源模子