Meta发布全新Megabyte模型 比Transformer快4成
发布日期: 2023-05-30 15:56:51 来源: 站长之家
【资料图】
站长之家(ChinaZ.com)5月30日 消息:最近,Meta团队开发了一款名为Megabyte的模型,声称能够解决“大模型标配”Transformer所存在的问题,而且速度比它还快4成!
目前,Transformer架构比较流行,但是存在两个重要的缺陷:一方面,自注意力成本随着输入和输出字节长度的增加而迅速增加,如音乐、图像或视频文件通常包含数兆字节,而大型解码器通常只使用几千个上下文标记;另一方面,前馈网络单独对字符组或位置进行操作是难以实现可扩展性的,这是由于在每个位置的基础上会带来很多计算开销。
而Megabyte模型则将输入和输出序列分成patch而不是单个的token。这种架构对于多数任务而言字节预测都相对容易,比如给定前几个字符预测完成单词等,这意味着大型网络中每个字节都是不必要的,并且内部预测可以使用更小的模型进行。这种方法解决了当今AI模型面临的可扩展性挑战,Megabyte模型的patch系统允许单个前馈网络在包含多个token的patch上运算,有效解决了自注意力缩放问题。
另外,在运算效率方面,与等大的Transformers和Linear Transformers相比,Megabyte在固定模型大小和序列长度范围内使用更少的token,这在相同的计算成本下允许使用更大的模型。
总的来说,这些改进使我们能够在相同的计算成本下训练更大、性能更好的模型,并且可以扩展到非常长的序列,同时在部署期间提高生成速度。综上所述,Megabyte模型的出现提供了一种新的、高效的方法来解决AI模型的发展中出现的一些问题。
论文链接:https://arxiv.org/abs/2305.07185
关键词:
相关内容
- Meta发布全新Megabyte模型 比Transformer快4成 a>
- 2023年宁夏自治区农机购置与应用补贴资金分配情况及补贴标准-全球新视野 a>
- 全球观点:天津数字电视机顶盒可以换吗(天津数字电视机顶盒安装介绍) a>
- 科学健身进乡村 百位冠军助阵,百场广场舞公益课堂开课|聚焦 a>
- 多部门联合发文:引导企业援建薄弱地区科学教育场所 a>
- 【世界播资讯】两部门:提升中小企业计量水平 a>
- 油箱排放回应、拿下两地块......比亚迪5月重要动向速览|世界滚动 a>
- 给机器人穿上“毛衣”,他就能感知这个世界!_环球热推荐 a>
- 新能源市场需求火热,巨头扎堆GaN 世界视点 a>
- 外媒评选2023国际十大童星 中国小演员雷钧翔上榜 a>
- 福彩铁杆一号之差憾失1亿巨奖!直言能中就很释然 a>
- 专业人像即刻呈现,vivo S17系列正式官宣影像配置 a>
- 广东省林科院院长龙永彬、深圳市生态环境局样性助力“两山”转化-世界球精选 a>
- 安信国际:首予海伦司(09869)“买入”评级 目标价15.2港元 a>
- 预算2万内,配置不错的国产休旅车有推荐吗? 工程预算 微速讯 a>
- 简讯:震荡时间还不够 a>
- 亚宝药业(600351)5月30日主力资金净卖出382.84万元 a>
- 世界速讯:2023年教师资格认定公告发布! a>
- 遥望科技(002291.SZ):公司与乐华等国内经纪公司有常态化的合作机制 a>
- 讯息:安徽一小区业主将建筑垃圾堆满物业办公室 住建局:改造水系未征求全体业主意见,施工已暂停 a>