当前位置: 首页 > news >正文

做简历的网站有哪些/就在刚刚武汉宣布最新消息

做简历的网站有哪些,就在刚刚武汉宣布最新消息,建设网站的提成是多少,dw做电影网站1. Mamba 优点: 计算效率高:Mamba的计算复杂度与序列长度呈线性或近线性关系,相比Transformer的二次方计算复杂度,在处理长序列数据时具有显著优势。例如在A100 GPU上,Mamba的计算速度可提升3倍;选择性处理信息&…

1. Mamba

优点:

  1. 计算效率高:Mamba的计算复杂度与序列长度呈线性或近线性关系,相比Transformer的二次方计算复杂度,在处理长序列数据时具有显著优势。例如在A100 GPU上,Mamba的计算速度可提升3倍;
  2. 选择性处理信息:引入选择机制,可根据输入参数化SSM参数,过滤无关信息,保留必要数据,使模型能够专注于对当前任务更重要的部分;
  3. 硬件感知算法:采用递归扫描而非卷积计算,优化硬件性能,减少GPU中SRAM和DRAM之间的数据传输次数,进一步提升计算效率;
  4. 高效的训练和推理:平行训练时,使用卷积;推理时,使用递归。
1.1 State Space Model(SSM)

在这里插入图片描述

SSM的简化模型如上图,其中输入是x,输出是y,隐藏状态是h。B乘x得到h,之后A乘h更新h,C乘h得到y,D乘x跳跃连接得到y。公式如下:
h ′ ( t ) = A h ( t ) + B x ( t ) . . . ( 1 a ) h'(t)=\mathbf{A}h(t)+\mathbf{B}x(t) ...(1a) h(t)=Ah(t)+Bx(t)...(1a)
y ( t ) = C h ( t ) . . . ( 1 b ) y(t)=\mathbf{C}h(t)...(1b) y(t)=Ch(t)...(1b)

1.2 S4

S4是SSM的进一步优化,SSM到S4的三个步骤:离散化、卷积表示、使用HIPPO算法处理长序列。

1.2.1 离散化

由于SSM使用的都是连续的数据,而我们计算机处理的是数字信号,所以要进行离散化。mamba论文中使用零阶保持算法(zero-order hold)进行离散化。离散之后的公式如下:
h t = A ˉ h t − 1 + B ˉ x t . . . ( 2 a ) h_t=\mathbf{\bar{A}}h_{t-1}+\mathbf{\bar{B}}x_t ...(2a) ht=Aˉht1+Bˉxt...(2a)
y t = C h t . . . ( 2 b ) y_t=\mathbf{C}h_t ...(2b) yt=Cht...(2b)
其中 h 0 = B x 0 h_0=\mathbf{B}x_0 h0=Bx0

1.2.2 卷积表示

利用上述(2a)和(2b)的公式,可以得到下列公式,务必手动推演:
K ˉ = ( C B ˉ , C A ˉ B ˉ , . . . , C A ˉ k B ˉ , . . . ) . . . ( 3 a ) \mathbf{\bar{K}}=(\mathbf{C\bar{B}, C\bar{A}\bar{B}, ..., C\bar{A}^{k}\bar{B}, ...})...(3a) Kˉ=(CBˉ,CAˉBˉ,...,CAˉkBˉ,...)...(3a)
y = x ∗ K ˉ . . . ( 3 b ) y=x*\mathbf{\bar{K}}...(3b) y=xKˉ...(3b)
这就相当于一个卷积公式。所以,它可以像卷积一样并行训练,但是推理时论文中使用递归的方式,可以使得模型更快。

1.2.3 使用HIPPO算法处理长序列

在公式(3a)中我们可以发现一旦token很长,k次方就很大,会导致矩阵相乘的计算量也很大。因此我们可以使用HIPPO算法将矩阵分解成对角阵的形式相乘,计算会方便许多。

1.3 S6

在这里插入图片描述
如上图,S6是S4的进一步升级。 x x x通过Linear得到 B , C B, C B,C Δ \Delta Δ,再通过 A , B A, B A,B Δ \Delta Δ得到 A ˉ \bar{A} Aˉ B ˉ \bar{B} Bˉ,再通过SSM得到输出 y y y

1.4 Mamba Block

在这里插入图片描述

2. 代码使用

2.1 环境

在这里插入图片描述

2.2 安装

在这里插入图片描述

2.3 使用
import torch
from mamba_ssm import Mambabatch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim).to("cuda")
model = Mamba(# This module uses roughly 3 * expand * d_model^2 parametersd_model=dim, # Model dimension d_modeld_state=16,  # SSM state expansion factord_conv=4,    # Local convolution widthexpand=2,    # Block expansion factor
).to("cuda")
y = model(x)
assert y.shape == x.shape
http://www.whsansanxincailiao.cn/news/31976382.html

相关文章:

  • 有pc网站 移动网站怎么做/市场营销推广活动方案
  • 国外二手表网站/广州谷歌推广
  • iis网站做文件下载按钮/100个商业经典案例
  • 做qq游戏的视频秀网站/友情链接网
  • 如何做网站子页/广告优化师工作内容
  • 做网站需要什么费用/seo搜索引擎优化期末考试
  • 贵州建设厅网站怎么查询资质/广州百度搜索排名优化
  • html编辑软件/百度seo点击排名优化
  • 开封网站网站建设/中国网站排名
  • 网站开发与部署/长尾关键词挖掘精灵
  • 网站建设做的人多吗/各大网站收录查询
  • 富阳区建设局网站首页/百度云服务器官网
  • 保姆给老人做爰神马网站/如何在百度上营销
  • 网站每天做100个外链/合肥seo代理商
  • 开网站做销售/十大营销策略
  • 广东网站建设微信商城运营/西安竞价推广托管
  • 用word文档做网站/做网站用什么软件好
  • 乡村别墅室内装修设计效果图/宁波seo推广
  • 公司注册步骤流程/四川seo哪里有
  • 网站被攻击了怎么办/seo优化中商品权重主要由什么决定
  • 网站上一页下一页怎么做/百度有什么办法刷排名
  • 二级域名著名网站/汽车营销活动策划方案
  • 网站建设实训分析总结/网络媒体有哪些
  • 哪个网站旅游攻略做的最好/百度seo是什么
  • 江西中恒建设集团网站/网页设计实训报告
  • 会计上网站建设做什么费用/app推广项目从哪接一手
  • 网站运营优化建议/黑锋网seo
  • 赣州人才网招聘信息/网站怎样优化文章关键词
  • 互联网行业新闻的靠谱网站/seo sem论坛
  • 陕西建设人才网站/广州seo运营