背景介绍

对于 MHA 架构的 decoder-only transformer 模型而言,访存是一个非常重要的瓶颈,采用 KV Cache 技术之后尤甚。 MQA、GQA 和 MLA 通过对投影后、attention 计算前的 KV 矩阵进行处理,达到了大幅减少计算量和访存量,同时精度上掉点不多的效果。

阅读全文 »

我向来是没有这个习惯的,但是今年发生的事情实在太多了,如果这么重要的一年都不写点东西记录下来以后会很遗憾的!但是诶诶,我怎么一摸到键盘就没活了。。。

阅读全文 »

南大的 OS Lab 还挺有意思的,这个 M2 是用 C 语言写一个小的有栈协程库,虽然比不上工业级协程库,但也是加深了对不少东西的认识,搓出来还是比较有成就感的。回头再讲一下有栈/无栈协程和协程怎么用罢。

阅读全文 »

Transformer是一个基于自注意力机制的深度学习模型,它完全摒弃了传统的RNN和LSTM结构,而是完全依赖于注意力机制来捕获序列中的依赖关系。

自从2017年被Vaswani等人在论文《Attention Is All You Need》中提出后,已经成为了NLP领域乃至整个AI领域的一个重要里程碑。它的出现为Seq2Seq的任务带来了革命性的变化,特别是在机器翻译、文本摘要和问答系统等领域。如今,绝大部分NLP领域的SOTA模型,如GPT、BERT等,都是基于Transformer。

阅读全文 »

这个 Lab 对应的是 CSAPP 第 6 章,首先是手写一个缓存模拟器,然后去优化一个矩阵转置。

阅读全文 »

摇滚的成分太少了,其他的都挺不错的

难怪 | 吧老哥不喜欢

0%