Posts - oldhu's

23 May 2023

Intro 本论文测试的是一个非多模态的早期版本GPT-4。（当前版本GPT-4的读图能力，是后加上的，训练GPT-4的时候，并没有使用图像数据，后面做了一个模型，使得输入图像后，能生成与输入文字产生一样的embedding数据）由...

22 May 2023

排名基于lmsys arena Rank Name 1 vicuna-13b 2 koala-13b 3 RWKV-4-Raven-14B 4 oasst-pythia-12b 5 chatglm-6b 6 stablelm-tuned-...

10 May 2023

See this page fetch itself, byte by byte, over TLS 基于一个纯JS的tls库，在浏览器里展示出TLS客户端从握手到获取数据的过程。 Language models can explain n...

10 May 2023

LoRA是Low-Rank Adaptation的缩写，出自论文Low-Rank Adaptation of Large Language Models LoRA是一种用于大语言模型的低秩(Rank)fine tune方法，它可以在不增加模...

28 Apr 2023

Datomic is Free Datomic是Rich Hickey对Database As a Value的终极理解，使用 Datalog作为查询语言。DataScript是Datomic用JavaScript 的开源实现，是Roam,...

27 Apr 2023

翻译自： https://e2eml.school/transformers.html 对论文Attention Is All You Need的解读。 one-hot encoding 中文叫独热编码或者一位有效编码，是指用一个N维向量表...

24 Apr 2023

Scaling Transformer to 1M tokens and beyond with RMT 此论文提出了一种方法，让BERT可以支持1M个token nl在评论中，提到另一篇论文Why Can GPT Learn In-Con...

20 Apr 2023

Stability AI发布了StableLM Stability AI公司本身是Stable Diffusion模型背后的公司，与MidJourney的竞争差异就是开放与封闭。StableLM也是开放的大语言模型，本次发布了3b与7b的...

14 Apr 2023

https://ianthehenry.com/posts/why-janet/ 的简单翻译 Janet是一个Lisp方言，作者非常喜欢，写了一本关于Janet的书 https://janet.guide Janet很简单这一点是所有Li...

06 Apr 2023

什么是fine-tune fine-tune可以说是对原模型的参数进行“微调”。但微调的方法有很多种，比如：直接在原网络上用新的数据训练固定原网络的前面若干层的参数，训练后面几层的参数搭建一个新的网络，以原模型的某一个layer的输出...