10 May 2023

HackerNews上值得关注的新闻(4)

See this page fetch itself, byte by byte, over TLS 基于一个纯JS的tls库,在浏览器里展示出TLS客户端从握手到获取数据的过程。 Language models can explain n...
10 May 2023

LoRA Intro

LoRA是Low-Rank Adaptation的缩写,出自论文Low-Rank Adaptation of Large Language Models LoRA是一种用于大语言模型的低秩(Rank)fine tune方法,它可以在不增加模...
28 Apr 2023

HackerNews上值得关注的新闻(3)

Datomic is Free Datomic是Rich Hickey对Database As a Value的终极理解,使用 Datalog作为查询语言。DataScript是Datomic用JavaScript 的开源实现,是Roam,...
27 Apr 2023

Transformers from Scratch

翻译自: https://e2eml.school/transformers.html 对论文Attention Is All You Need的解读。 one-hot encoding 中文叫独热编码或者一位有效编码,是指用一个N维向量表...
24 Apr 2023

HackerNews上值得关注的新闻(2)

Scaling Transformer to 1M tokens and beyond with RMT 此论文提出了一种方法,让BERT可以支持1M个token nl在评论中,提到另一篇论文Why Can GPT Learn In-Con...
20 Apr 2023

HackerNews上值得关注的新闻(1)

Stability AI发布了StableLM Stability AI公司本身是Stable Diffusion模型背后的公司,与MidJourney的竞争差异就是开放与封闭。StableLM也是开放的大语言模型,本次发布 了3b与7b的...
14 Apr 2023

Why Janet

https://ianthehenry.com/posts/why-janet/ 的简单翻译 Janet是一个Lisp方言,作者非常喜欢,写了一本关于Janet的书 https://janet.guide Janet很简单 这一点是所有Li...
06 Apr 2023

Deep Learning (6) - 从GPT到ChatGPT

什么是fine-tune fine-tune可以说是对原模型的参数进行“微调”。但微调的方法有很多种,比如: 直接在原网络上用新的数据训练 固定原网络的前面若干层的参数,训练后面几层的参数 搭建一个新的网络,以原模型的某一个layer的输出...
27 Mar 2023

Yew如何工作

Yew基本原理 Yew应用由一个html(空白)页面加上一个Web Assembly组成。Web Assembly以Virtual DOM的方式运行,负责管理所有的HTML DOM。 Yew与HTML的交互 Yew与HTML的交互主要通过以...
20 Mar 2023

Deep Learning (5) - BERT vs GPT

BERT和GPT都是基于transformer的预训练模型,但是它们的预训练任务不同。BERT的预训练任务主要是掩码语言模型(在一个句子中随机盖住一些词,让模型预测)和下一句预测,而GPT的预训练任务主要是语言模型(根据前面的词预测下一个词...