阿猫的博客

阿猫的博客

猫鱼周刊 vol. 020 见过 72 个轮的车吗?

2024-04-21
猫鱼周刊 vol. 020 见过 72 个轮的车吗?

关于本刊

这是猫鱼周刊的第 21 期,本系列每周日更新,主要内容为每周收集内容的分享,同时发布在

博客:阿猫的博客-猫鱼周刊

RSS:猫鱼周刊

邮件订阅:猫鱼周刊

微信公众号:猫兄的和谐号列车

私信:leslieleung@pm.me

文章

N 个轮的载具

原文链接

说起载具(vehicles),一般人的印象都是 4 个轮的现代汽车,然而历史上存在过很多不同设计的载具,从一个到 72 个不等。这篇文章细数了有历史记录的各种轮子个数的汽车。

image.png

我觉得比较实用的是一种五个轮的汽车,它在车尾备胎的位置设计了一个可升降的轮,帮助在马路边极窄的地方泊车,或者实现原地 90 度旋转、原地掉头等。

image.png

Llama 3:当前最强的公开 LLM

原文地址

Llama 3 的发布不算什么新闻了,我挑几个点说一下:

  • 70B 是当前旗舰,比 Claude 3 Sonnet 强,但不如 Claude 3 Opus
  • 有一个 400B 的在训练了,对标 Claude 3 Opus
  • Llama 3 70B 和 Claude 3 Sonnet 还有很多东西都比 GPT 3.5 强了,GPT 4 也是四面楚歌,Claude 3 Opus 已经吊打 GPT 4
  • 开放性是个很大的优势,不仅主流的云服务平台能部署,ollama几乎是立刻就支持了,而且 7B 在 M1 Pro 上运行很快
  • 延伸一下上一点,开放意味着性价比会更高。在 B 端,几个点的性能不如对半砍的成本重要。

文本嵌入测评

原文地址

我在之前的几期介绍过大模型的榜单和测评(benchmark),这期介绍一个关于 embedding 的测评和榜单。

随着 RAG 的兴起,embedding 显得越来越重要。RAG(Retieval Augmented Generation)是一种通过寻找外部知识(Retrieval,召回)来辅助 LLM 生成回答的技术,通过这种技术,可以让 LLM 获得在训练语料以外的知识(例如一些私有的知识库,或在训练截止日期之后发生的事情等),来避免产生幻觉(语句上通顺但不符合事实的回答)。

在构建知识库时,需要对已有的一些文本内容分段、清洗并向量化,将向量存入向量数据库中。在查询时,用户输入先通过相同的模型进行向量化,并送入向量数据库中进行查询,这一步一般使用最近邻算法,取出在语义上最相似的几个片段;如果需要提升准确率,还需要进行重排(rerank),通过一定的算法计算用户输入和片段之间的关联性(这里跟语义相似度有一定的差别);最后再把这几个片段作为上下文提供给 LLM 来产生回答。

因此可以看出,embedding 对于 RAG 质量有很直接的影响。另外,用于构建知识库的文本通常很多,虽然 OpenAI 的 embedding 也很便宜($0.13/1M tokens),但自建的 embedding 通常能提供更低的时延和成本。

项目

metowolf/vCards

metowolf/vCards - GitHub

一个联系人订阅,搞好后短信界面是稍微好一点了。但是还是会有一大堆数不尽的 106 号码。

jina-ai/reader

jina-ai/reader - GitHub

能把任意网页转化成 LLM 可读的 Markdown 文档的工具。

工具/网站

与我协作,让 <div> 变成杰作

网站地址

一个自由职业者的接单落地页,动效非常出色。

image.png

想法

AI 类工具在 B 端的落地

AI 类工具在 B 端落地很难,简单归纳以下几个原因。

客观原因:

AI 产出的内容质量不达标,达不到业务方的预期。根本原因是 LLM 作为通用的模型,不具备在某一个业务上深入的经验,因此在做一些有深度的工作时,没办法达到很好的结果。

主观原因:

a. 负面偏见。其实 LLM 交付的内容效果“一般”,至少是像模像样,但是匹配不上专业人类的水平,又或者一个或某个 case 不符合预期,造成对其接受度非常低。

b. 职业威胁论。在 AI 能完成“一般”的效果的前提下,其职业稳定性、地位是否会被其动摇。另,原本一天工作量的事情,引入提效后,是否会影响其效率安排(摸鱼)。

最后

本周刊已在 GitHub 开源,欢迎 star。同时,如果你有好的内容,也欢迎投稿

另外,我建了一个体验反馈问卷,有别的意见也可以在这里反馈,或者加入交流群反馈。