E135|大模型带火的下一个风口:向量数据库

E135|大模型带火的下一个风口:向量数据库

60分钟 ·
播放数20385
·
评论数56

过去十年,产生了类似于Snowflake这样的基于云原生业务的SaaS巨头;在AI时代,向量数据库领域会不会诞生AI时代的“Snowflake”,一个新的历史性机会正在产生。

这期节目我们邀请到了亚马逊云科技与向量数据库Zilliz来聊一聊AI Native的企业级应用。Zilliz成立于2017年,主要研发AI场景的向量数据库,在2019年开源了全球首个向量数据库产品Milvus,并且把这个产品捐赠给Linux基金会,在GitHub上获得了2.5万颗星,拥有超过5000家企业客户,目前累计融资超过1.13亿美元。

本期节目是亚马逊云科技赞助播出的出海特辑的第三期,我们会联合出海企业的案例,探讨不同行业的出海策略与方法论。在这段访谈里,我们将分析大模型时代,为什么向量数据库尤其重要,到底什么是AI时代AI native的数据基础设施。作为出海特辑的案例之一,Zilliz也会分享他们出海遇到的挑战,以及开源社区与商业化的平衡。

【主播】
泓君,《硅谷101》创始人,播客主理人
【嘉宾】
栾小凡,Zilliz技术合伙人,Linux Foundation AI & Data 基金会技术咨询委员成员
吴万涛,亚马逊云科技解决方案架构师

【你将听到
02:19 向量数据库与传统数据库的区别:基于关键词去匹配vs上下文与语义相似度的匹配
05:53 大模型时代,向量数据库为什么这么重要?
07:47 非结构化数据占人类数据80%,从巨头没有盯上的领域启动
10:26 向量数据库的挑战与护城河:好的模型与算法、性能与推理成本
12:34应用场景:电商提高长尾搜索; 企业私有数据提升精度
16:41 衡量向量准确度:99%的召回率
19:00 OpenAI并不是最好的Embeding模型,开发者需要自己去试
20:34 Zilliz的商业模式:从开源到基于云的商业化
23:28 当巨头跟创业公司竞争:把选择权交给用户
27:00 行业过于早期,云巨头入场正在帮助行业成长
28:57 未来应用:适合电商、医疗、法律等数据密集型应用
29:50 AI时代的安全隐私:合规、产品、应用三个层面
33:26 安全问题打脸:向量数据经过精心设计后,可能会还原用户信息
37:38 移位更加保护隐私,但却让准确性更难

出海挑战
37:35 Zilliz全球业务分布:美国营收占整体收入70%以上
38:47 SaaS产业布局的全球化考量:受美国头部用户影响大
40:16 中美SAAS产品的使用态度区别
45:00 美国市场策略:HackerNews与亚马逊云科技Marketplace

开源社区
49:16 公司主导的开源项目,开源协议有可能被修改
51:17 公司主导与基金会主导,开源项目两种方式的思考
54:38 开源与商业化的代码考量:三层结构的差异化竞争
57:25 当公司发展方向与社区发生分歧,如何解决?

【相关单集】
E133|开源打法的秘诀与AI重塑的数据库行业
E130|聊聊智能硬件出海的全球版图:大模型、 新爆款与合规陷阱

【后期】
加菲
【BGM】
Cold and Blue - Roy Edwin Williams
Lazy Art - Martin Landstrom
Norman - Boone River

【在这里找到我们】
公众号:硅谷101
收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客
海外用户:Apple Podcast|Spotify|TuneIn|Google Podcast|Amazon Music
联系我们:podcast@sv101.net

展开Show Notes
这个领域相当拥挤,大家的技术都差不多
泓君Jane
:
🔥的领域都很挤,我发现越挤的领域越喜欢开源…
困的时候听一听:都是基于faiss和hnswlib,走在最前面的一直是meta,这些技术在2020年已经很成熟了。
8条回复
huhon
huhon
2023.12.29
感谢主持人和嘉宾的分享,我用向量库也有一段时间了,但我发现向量库对于“非”的内容无法很好的给出答案,比如“请推荐一些热带水果,但不要榴莲”,它往往会返回榴莲,有什么好的方法可以解决这类问题吗
luan_FfiA:这个特别有意思 确实是我们在研究的一个重点
却东:这是因为目前的多模态匹配粒度不够细,出现了这种token matching的现象。不光是非,任意形容词都会出现
嬴嬴嬴
嬴嬴嬴
2024.1.17
这两个嘉宾说的都是啥?说了半天连这个向量数据库用最通俗的语言都描述不出来,都是一些行话堆积。好的输出就是外行人也能有一点收获,也对这个东西感兴趣的。逻辑清晰不是每个人都具备的,还是请点女嘉宾吧,男的爱吹牛装资深,女性就更实事求是
银河丸丸:听起来,我理解就是更广泛的模糊检索,增强主题的相关性搜索
李子健
李子健
2023.12.28
20:27 明确业务场景下的评价体系,这个很有启发
RiceRug
RiceRug
2024.1.01
一位嘉宾一直在说车轱辘话,信息含量极低
zz快醒醒:沈嘉宾吗?感觉解答得挺好的,有提升的感觉
RoyZ
RoyZ
2024.1.01
00:11 2024第一个播客⁽⁽ଘ( ˙꒳˙ )ଓ⁾⁾
这是一个feature,作为一个公司过于单薄
泓君Jane
:
看之后的产品组合拳怎么搭了…
DeepFM_小Y
DeepFM_小Y
2024.1.04
传统数据库的增删改查其实放在这儿主要就是查 查要准要快 其中“准”的 bar 我觉得在基础模型不在匹配算法 “快”要行数上来才有价值 它更像是个 feature 而不是一个 product 云厂自己做个组件应该会是主流 B 端采购也更适合包在一整个 search service 里 倒是移动端向量数据库产品可能有机会
DeepFM_小Y:另外传统搜广推里更 practical 的是多路召回 依赖单一的召回模式 特别是在搜索场景里 是很有局限性的 所以向量存储和搜索更适合做为召回组件 这就又回到了传统搜索服务的扩展上了 比如 elastic search
HD687740z
HD687740z
2023.12.29
40:47 提到国内用户对服务会picky 需要很快的响应时间or解决,美国用户希望自己去解决问题,研究去延伸这个东西。这是用户群体不一样吧?
HaileyinSH
HaileyinSH
2023.12.28
想听听NPU相关
主持人有点尴尬,应该多做点功课
说了个啥啊..一句话可以说清楚的
XenonXue
XenonXue
2024.1.21
小建议,音频处理的时候希望可以处理一下嘉宾的房间混响
Jungle_Jt1E
Jungle_Jt1E
2024.1.08
42:59 我也喜欢用slack
zz快醒醒
zz快醒醒
2024.1.02
向量数据库,想到高校在推的知识图谱,知识的向量数据库,印象深的点有开源!评价体系!下游公司进一步延伸拓展-在自己理解的基础上拓展(感觉自己有做了类似的事情,有*点视网膜效应了)说到这儿,觉得国内很多公司不愿意去做拓展,是不是?其实很多业务都像在外包,反正包出去你能把这个事情给我弄出来,先应付着就好了。具体了解不多。)
梨衣
梨衣
2024.1.02
非常好
阿白_B4PM
阿白_B4PM
2023.12.31
11:07 两个挑战
OstraMio
OstraMio
2023.12.28
求两篇paper的具体名字,一篇是主播说的重复多少次可以让chatgpt吐出个人信息,一篇是嘉宾说的可以反编译向量数据库恢复原始数据。
泓君Jane
:
Scalable Extraction of Training Data from (Production) Language Models https://arxiv.org/abs/2311.17035
Ceres-js:第二篇是什么呢?
cleare
cleare
2023.12.30
39:13 明星项目商业不一定成功
豆Jayce
豆Jayce
2023.12.28
这集怎么感觉听过...
不要在dna上乱写啊:的确有点耳熟 感觉夏天听过