

EP.19 Altman领投的算力界“Airbnb”:SF Compute算力作为AI算力行业创业公司最大的支出之一,堪称是行业发展的基石。这家硅谷新秀把昂贵的算力拆分成可按周、天甚至小时来支付的utility,就像水和电一样时取时用。
EP.18 精度是如何影响大语言模型的数学逻辑能力的?我们在训练或者推理模型的过程中,经常会遇到类似float32、float16这类的参数。这些参数所代表的就是精度(numerical precision) 那么精度是如何影响大语言模型的逻辑能力的呢,这期我们来专门探讨。
EP.17 AI未来:Prof. Hinton的警世预言在这一集中,我们将探讨人工智能领域的重要人物、诺贝尔物理学奖获得者Geoffrey Hinton教授的观点和警告。Hinton教授,被誉为“AI教父”,他对于AI技术可能对人类构成的风险表达了深切的关切。本集将深入他的研究成就,特别是他在神经网络领域的开创性工作,以及他对快速发展的AI技术潜在危险的看法。我们还将讨论他呼吁更多关注AI安全的理由,以及他如何影响全球科技政策和AI伦理讨论。
EP.16 Strava新上线的AI Coach可以帮你分析运动表现今天我们来探讨一下strava新上线的AI Coach功能。目前还在beta阶段的这个AI驱动的教练工具能够分析你的运动数据,提供个性化的反馈,帮助你优化训练效果。无论你是初学者还是资深运动员,都能从中获得有价值的见解。 AI Coach通过分析运动后的数据,如速度、心率和海拔等,为用户提供可操作的反馈。这些数据帮助用户理解他们的表现,并根据过去30天的活动趋势提供全面的健身见解。此功能还能识别重要的成就,比如最快速度、最长距离或最大爬升等。
EP.15 今天来聊聊Tesla Optimus都会给世界带来哪些影响今天我们来聊聊特斯拉最近推出了一个叫做Optimus的机器人,这个机器人被设计成能帮你做家务和其他一些日常任务,比如拿邮件、浇花、甚至跟孩子们玩耍。这个机器人还可以在工业环境中承担一些体力劳动。 Optimus在一些公共活动中也有亮相,比如它能和参加活动的人玩剪刀石头布,服务饮料,还能在人群中穿行。尽管这些机器人在移动时使用了人工智能,但看起来在进行复杂的互动时还需要人类进行一些控制和监督。 马斯克表示,这种机器人将来不仅可以帮你教小孩、遛狗、购物,甚至可以成为你的朋友。Optimus的价格预计在2万到3万美元之间,马斯克的目标是让这种机器人像家用电器一样普及。
EP.14 人工智能可能比你更懂身边的人想象一下,有一天人工智能可以赋能家里的安防系统,来识别每一位访客。 在这一集,我们将介绍了一种名为个性化视觉指令调整(PVIT)的新训练范式,旨在提升多模态大型语言模型(MLLMs)处理个性化输入的能力。尽管MLLMs在处理图像输入并进行对话方面取得了进步,但它们在执行针对特定个体的个性化对话时仍显示出局限性。 PVIT通过将每个个体表示为一个包含个人图像和简介的多模态前缀,从而允许模型在推理时针对不同的输入个体提供响应。 通过自动化的数据合成框架生成训练数据,这一框架在三个阶段运作:视觉概念策划、双层文本信息提取与融合、以及PVIT数据集生成。我们还创建了一个名为P-Bench的基准测试,以评估MLLMs的个性化能力,实验结果表明,通过我们的数据集进行微调后,模型在个性化对话方面的性能得到了显著提升。
EP.13 未来的某一天,人工智能也可以帮你打咖啡你有没有想象过未来某一天,清早一起来,instead of 自己打开手冲磨咖啡,这一切都可以由AI来帮你完成? 在这一期,我们会探讨大型语言模型(LLMs)在实体决策中的应用。尽管已有大量工作利用LLMs进行实体环境中的决策制定,但我们仍缺乏对其性能的系统理解,因为它们通常在不同的领域、出于不同的目的应用,并且是基于不同的输入输出构建的。 此外,现有的评估往往只依赖于最终成功率,这使得难以精确地识别LLMs缺失的能力及问题所在,从而阻碍了实体代理有效且选择性地利用LLMs。为了解决这些限制,我们提出了一个通用接口(EMBODIED AGENT INTERFACE),支持各种任务类型和LLM模块的输入输出规范的形式化。
EP.12 如何让人工智能学会行走?人类工程模仿动物的例子,从古到今我们可以举出无数个例子。 在人工智能时代,通过神经网络教会AI行走,看起来似乎是个简单的工作。 本期我们将讨论在四足动物运动中引入生物启发的神经电路结构先验的优势。研究基于哺乳动物的四肢和脊髓中的神经电路,开发了一种新型人工神经网络(ANN)架构。这种架构在初始性能上表现良好,且与常用的多层感知机(MLP)在最终性能上可相媲美,同时使用的数据更少,参数数量也大大减少。此外,该架构还展示了更好的任务变化泛化能力,甚至可以在没有标准模拟到真实转换方法的情况下,直接部署在物理机器人上。
EP.11 利好中小企业和个人开发者:AI Platform AllianceAI Platform Alliance今日宣布其联盟扩展,目的是整合现代AI计算服务所需的关键芯片和硬件,以提供更开放、经济和可持续的解决方案。 联盟自去年在Open Compute Conference成立以来,已从AI加速器公司拓展到包括云托管服务提供者、系统供应商、集成商及软件公司,形成了成熟的AI推理用例生态系统。通过其网站上新推出的市场,联盟专注于提供实用且易于采用的解决方案,提高AI推理的功率和成本效率,性能优于常见的GPU解决方案。
EP.10 什么?Nvidia也开始发布大模型了本期我们将探讨英伟达新发布的NVLM 1.0,这是一系列前沿类多模态大型语言模型(LLMs),在视觉-语言任务上达到了业界领先水平,与顶级的专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相媲美。 值得注意的是,NVLM 1.0在多模态训练后的文本性能上有所提高。在模型设计方面,我们在解码器仅多模态LLMs(例如LLaVA)和基于交叉注意力的模型(例如Flamingo)之间进行了全面比较,并基于两种方法的优缺点,提出了一种新的架构,旨在提高训练效率和多模态推理能力。此外,我们还引入了一种基于瓷砖的动态高分辨率图像设计,显著提升了在多模态推理和OCR相关任务上的表现。关于训练数据,我们精心策划并提供了多模态预训练和监督式微调数据集的详细信息。 我们的研究表明,数据集的质量和任务多样性比规模更重要,这一点在所有架构的预训练阶段都得到了体现。尤其值得注意的是,我们为NVLM-1.0模型开发了生产级多模态功能,使其在视觉-语言任务中表现卓越,同时保持甚至提升了与LLM基础架构相比的纯文本性能。为了实现这一目标,我们精心制作并整合了高质量的纯文本数据集进入多模态训练,同时加入了大量的多模态数学和编码数据,从而在各种模态中增强了数学和编码能力。为了推动该领域的研究,我们将发布模型权重,并为社区开源代码。
EP.9 人工智能界的Multi-linguist是如何炼成的本期我们将在大型语言模型(LLMs)使用的分词技术基础上,探讨这些技术对不同语言服务成本和可用性的影响,尤其是资源较少的语言。分析了多种LLMs,包括GPT-4、GPT-3和DaVinci,以及广泛使用的BERT基础分词器。研究评估了这些模型间的分词变异,并探讨了子词分词中的语言表达挑战。本文强调了培养具有语言学意识的开发实践的重要性,特别是对于传统上资源不足的语言。此外,本文通过案例研究突出显示了分词选择的现实世界影响,特别是在电子健康记录(EHR)系统的背景下。研究旨在促进AI服务开发中的国际化(I18N)通用实践,强调包容性,尤其是对传统上在AI应用中代表性不足的语言。
EP.8 AI的发展将会对程序员带来哪些影响?在这一集中,我们将探讨生成式人工智能(GAI)在软件工程领域中的应用对职业身份的影响及其保护模式。通过定性研究,分析了不同经验级别的软件工程师如何感知GAI对其工作的影响。我们发现,工程师对GAI的理解与其领域专业知识密切相关,初级和高级工程师对GAI的需求感知差异显著。其中,我们会进一步讨论,组织在形塑员工的感知过程中发挥了积极作用,并基于研究结果,提出了设计指导原则,以帮助组织和系统设计者促进技术变革对工人职业身份的影响。
EP.7 媲美Sora?Meta新发布的Movie-Gen模型或许可以这期我们将介绍Meta最近发布的一项名为Movie Gen的AI视频生成工具,该工具通过文本提示生成配有音频的视频,并支持通过提示进行编辑。 Meta的这一新工具将其与其他主要竞争对手,如OpenAI和Google,置于直接竞争之中,后两者已经推出了自己的视频生成工具。Meta声称,Movie Gen在人类评估基准测试中优于行业内类似模型,包括OpenAI的Sora以及可能的Google的Veo。
EP.6 信息指数级增加的时代,如何利用AI抓取信息在这一集中,我们将讨论了一种叫做NETS的特别工具,它可以帮助我们从一堆混乱的数字中抓取我们需要的信息。 想象一下,我们有一个巨大的数字池,我们需要找到某些特定的数字来解决问题,但这些数字并不容易找到。NETS就像一个聪明的捞网,它可以快速地在这个数字池中找到我们需要的那些特别的数字。 NETS用一种特别的方法来捞这些数字。它可以学习如何更聪明地调整自己的网,这样不仅可以捞得更快,而且可以确保捞到的每一个数字都是我们需要的。我们通过很多实验来测试NETS,发现它比其他的捞网做得更好,能在很复杂的数字池中快速准确地找到需要的数字。 这个工具很特别,因为它可以在学习过程中调整自己,以便在不同的情况下都能表现得很好。我们还发现,通过一些调整,NETS可以更好地完成任务,比如在数字池中更快地找到更多需要的数字。
EP.5 Apple全新推出的Depth pro:单张照片实现3D测距通过一张照片来实现物体的识别,相信大家现在已经对这种技术毫不陌生了。 但有没有想过,AI也可以像人眼一样,对物体的深度有即时感知与反馈。 在这一集中,我们将讨论Apple最新提出的DEPTH PRO工具,它能帮我们用一张图片就能快速测出物体的距离。想象一下,你只用一张照片,DEPTH PRO就能告诉你图片中每个地方有多远。 它的速度非常快,用标准的电脑不到一秒就能完成。 这个工具可以用在很多有趣的地方,比如改变图片的视角,或者在电脑里生成新的图片。它很特别,因为即使没有相机的详细信息,也能准确地测量距离。