苹果将在生成式人工智能领域“开拓新天地”| OpenAI的Sora可以在瞬间生成视频和交互式的三维环境

0:00 Gemini on Android 不能识别歌曲，令人沮丧

1:19 Tim Cook 表示苹果将在今年的 GenAI 领域开拓新局面

2:36 Morph Studio 让你使用 Stability AI 生成的片段制作影片

3:39 Anamorph 的生成技术重新排序场景，创造同一部电影的无限版本

5:47 Adobe 推出音乐 GenAI 工具

6:51 微软投资又一家人工智能公司

7:20 StarCoder 2 是一款在大多数GPU上运行的代码生成AI

8:46 SambaNova 现在提供一系列生成式人工智能模型

9:53 Yolk 是一款社交应用，用户可以交换自定义的动态贴纸，不允许文字

11:12 扩散变压器是开放AI的 Sora 背后的关键技术，并计划颠覆 GenAI 领域

12:42 Lightricks 宣布推出AI驱动的电影制作工作室，帮助创作者可视化故事

14:06 人工智能向有关投票和选举的问题提供了“无用”的答案

文字版

1. 谷歌的Gemini聊天机器人在安卓系统上无法识别歌曲，这让人感到沮丧。除了对人们肤色进行不当处理之外，Gemini的评论也倾向于荒谬，比如将希特勒的唱片与埃隆·马斯克发布的梗平起平坐。对于我来说，Gemini的文化不敏感问题之后，最令人沮丧的是这一点。我通常在老旧的三星Galaxy A53 5G上使用Gemini，为了加快速度，我使用了一个极简主义的启动器Niagara Launcher。然而，我发现Gemini在安卓上无法识别歌曲，甚至无法完成将歌曲识别请求发送给谷歌助手的基本任务。原先谷歌助手提供的歌曲识别功能，如今却不复存在，这让我非常沮丧。虽然我意识到这是一个“第一世界问题”，但这一功能的便捷性是它如此吸引人的地方。而现在，除了无法识别歌曲之外，Gemini还缺少其他基本功能，这使得Gemini在安卓上成为Google助手的很差替代品。我已经联系了谷歌关于Gemini的歌曲识别问题，如果有回复，我会更新这篇文章。

2. 苹果CEO蒂姆·库克承诺，今年苹果将在生成式人工智能领域“开拓新天地”。苹果相较于其他科技巨头，一直在生成式人工智能领域投资较慢。然而，库克表示苹果内部一直在进行生成式人工智能的工作，但在面向客户的技术落地方面采取了更为缓慢、审慎的态度。据报道，苹果计划在今年的WWDC开发者大会上展示新的iOS、macOS和iPadOS版本，其中可能会加入生成式人工智能相关的功能。另外，苹果工程师们还陆续发表了越来越多与生成式人工智能相关的学术和技术论文。该公司还发布了一系列开源模型和工具，以推动生成式人工智能软件的开发。据报道，苹果正在投资10亿美元用于迎头赶上生成式人工智能，包括自有的大型语言模型和内部聊天机器人，甚至可能是新的硬件。未来iPhone 16型号据称将配备“显著”升级的神经引擎，这是苹果自有的用于加速人工智能处理的定制设备芯片。

3. 一家名为 Morph Studio 的公司推出了一款 AI 电影制作平台，名为 Morph Studio，可以让用户利用 Stability AI 生成的视频片段来制作电影。用户可以通过输入文本提示来创建和编辑镜头，并将它们组合成一个连贯的叙事。该平台还支持用户在创作者社区中共享他们的创作流程，并由他人修改模板。Morph Studio 的联合创始人徐淮哲表示，AI 打破了传统电影制作中拍摄、编辑和后期制作的分隔，并将它们变成了一个连续的过程。目前，Morph Studio 共有大约 10 名员工，已从百度投资基金筹集了 250 万美元的资金。徐淮哲表示，Morph Studio 的核心竞争力将在于打造一个充满活力的用户社区。同时，他们还旨在改进电影制作平台，重点投入资源在这一领域的发展。

4. Anamorph，一家新的电影制作和技术公司，今天宣布正式成立。由电影制作人Gary Hustwit和数字艺术家Brendan Dawes创立的初创公司希望通过其专有的生成技术重塑电影体验，使得每次放映都呈现不同的版本。在2024年圣丹斯电影节上，Anamorph首次展示了其创新技术，展示了首部纪录片《Eno》，跟踪英国音乐家、制作人和视觉艺术家布莱恩·伊诺，他一直致力于生成音乐软件的实验。每次放映《Eno》，Anamorph的系统都能从超过500小时的存档素材和采访、动画视觉和音乐中选择场景，生成数十亿种潜在序列，为每个观众带来独特的观影体验。虽然最初对这一技术持怀疑态度，但创始人指出生成系统的目的并非提供“时间顺序”的电影，而是通过场景、素材和音乐的变化，依然呈现引人入胜的叙事弧线。此外，《Eno》的首尾场景始终相同，而特定场景也固定在不同版本中，例如伊诺讨论生成艺术的场景。Anamorph表示，他们的软件除了在圣丹斯使用HD文件外，还可以在放映现场实时生成电影。公司强调他们花费五年时间从零开始构建软件，结合了专利技术和团队对叙事的理解。该系统据称可以生成超过52万亿种变化，目前困扰公司的主要问题在于目前还没有流媒体平台能够支持这种技术。尽管如此，Anamorph已计划在今年春夏季在50个城市展示该纪录片，并表示愿意与制片人、内容创作者、制作公司和流媒体平台等合作。总的来说，Anamorph的生成技术提供了一种新颖的电影体验，尽管不适合所有人，但无疑对观众提供了一种娱乐与探索并存的机会。

5. Adobe在Hot Pod峰会上揭开了Project Music GenAI Control的面纱，这是一个能够根据文本描述或参考旋律生成音频，并让用户在同一工作流程中定制结果的平台。用户可以调整节奏、强度、重复模式和结构，还可以将音轨延长到任意长度，混音或创造无尽循环。该工具目前仍处于研究阶段，Adobe正在与加州大学和卡内基梅隆大学的研究人员合作开发，并已注意到了AI创作音乐所带来的伦理和法律问题。尽管AI生成音乐早已存在，但对于版权问题仍缺乏明确界定，而Adobe已在开发过程中确保使用经许可的数据。同时，Adobe正在研究水印技术，以帮助识别由Project Music GenAI Control产生的音频。Adobe强调他们的目标是与音乐人共存，并相信这些工具将带来新的音乐创意。

6. 微软又一次投资了一家人工智能公司。Equity播客关注初创公司和风险投资新闻，今天的节目聚焦于这一主题。除了微软的投资，还有其他一些热门故事。该节目每周一、三、五上午7点发布，可在苹果播客、Overcast、Spotify等平台订阅收听。TechCrunch还推出了一档有关加密货币和创始人访谈的节目。

7. StarCoder 2是一款AI代码生成工具，它不是一个单一的代码生成模型，而是一个系列模型。其三种变体中的前两种可以在大多数现代消费级GPU上运行，训练数据是原版StarCoder的四倍。StarCoder 2可以在几小时内利用GPU进行微调，用于创建诸如聊天机器人和个人编码助手之类的应用。相对于其他代码生成器，StarCoder 2在性能上得到了显著改进，并且能够进行更准确、具有上下文意识的预测。尽管如此，一些工程师对代码生成系统引入安全漏洞表示担忧。此外，StarCoder 2的许可证可能对某些开发者构成障碍。StarCoder 2还被认为更合乎道德，比其竞争对手更少涉及法律纠纷。它的训练数据来源于Software Heritage，开放给开发者们进行派生、复制或审核。尽管StarCoder 2存在一些不足，但其代表着AI模型建立信任和可追责性的一大进步。此外，ServiceNow和Nvidia已经在StarCoder 2的基础上建立了付费服务，而Hugging Face也提供了模型实施咨询计划。对于开发者而言，StarCoder 2可在项目的GitHub页面上免费下载。

8. SambaNova近日推出了一款名为Samba-1的人工智能系统，旨在为企业客户提供文本改写、编码、语言翻译等任务的解决方案。该系统由56个开源生成式人工智能模型组成，被称为“专家合成体”，具有模块化、可异步添加新模型、可更新等特点。Samba-1的核心优势在于，相比于单一的大型模型，它允许客户在发出请求时通过56个方向中的一个，通过灵活的规则和政策来控制引导。此外，Samba-1的多模型策略还降低了在客户数据上的精细调整成本并提供更可靠的响应，尽管这会增加计算成本。相比于其他AI解决方案，Samba-1并非卖点所在，而是一种一揽子解决方案，为企业提供了一切所需的全套解决方案。这种定制私人数据并根据组织的需要定制的解决方案也许对一些企业更有吸引力。

9. 一款名为Yolk的社交应用即将登陆iOS平台，它的特色在于用户之间交流不通过文字，而是通过视觉方式发送自定义动态贴纸。这款应用主打AI技术，使用户能够轻松创作和分享个性化贴纸，以刺激年轻人的创造力，展现自己的个性。Yolk的用户可以通过iPhone摄像头捕捉周围环境，将拍摄内容转换成动态贴纸，并分享给联系人。应用特色包括在用户之间共享自定义贴纸组合，以及在个人资料页展示个性表达。该应用强调创意和娱乐性，而非讨论和沉思。创始人表示，Yolk希望通过剥离文字交流，让用户能够更自由地表达自己，实现更有趣的社交体验。他们强调这是社交媒体的新一波浪潮，旨在建立亲密关系，而非获取注意力。Yolk主要面向青少年和年轻人，致力于提供一种轻松社交体验，突破主流社交规则。目前，Yolk已获得125万美元的种子轮资金，计划通过TikTok等渠道推广应用，其商业模式有望尝试订阅服务。

10. OpenAI的Sora可以在瞬间生成视频和交互式的三维环境，展示了GenAI领域的前沿技术，并且其中的创新之一——扩散变换器已经问世多年。由于扩散变换器的出现，GenAI模型得以突破之前的局限，现在已经有望在各种媒体生成方面发挥更大的作用。通过将扩散和变换器两个概念相结合，纽约大学计算机科学教授谢立宁和Meta公司实习生、现在成为OpenAI的Sora项目负责人的William Peebles开创了扩散变换器的研究项目。与以往依赖传统U-Net引擎的扩散模型不同，扩散变换器通过转换器架构取代了U-Net引擎，进而提升了效率和性能。扩散变换器的引入，标志着GenAI模型在规模和效果上迈出了重要的一步。谢教授认为，当前的培训扩散变换器的过程存在一些效率低下和性能损失，但他相信可以在未来解决这些问题。此外，他还希望将内容理解和创作领域整合到扩散变换器框架之中，构建一个统一的理想体系。如果Sora和Stable Diffusion 3.0展示的扩散变换器的潜力是预演的话，GenAI领域未来将会进入一个激动人心的新阶段。

11. Lightricks公司宣布推出了全新的人工智能影视制作工具LTX Studio。该工具通过网页形式帮助创作者从构想阶段开始，生成人工智能短片，帮助他们了解故事情节的展开方式。用户可以通过输入想法，由LTX Studio生成剧本、分镜板和角色，然后进行场景、风格、气候和位置等自定义操作。此外，用户还可以编辑每个镜头，包括镜头命名、帧设置、镜头动作、持续时间和声音。工具适用于专业人士，如电影制作人、参与前期制作的人员和广告机构。Lightricks的首席执行官Zeev Farbman表示，LTX studio将帮助专业人士快速创作概念故事或评估不同的拍摄选项。该公司已经在其Facetune和Videoleap产品中引入了基于人工智能的功能，而新工具LTX Studio则利用了不同的人工智能模型，包括该公司自己的文本转视频模型。公司虽然认为还没有人工智能能够产生高质量的背景音乐，但它仍在AI驱动功能上下了很大功夫。最后，Lightricks在向专业人士拓展业务的同时，也不断调整自己的产品结构和发展方向。

由于字数限制No.12暂时不展示