Vol.230808:TPU制造商成立芯片公司;谷歌强化助手;通义千问开源;库克表态投资AI很多年;混合专家模型是什么?训练Zoom键盘输入的声音!
关于计算瓶颈的讨论一直很多。这通常意味着创业者将着手寻找解决方案。一家新公司正在尝试构建一款专用的Transformer芯片。我希望它能用于训练,而不仅仅是推理。
01.产业资讯
关于计算瓶颈的讨论一直很多。这通常意味着创业者将着手寻找解决方案。一家新公司正在尝试构建一款专用的Transformer芯片。我希望它能用于训练,而不仅仅是推理。
🔗 谷歌将使用更像ChatGPT和Bard的AI“强化”助手
谷歌计划通过生成式AI技术为助手添加功能。作为这一变化的一部分,谷歌解雇了部分参与助手开发的团队成员。
阿里巴巴正在向第三方开发者开放其LLM模型“通义千问”。
在接受路透社采访时,苹果首席执行官蒂姆·库克表示,苹果已经多年来在各种AI技术上进行研究,包括生成式AI。
02.工程研究
这项研究介绍了PerceptionCLIP,一种用于图像分类的两步方法,模仿人类的视觉感知过程,更好地利用CLIP这一重要的视觉语言模型的能力。通过首先识别背景属性并将其用于区分前景对象,这种新方法在图像分类任务中实现了改进的泛化、鲁棒性和可解释性。
本论文的作者们开发了一种名为“CoThought”的方法,使用大型语言模型来改进小型“婴儿”模型的训练。他们通过重新构建一个使用GPT-3.5-turbo和以RoBERTa方式训练较小模型的数据集,得到了在语言测试中表现更好的模型。
研究界一直在努力尝试从单张照片生成3D素材。通常情况下,它在处理稍微复杂的对象时会出现问题,并且在总体上效果不佳。然而,Magic123是一种使用2D和3D先验知识的新方法,似乎在代表能力上取得了突破。
分割是将图像中属于对象的每个区域进行标记的过程。这是一个比传统分类更困难的问题。而且,没有预定义的对象列表时进行通用分割是具有挑战性的。包含一些世界表示的语言模型可以极大提升分割的效果。LISA可以根据复杂且常常含糊不清的文本查询返回一个分割掩码。这在某种程度上与BEIT和Kosmos-2有些相似。
Functionary是一种可以解释和执行函数/插件的语言模型。该模型确定何时执行函数,并能执行理解其输出。它只在需要时触发函数。函数定义采用JSON模式对象的形式,类似于OpenAI GPT的函数调用。
目前有两类语言模型正在使用:稠密模型和稀疏模型。稠密模型类似于传统的2017 Transformer,其中每个标记都使用了模型的所有参数。稀疏模型在其后不久被引入,使用了一种路由机制(通常是学习得到的),这意味着每个标记只使用模型参数的一个子集。这样更高效,实际上产生了更强大的模型。
尽管生成式AI令人惊叹,但由于推理类型的根本概念限制,它还没有达到人类智能的水平。这不仅对当前的AI能力有影响,也对创造真正的AGI所需的条件有影响。
03.资源效率
SlideSpeak使用AI生成摘要,回答问题,并从任何PowerPoint演示文稿中提取行动项。
04.延伸阅读
随着深度学习的最新发展、麦克风的普及以及个人设备在线服务的兴起,声学侧信道攻击对键盘构成了比以往更大的威胁。本文介绍了最先进的深度学习模型的实际实现,以便使用智能手机集成麦克风对笔记本电脑击键进行分类。当对附近手机记录的击键进行训练时,分类器的准确率达到 95%,这是不使用语言模型时的最高准确率。当对使用视频会议软件 Zoom 记录的击键进行训练时,准确率达到了 93%,创下了媒体的新纪录。我们的结果通过现成的设备和算法证明了这些侧信道攻击的实用性。