谷歌2小时疯狂复仇终极杀器硬刚GPT-4o!Gemini颠覆搜索视频AI震破Sora

2024-05-15 11:03:45
浏览次数:
返回列表

  谷歌2小时疯狂复仇终极杀器硬刚GPT-4o!Gemini颠覆搜索视频AI震破Sora昨天被OpenAI提前截胡的谷歌,今天不甘示弱地开启反击!大杀器Project Astra效果不输GPT-4o,文生视频模型Veo硬刚Sora,用AI彻底颠覆谷歌搜索,Gemini 1.5 Pro达到200万token上下文……谷歌轰出一连串武器,对OpenAI贴脸开大。

  跟OpenAI半小时的「小而美」发布会相比,谷歌显然准备得更加充分,当然,时间也相当之长……

  然后,面对昨天OpenAI GPT-4o的挑衅,谷歌直接甩出大杀器Project Astra,视觉识别和语音交互效果,跟GPT-4o不相上下。

  最后来了一个重磅消息:谷歌搜索将被Gemini重塑,形态从此彻底改变!我们不再需要自己点进搜索结果,而是由多步骤推理的AI Overview来一切。

  CEO劈柴上来就无视了GPT和Llama的存在,这样总结道:「我们完全处于Gemini时代」。

  Gemini 1.5 Pro最强特性之一,就是超长的上下文窗口,达到了100万tokens的级别,超过了目前所有的大语言模型,而且开放给个人用户使用。

  而这也意味着——你可以给模型输入2小时视频、22小时音频、超过6万行代码或者140多万单词。

  比如,作为父母需要了解孩子在学校的情况,就可以在Gmail中要求Gemini识别所有关于学校的电子邮件,然后帮你总结出要点。

  如果你错过了公司会议,但可以拿到一小时时长的会议录音,Gemini就能立刻帮你总结出会议要点。

  支持多模态的Gemini可以处理你上传的任何格式的信息,理解内容后将其改造成适合你的形式,与你对话互动了!

  再比如,你刚搬到某个城市,Agent就能帮你探索你在这个城市所需的服务了,比如干洗店、帮忙遛狗的人等等。

  如果靠我们自己搜索,可是要搜十几个网站,但Gemini可以发挥自己的「多步推理」能力包揽这些任务,把你需要的信息一次性提供给你!

  总的来说,谷歌的理念就是:利用Gemini的多模态、超长上下文和智能体能力,把世界上的所有信息组织起来,让它们对每个人都可触达、可利用。

  之前OpenAI一直有意无意放出烟雾弹,声称要发布全新的搜索产品,等于是把刀架在谷歌脖子上了。

  因此,以前可能要花几分钟甚至几个小时的研究,现在几秒钟内就可以完成!因为它将十个问题合而为一。

  比如,如果想找到波士顿最好的瑜伽或普拉提工作室,它会直接搜出来结果,然后帮你整理好情况介绍和工作时间。

  对标OpenAI,谷歌DeepMind今天首次对外公布了「通用AI智能体」新项目——Astra。

  Gemini以「c」音重复开头,生动形象地描绘了用蜡笔欢快涂色,可以创作出许多绚丽多彩作品的场景。

  Gemini看了一眼,就立即给出回答:「此段代码定义了加密和解密函数。它似乎使用AES CBC加密,根据密钥和初始化向量对数据进行编码和解码」。

  要知道,刚刚这个问题并没有向它提过,Astra完全是凭自己的视觉记忆回答出来的,简直成精了。

  测试者走到白板前,看向一个「服务器」的构建示意图,然后问道,「我应该怎样做能使这个系统更快」?

  大会上,Hassabis称,「一直以来,谷歌希望构建一个能在日常生活中真正有所帮助的通用AI智能体。如今,这一愿景成为现实,可以追溯到很多年前。这也是谷歌从头开始打造多模态Gemini的主要原因」。

  为了打造这款全能AI智能体,谷歌DeepMind克服了很困难的工程挑战——将AI响应时间降低至对话水平。

  然后,将视频和语音多模态输入,整合到事件时间轴中并缓存,以便实现AI智能体高效召回,更快处理信息。

  基于这些努力,Astra能够更好理解上下文,在交谈中可以快速做出反应,让互动的节奏和质量感觉更加自然。

  有网友称,「谷歌的这个Astra项目绝对是游戏规则的改变者,我们现在生活在一个由个人AI助手组成的世界,聊天机器人现在已经过时了。它可以实时地看、说、听,几乎没有延迟」

  Imagen 3还可以在更长的提示中,加入一些微小的细节,比如「野花」、「蓝色的小鸟」...

  如下图片提示,「由各种颜色的羽毛组成的「光」字,黑色背景」,然后Imagen 3生成了漂亮的字体。

  Veo具备1080p的高质量,用户提示可以是文本、图像、视频等各种格式,还能捕捉到其中关于视觉效果和影像风格的各种细节描述。

  通过点击「扩展」按钮,用户就可以持续增加视频的时长,最终,它的时长已经超过Sora达到了1分10秒。

  好消息是,Veo已经开始在官网开放试用了。此外,团队还开发了实验性工具VideoFX搭载Veo模型。

  谷歌DeepMind负责人Hassabis表示,自己从小玩国际象棋时,就一直在思考智能的本质是什么。

  谷歌DeepMind自去年成立以来成绩斐然。而最近的大成就,就是几乎可以预测所有生命分子结构和相互作用的AlphaFold 3了。

  Gemini可以与你进行模拟面试排练,甚至在与潜在雇主交谈时应该突出哪些技能,还能提供建议。

  比如,一次旅行的规划,需要涉及地理、时间、天气等诸多因素,需要AI能够做出优先顺序和决策的能力。

  Gemini Advanced的全新旅行规划,可以将模型推理和智慧融为一体,为人类更好服务。

  比如,如果付停车费时忘了自己的车牌号,就可以直接询问自己的车牌照片是哪个,不需要翻阅手机里的大量照片了。

  跟Pro比,Flash是一个更轻量级的模型,专为那些对响应速度要求极高的特定或频繁任务优化。

  并且,它同样具有多模态、1M tokens长上下文的特点,只不过实现了轻量化、低延迟、高效推理,每百万个token的价格仅是Pro版的二十分之一。

  此外,为了方便开发者,谷歌还对Gemini的API功能进行了三项优化——视频帧提取、并行函数调用和上下文缓存。

  简单来说,相较于TPU v5e,第六代Trillium TPU在性能上实现了高达4.7倍的提升,并在能效上提升了超过67%。

  并为Trillium配备了第三代SparseCore——专门用于处理高级排序和推荐工作负载中常见的超大嵌入的加速器。

  在这里,SparseCores可以通过从TensorCores策略性地卸载随机和细粒度访问,有效加速了重嵌入型工作负载。

  与此同时,谷歌还将高带宽存储器(HBM)的容量和带宽翻倍,并将芯片间互连(ICI)的带宽提升了一倍。

  由此,Trillium可以支持更加复杂的模型,拥有更多的权重和更大的键值缓存,并大幅缩短了大模型的训练时间和响应延迟。

  而通过多切片技术和Titanium智能处理单元(IPU),Trillium还可以进一步扩展——通过数百个Pod,连接数以万计的芯片,并在一个多千兆位每秒的数据中心网络支持下,组成一个超大规模的超级计算机。

  最后,谷歌还发布了自家首个视觉-语言开源模型——PaliGemma,专门针对图像标注、视觉问答及其他图像标签化任务进行了优化。

  在性能方面,全新的Gemma 27B不仅超越了规模大了2倍还多的模型,而且还能在GPU或单个TPU主机上高效运行。

搜索