AI前沿速报0628:交互图像编辑DragDiffusion
大家好,欢迎来到本期AI前沿速报。本期我们将带您了解前沿的AI技术进展,包括交互式图像编辑技术DragDiffusion的研究成果,SIGGRAPH最佳博士论文奖的获奖者,以及企业在构建AI基础设施方面面临的新挑战等。希望这些信息能帮助大家更好地理解AI的发展趋势。请大家关注、点赞、转发这篇内容,让更多的人了解AI的日新月异变化。
1、【研究者开发出交互式图像编辑技术DragDiffusion】
新加坡国立大学和字节跳动的研究者开发了一种名为DragDiffusion的交互式图像编辑技术。该技术利用扩散模型和大规模预训练模型,实现了基于点的图像编辑。用户可以通过拖拽红色关键点来改变图像的内容,比如改变动物的姿态或增加物体的大小。研究者表示,DragDiffusion在各种场景下都表现出了良好的适用性和通用性。该技术的研究论文已经发布,并将很快公开代码。这一技术有望在图像编辑领域带来新的突破。
(资料图片)
2、 【SIGGRAPH宣布最佳博士论文奖获奖者】
计算机图形学及互交技术顶会SIGGRAPH宣布今年大会的最佳博士论文奖获奖者,加州大学尔湾分校的Cheng Zhang摘得该奖项。评委会认为,他在论文中展示了基于物理的渲染方面的重大进展,为未来的可微分渲染算法的发展提供了实用工具和坚实的理论基础。Cheng Zhang的博士论文标题是「Path-Space Differentiable Rendering(路径空间可微渲染)」,围绕一种创新的基于物理的可微分渲染框架展开研究,对计算机图形学和计算机视觉、计算成像、计算制造、机器人技术以及虚拟/增强现实等领域具有重要意义。SIGGRAPH是计算机图形学顶级国际学术会议,今年的大会将于8月6日至10日在美国加利福尼亚州洛杉矶会议中心举行。
3、 【企业在构建AI基础设施方面面临新挑战】
随着AI的普及,企业在构建AI基础设施方面遇到了新的挑战。首先,算力需求激增和供给不足导致算力短缺和成本上升。其次,大模型的商业模式尚不成熟,安全性也存在问题。然而,一些企业通过使用CPU来承载AI任务,解决了算力和成本问题。阿里巴巴、美团和百度等公司都采用了英特尔第四代至强可扩展处理器来提升AI推理性能和降低成本。阿里巴巴在电商推荐系统中使用CPU成功应对双十一峰值负载压力,美团通过CPU承载低流量长尾视觉AI推理降低了服务成本,百度通过蒸馏后的模型在CPU上实现了更多行业和场景的应用。企业在选择AI技术方案时应根据业务特点和属性选择适合自己的解决方案。
4、 【亚马逊Alexa Prize决出最终冠军】
亚马逊Alexa Prize是全球最受瞩目的人工智能竞赛之一,旨在建立一个能够进行自然、有趣和有深度对话的人工智能系统。今年的比赛增加了SimBot项目,要求机器人能够在3D虚拟环境中感知、推理、行动和通信。参赛团队需要面对技术挑战,如如何让机器人对人类世界做出反应,以及如何调优系统以避免被其他团队超过。其中一支参赛团队SEAGULL选择了模块化建模的方法,注重系统的可解释性和可控性。他们还重视用户体验,通过邀请校内同学体验虚拟机器人来改进系统。SEAGULL团队认为,人工智能产品的最终呈现离不开对于人的重视。
5、 【AI模型Shikra能够进行参考对话,理解和输出空间坐标】
研究人员提出了一种名为Shikra的AI模型,它可以像人类一样进行参考对话,理解和输出空间坐标。Shikra使用自然语言中的数字来表示物体位置,并且不需要额外的词汇表或位置编码器。该模型在传统的图像识别、问题回答和图像描述等任务上表现出色,并在需要理解位置输入的任务中取得了先进的结果。研究人员还发现,在使用带有位置信息的推理过程时,可以有效减少模型的幻觉,提高模型的性能。这一研究为AI模型在多模态场景下的应用提供了新的思路。
6、 【MosaicML发布MPT-30B,超越ChatGPT3】
MosaicML发布了MPT-30B,这是一款比ChatGPT3更好的预训练模型。MosaicML-7B在AI领域取得了巨大成功,下载量超过300万次。为了满足用户需求,MosaicML推出了MPT-30B,该模型具有更好的性能和更高的适应性。MPT-30B比ChatGPT使用的参数少三分之一,是一种轻量级模型。MPT-30B还提供了两个预训练模型,可以根据单一指令进行影响,并能够进行长时间的多轮对话。MPT-30B通过改进训练和推理性能,提供更强大的编码能力。该模型还保持了轻量级,有助于降低运营成本。
7、 【CPM-Bee开源满月,已有40家企业获得商业使用授权】
自2023年5月27日开源发布以来,CPM-Bee 10B已被超过40家企业授权进行商业使用。这些企业涵盖医疗、金融、教育、法律、媒体等领域,包括同方知网、深圳证券信息、山东浪潮科学研究院等知名机构。CPM-Bee是由面壁智能和清华大学NLP实验室开源的百亿参数中文基座模型,支持文字填空、文本生成、翻译、问答等NLP应用场景。CPM-Bee的开源免费商用模型旨在让更多机构和个人参与大模型的探索和应用,形成多样化的大模型应用生态。企业可以发送实名邮件至cpm@modelbest.cn获取申请表格并获得官方授权证书。
8、 【中科院开源FastSAM模型,图像分割速度提升50倍】
中科院团队开源了FastSAM模型,能以50倍的速度达到与原始SAM相近的效果,并实现25FPS的实时推理。FastSAM通过重新划分任务为全实例分割和提示引导选择两个子任务,以高出50倍的运行速度实现了与SAM方法相当的性能,是首个实时分割一切的基础模型。该模型在Github上获得了2.4K+次星标,并受到广泛关注。FastSAM的优秀表现为视觉任务的架构选择提供了新的视角,对于特定任务,专用模型结构或许在计算效率和精确度上仍具有优势。
9、 【锂电池发明者John Bannister Goodenough去世】
John Bannister Goodenough,锂电池发明者,去世,享年100岁。Goodenough发明了多种安全稳定的锂电池化学体系,为消费电子、通信和新能源汽车的发展做出了重要贡献。他在54岁开始研究锂电池,97岁获得诺贝尔化学奖。Goodenough的研究使锂电池的使用方式更加稳定,为电子设备便携化和无线互联社会奠定了基础。他还发现了钴酸锂和磷酸铁锂等电池材料,为锂电池的升级替代品奠定了基础。Goodenough一生充满意外反转和跌宕起伏,是榜样励志的一生。他在去世前一个月还发表了一篇关于固态锂金属电池的论文。
10、 【明星自动驾驶卡车创业公司擎天智卡陷入困境】
国内自动驾驶卡车创业公司擎天智卡近期传出停摆消息,两位联合创始人已分道扬镳,员工已离职,公司面临清盘。擎天智卡是从小马智行分流出来的创业公司,仅创办19个月就陷入困境。擎天智卡的资金状况不佳,只进行过一次天使轮融资,资金不足以支撑公司发展。此外,自动驾驶卡车行业面临着成本高、政策限制等挑战,擎天智卡的停摆可能与这些因素有关。自动驾驶卡车创业公司的生存空间越来越小,行业竞争激烈,擎天智卡的困境或许是自动驾驶创业领域的一个缩影。
11、 【联想研究院在CVPR 2023计算机视觉竞赛中斩获7项冠军】
中国的联想研究院在CVPR 2023计算机视觉竞赛中取得了7项冠军和2项亚军的优异成绩。其中,他们在多目标追踪与分割、端到端运动预测、3D目标检测等多个赛道中获得了冠军。联想研究院团队的创新方案在各个赛道中表现出色,超过了其他优秀科研团队。他们的成功离不开联想基础设施业务群提供的强大算力支持。联想的ThinkSystem SR670 V2服务器采用了先进的液空混合散热技术,为模型训练提供了稳定的散热环境。这次的成绩将进一步推动企业AI技术的创新和实践。
12、 【机器狗学会喷火,网友直呼“热狗”】
一段视频在Reddit上走红,展示了一只名为Thermonator的机器狗喷火并跳舞的技能。这只机器狗由ThrowFlame公司制造,结合了喷火器和机器狗的功能。据推测,它的外形参考了宇树科技的Go 1。喷火器装满柴油或汽油混合物后,能连续喷射30英尺的火焰长达45分钟。这只机器狗预计在2023年下半年上市。此外,马斯克旗下的SpaceX公司也将推出一款名为“星舰火炬”的喷火产品。
13、 【向量数据库Zilliz完成1.13亿美元融资,发布Zilliz Cloud 2.0】
向量数据库Zilliz已完成1.13亿美元融资,专注于研发面向AI应用的向量数据库系统。向量数据库是一种为了高效存储和索引AI模型产生的向量嵌入数据而专门设计的数据库。它可以管理私有数据和知识库、为大模型提供实时数据更新、实现大模型的个性化和增强、提供智能体的记忆以及保存大模型的处理结果。Zilliz Cloud发布2.0重磅更新,引入了对RESTful API的全面支持、提供了动态schema和新增了JSON数据类型的支持。此外,Zilliz Cloud还推出了基于Serverless的入门计划、专有集群产品和自托管计划。Zilliz Cloud计划于今年7月上旬推出国内云服务产品,首期将支持阿里云、百度云、腾讯云和金山云。
14、 【Databricks以13亿美元收购AI初创公司MosaicML】
大数据巨头Databricks以13亿美元收购AI初创公司MosaicML,该公司主打生成式AI平台,成立不到两年,曾开源两个MPT系列大模型,其中MPT-7B下载量超过300万次。此次收购将帮助Databricks构建、使用生成式AI模型,成本将大幅降低。Databricks是一家数据存储和分析巨头,估值310亿美元,帮助大型公司处理数据。此次收购是AIGC领域大额收购之一,显示了科技巨头们在AI领域的布局。全球生成式AI市场支出预计将达到426亿美元,并以32%的复合年均增长率增长。
15、 【141家上市大厂被AI耍了!谷歌意外成帮凶】
一份分析报告显示,今年5-6月,有55个AI生成内容的网站上出现了393个广告投放,涉及到的厂家包括6家大银行和金融服务公司、4家奢侈品百货、3家知名运动品牌等。这些AI网站不仅制造垃圾信息,还撬走了普通网站的广告费。报告发现,有217个AI生成式网站用AI发布大量文章,一天甚至可以超过1200篇,但几乎没有人类来负责编辑和监管。而这些垃圾网站中有356个广告是谷歌广告分发的,违反了谷歌广告自己制定的规则。目前,谷歌方面尚未对此回复。AI的影响正在悄然改变互联网,我们的选择将决定互联网的未来。
16、 【AI创作的音乐或无法获得格莱美奖】
格莱美奖的资格标准更新,规定只有“人类创作者”才有资格参评,不包括纯AI创作的作品。然而,如果AI在音乐创作中的作用是“有意义的”且超过“微不足道”,则可以被接受。这意味着使用AI工具进行音乐创作是可以的,但AI不能成为歌曲的创作者。这一政策是为了防止恶意使用AI技术,保护音乐创作的创造性。虽然AI生成的音乐已经成为一种独特的音乐流派,但格莱美奖仍然将人类创作者的作品视为更有意义和重要。这一政策将随着时间的推移而变化,以适应艺术家对AI技术的接受和使用。
17、 【OpenAI的ChatGPT应用现在可以通过Bing搜索互联网】
OpenAI宣布,ChatGPT Plus的订阅用户可以使用ChatGPT应用的新功能Browsing,通过Bing搜索问题的答案。Browsing可以在应用设置的“新功能”部分启用,选择“GPT-4”模型并从下拉列表中选择“使用Bing浏览”。Browsing功能适用于与时事和其他超出ChatGPT原始训练数据范围的信息相关的查询。但是,将ChatGPT的搜索能力限制在Bing上似乎有点不友好。尽管Bing的业务动机显而易见,OpenAI与微软有着密切的合作关系,后者已经投资了超过100亿美元的这家初创公司,但Bing远非搜索引擎的全部。ChatGPT的新Browsing功能存在的问题是,当Bing出现问题时,用户将没有其他选择。除了Browsing功能,ChatGPT应用还进行了一些改进,例如点击搜索结果后可以直接跳转到对话中的相应位置。
18、 【RelationalAI发布为Snowflake构建的AI协处理器】
RelationalAI今天宣布推出了为流行的云数据仓库提供商Snowflake构建的AI协处理器。这一举措旨在革新企业AI决策制定。
19、 【GitHub CEO:AI和软件开发现在紧密相连】
GitHub CEOThomas Dohmke在加拿大多伦多的Collision会议上表示,“AI和软件开发现在紧密相连,对我们的生活产生了不可分割的影响。”他认为,每个开发者都应该有一个“副驾驶员”,即AI工具。他还表示,使用像Copilot这样的工具对开发者来说没有任何不利之处,相反,它已经成为每个开发者的标准工具之一。GitHub的Copilot是非常受欢迎的基于AI的代码补全服务之一,即使AWS CodeWhisperer和Google的Bard等竞争对手也在吸引开发者。GitHub预计,到2030年,基于生成式AI的开发者工具将为全球GDP增加1.5万亿美元,并能弥补约1500万名缺失的开发者。
感谢您的关注,AI前沿观察将继续为您带来前沿、全面的人工智能资讯。请大家积极参与互动,点赞、评论、转发,让更多人了解AI的前沿技术和应用。明天的速报,我们不见不散!
标签: