1、一句话爆改三维场景!斯坦福吴佳俊团队新作:场景语言,智能补全文本到D的场景理解
斯坦福的研究团队提出了一个创新性解决方案:就像人类使用自然语言(naturallanguage)进行交流,三维场景的构建需要场景语言(SceneLanguage)。
这个新语言不仅能让AI理解我们的需求,更让它能够细致地将人类的描述转化为三维世界的场景。同时,它还具备编辑功能,一句简单指令就能改变场景中的元素!物的位置、风格,现在都可以随意调整。
比如,输入「初始状态的国际象棋盘」,模型可以自动识别并生成如下特征:
64个黑白相间的格子
按规则排列的2个棋子
每个棋子的独特造型
最终生成的D场景完美还原了这些细节。
这个方法支持多种渲染方式,能适应不同的应用场景,更具吸引力的是其编辑能力:只需一句指令,就能调整场景中的元素。
SceneLanguage支持图片输入,还能生成动态场景,让D世界生动起来。
SceneLanguage的核心在于三大组件的融合:
程序语言(program):用于精确描述场景结构,包括物体间的重复、层次关系;
自然语言(word):定义场景中的物体类别,提供语义层面的信息;
神经网络表征(embedding):捕捉物体的内在视觉细节。
这种组合就像给AI配备了一套完整的「建筑工具」,既能整体规划,又能雕琢细节。
与现有技术相比,SceneLanguage展现出显著优势:
用户偏好测试中获得85.65%的偏好,相比现有方法提高了近7倍;在物体数量控制方面,测试集中的准确率达到%,而现有方法只有11%。(
机器之心)2、字节有望在Sora正式发布前上线视频生成模型
11月14日,界面新闻从多个知情人士处获悉,字节跳动视频生成模型PixelDance将很快在即梦AI上线,面向公众开放使用,具体的上线时间将会早于Sora正式发布的时间。
Runway联合创始人曾在11月9日称,OpenAI计划在大约两周内发布Sora。而OpenAI也公布了一条联合伦敦艺术家JonUriarte创作的短片,似乎是在为Sora的正式发布预热。这意味着,PixelDance很可能会在最近几天内发布。
字节跳动在大模型领域一直动作频频。9月24日,该公司一口气发布了豆包视频生成PixelDance、豆包视频生成Seaweed两款大模型,并通过即梦AI和火山引擎面向创作者和企业客户小范围邀测。据知情人士透露,PixelDance除了即将在即梦AI上线之外,还将于近期在豆包开启内测。(
极客公园)、DeepL上线语音翻译工具DeepLVoice:会议、对话实时多语言交流
DeepL作为全球语言人工智能的领导者,近日推出了全新的实时语音翻译工具——DeepLVoice,旨在促进不同语言之间的无缝沟通。
DeepLVoice是该公司首款专注于语音翻译的产品,超越了其著名的文本翻译服务,能够实时翻译,实现面对面或虚拟场景下的多语言互动。
该工具支持多种语言,包括英语、德语、日语、韩语、法语、西班牙语等,并提供DeepL翻译支持的所有种语言的字幕。借助这些功能,DeepLVoice旨在通过消除经常阻碍全球业务互动的语言障碍来提高生产力和包容性。
DeepLVoice分为两个专用模型——会议语音(VoiceforMeetings)和对话语音(VoiceforConversations)。
在虚拟会议中,参与者可以使用自己熟悉的语言进行交流,同时其他人会实时看到翻译后的字幕。此功能旨在提升全球团队的沟通效率,让所有与会者无论语言能力如何,都能充分理解和参与。
在面对面交流中,对话语音能够在移动设备上实时翻译,适用于客户服务和一线工作人员。该工具有助于消除语言障碍,提升客户互动的质量和员工的工作效率。
为了应对实时翻译的技术挑战,DeepL的工程师们经过多年数据和人工智能的积累,解决了包括不完整输入、发音差异和延迟等问题。DeepL的首席执行官贾雷克?库蒂洛夫斯基(JarekKutylowski)表示,实时语音翻译的复杂性需要建立在深入的AI和语言学知识之上,确保企业能够在全球范围内高效沟通。(
AIbase基地)4、OpenAICEO辟谣AI发展「撞墙」论
昨日下午,OpenAICEOSamAltman在X平台辟谣AI发展「撞墙」论:thereisnowall。
这一则辟谣源自近日有多家媒体报道称,OpenAI、Anthropic等多家大模型公司下一代前沿模型训练表现不佳,这也导致ScalingLaws疑似「撞墙」的消息不胫而走。
此前,OpenAI前首席科学家IlyaSutskever在接受路透社采访时表示,「通过扩大预训练阶段——即使用大量未经标注的数据来训练AI模型,使其理解语言模式和结构——所取得的成果已经停滞不前。」
图灵奖得主YannLecun、Ilya、Anthropic创始人DarioAmodei也就此事纷纷展开唇枪舌战。争论的核心在于,随着模型规模的不断扩大,其性能提升是否会遇到天花板。
作为补充,在这场辩论的背景下,彭博社在近期也披露了一条引人注目的消息。OpenAI计划在明年一月份推出一款名为「Operator」的AIAgent(智能体),这个Agent能够使用计算机代替用户执行任务,如编写代码或预订旅行。(
APPSO)5、讯飞星火多模态交互大模型上线,数字人、语音、视觉支持一键调用
「讯飞开放平台」
转载请注明:http://www.chongqinghg.com/fygfz/14286.html