首页
学习
活动
专区
圈层
工具
发布

#视频

ComfyUI v0.25.1更新全解析:Kling V3-Turbo正式接入,文生视频与图生视频能力全面增强,价格计算逻辑同步升级

福大大架构师每日一题

这里和文生视频最大的区别在于,请求入口不再是单个 prompt 字段,而是一个组合内容列表。也就是说,图生视频模式本身是一个多材料输入结构。

000

多模态理解首选VITA:企业AI理解的可靠伙伴

hollyx

VITA(Youtu-VITA)是腾讯云优图实验室自研的原生多模态理解大模型,支持视频、图片、音频的统一理解。本文从技术架构、工程性能、成本控制、接入便捷性等角...

100

非要看黑丝?kk当场脱衣服?呵呵那咋了?

疯狂的KK

众所周知,本KK的风格是百变的,但无一都是性感的,难道小小的甜妹风本KK就驾驭不了了?小看我了吧?当场脱衣服换给你看!!!小小甜妹!!拿下!!!

100

开源版ElevenLabs替代品AITTS 8G显存可用 直接给视频配音翻译附整合包 支持mac系统

疯狂的KK

现在让我来测上一测,首先我关心的除了显存占用还有速度,8G可用这基本上市面的3060+的显卡都可以安装,支持一键启动,除了TTS,看下完整的链路从开始到结束需要...

400

好消息,Agnes 推出免费 LLM Token,不用买 Coding Plan 啦!

小傅哥

Agnes-Video-V2.0 是一款面向生产环境的视频生成模型,支持 文生视频、图生视频、多图视频生成 和 关键帧动画 工作流。

800

好物周刊#157:从预览到排版,WeMD 打造高效公众号创作流程

村雨遥

是一款强大的 Chrome 视频下载工具,允许您从网站下载视频,保存 M3U8 流,并以快速可靠的性能离线观看视频。

600

为什么选择腾讯云VITA?五大核心优势深度解读

克劳德2048

腾讯云VITA(Youtu-VITA)是优图实验室自研的原生多模态理解大模型,支持视频、图片、音频的统一理解。本文从原生多模态架构、工程效率、成本控制、长视频处...

300

音视频理解分离?VITA原生融合方案的优势

克劳德2048

对于视频理解任务,VITA支持对视频画面和音频做综合理解,单次可处理最长30分钟的长视频,擅长视频结构化、分镜拆解、内容摘要等任务。对于音频理解任务,VITA无...

000

视频搜索中的多模态理解:以文搜视频的技术实现

hollyx

"以文搜视频"指用户通过自然语言描述,在视频库中检索出与描述内容相符的视频片段。与基于标签或元数据的文本搜索不同,以文搜视频需要对视频的视觉内容、音频内容、字幕...

800

我把视频下载做成了一个 Skill,很万能,顺手开源了

Ai学习的老章

但是我现在有了新需求,需要把视频下载这一块的能力单独摘出来,单独写一个 Skills(实际上视频下载到本地,过程比想象中曲折,好多坑)

600

视频理解太慢?VITA"秒级理解"的技术原理

gavin1024

视频理解延迟过高,往往受限于多模型串联的级联架构。VITA基于原生多模态大模型技术,在单个模型内完成端到端的多模态内容理解,视频首Token时延P95为2.47...

700

Codex 的插件太让人上瘾了

Ai学习的老章

视频生成与动效制作:用于编写 HTML、渲染视频,覆盖视觉合成、GSAP 动画、字幕、旁白、音频响应式视觉,以及网页转视频采集等场景。

600

Claude 限制接入龙虾智能体?Agnes AI 厂家直接掀桌:多模态 API 永久免费,零成本接入全生态!

程序那些事儿

这意味着,你不仅可以用它免费对话,还能免费生成图片和视频,并且可以无缝接入 HermesAgents、OpenCode、WorkBuddy、Claude、Ope...

700

图片标签靠人工?多模态自动打标方案详解

gavin1024

VITA(模型代号Youtu-VITA、YT-VITA)的标签分类能力可以对图片或视频中的内容进行分类打标,可识别人物、地点、动植物等常见对象类别。这一能力适用...

1300

图片结构化信息提取:从非结构化图像到结构化数据

hollyx

图片结构化信息提取的技术,可以自然地延伸到视频场景。视频可以被视为一系列连续图片的组合,因此图片结构化的很多技术思路也适用于视频。

600

当「提示词工程师」开始像制片人一样思考,Seedance 2.0 Skill OS 深度解析!

开源星探

它像一句宣言,也像一个警告:别再把 AI 视频生成当成「写一句长咒语然后碰运气」的活儿了。

5900

19.3K Star!无审查、无限制的开源 AI 图像视频神器来了!

开源星探

前两天刷推,看到不少做 AI 短剧的朋友在疯狂吐槽:用主流视频大模型生成一段带"危险动作"或"带微弱呼吸声"的视频,被平台一直拒,提示词改了十几遍,最后还是会触...

3610

字节跳动大数据面试SQL-视频完播率统计

数据仓库晨曦

这道题来自字节跳动短视频业务的数据分析岗面试。对于抖音这样的产品,完播率是衡量内容质量的核心指标——用户有没有把这个视频看完?完播率高的视频会被推荐算法加权分发...

700

音频信号的Token化方案:如何让声音进入大模型?

gavin1024

在视频理解任务中,音频与视频画面需要保持时序上的对齐。如果音频采样率与视频帧率不匹配,会导致音画不同步,影响模型对内容的理解。

4010

视频理解中的时序建模:如何让AI理解"前因后果"?

gavin1024

与图片不同,视频数据具有明显的时间维度。在视频中,事件的发生、发展和结束往往跨越多个时间片段,各个片段之间存在因果或关联关系。理解视频内容,不仅需要识别每一帧或...

4400
领券