AI 技术助力汽车发布会,视频自动生成主题大纲,提升用户体验

aixo 2024-10-31 08:03:26
大模型 2024-10-31 08:03:26

自然语言处理_自然语言处理的技术_自然语言处理理论

在刘沛的构想里,一场汽车发布会的拍摄、剪辑、发布可能要一两个小时,但现在,有了AI,就只需要几分钟的时间。

传统的人力编辑团队被智能化、自动化的机器识别代替,以前要几个钟头的工程现在几十秒就可以搞定。

这是AI发展的魅力,也是他所看到人工智能走向未来的潜力。

2024年,刘沛离开做了二十年的传统门户网站——中关村在线,来到视频类垂直媒体30秒懂车做技术总监,操手AI业务。

一个月前,他带领设计的基于视频自动生成主题、大纲和图片的产品已经全面嵌入30秒懂车的多媒体平台矩阵。

用户不再需要开盲盒式地浏览整个视频,只要在自动生成的主题大纲里挑选自己感兴趣的内容跳转播放,就可以了解自己感兴趣的信息。

这款功能上线后,视频完播率和用户反馈都有了跳跃式的提升。

▋ 01 初识AI

刘沛第一次接触AI,在2022年,那个时候他在中关村在线担任CTO。因为项目研发需要,他们开始用人工智能提高工作效率。

两年前,没有多少人系统接受过专业的人工智能训练,都是听到业内的人说好用,便一窝蜂地去国内外找开源模型,去检索教程和学习资料。

刘沛也一样,他唯一的一点基础就是大学时在网络部待了几年,学到了一些计算机的皮毛,趁热打铁去考了国家程序员证书,在毕业后从事了将近20年网站开发。

自然语言处理理论_自然语言处理_自然语言处理的技术

自然语言处理理论_自然语言处理的技术_自然语言处理

刘沛2001年考取的程序员证书照片

网站开发虽也涉及到专业的编程知识,但和生成式AI的逻辑还是有着质的区别。

网站开发由前端和后端技术构成。前端负责HTML、CSS、、数据库管理和服务器配置等。后端开发者需要设计用户界面、处理用户输入、管理数据存储和检索,以及确保网站的安全性和性能。

而生成式AI,是基于机器学习和自然语言处理技术构建的,提供对话式的交互体验。生成式AI的逻辑更侧重于理解语言的上下文、意图和情感,以及如何生成连贯、相关且准确的回答。

两年前,大部分企业都还属于AI领域的门外汉。

刘沛领导的项目需要在各大平台获取流量变现。流量获取就是通过专业内容输出吸引用户,然后从外部平台免费获取用户流量。

用户是被质量吸引来的,这需要批量式的优质内容输出,但传统的人工团队效率太慢,一天仅能产出200-300份专业文案。

幸运的是,开源模型给当时还不擅长AI的企业带来了更多可能性和机会。

恰逢国内清华智谱开源-6b模型,刘沛和同事不用再人工式批量生产UGC、PGC内容,而是基于知识场景制造海量AIGC内容。

曾经一个团队一天才能产出200到300份的工作量,在AI的自然语言处理技术加持后,一天就可以直接生成1000份。人力团队削减到不再需要编辑,只有一个审核,对AIGC作进一步的加工、润色,保证内容符合伦理规范和法律要求。

在AI的帮助下,刘沛负责的项目从内容生产、流量获取到最终的商业变现,整个交易额gmv已经过亿,纯利也超过了百万。

效率大大提高,成本大大下降,利润滚滚而来。

刘沛称,“这是爆炸式的增长。”

这种增长也让他意识到,一个独属于AI的时代,正在缓缓揭开帷幕。

▋ 02 三个人,两个月,一个项目

2024年,刘沛入职垂直类视频新媒体30秒懂车,担任技术总监。

30秒懂车创立于2015年,是一个做专业测评和深度访谈的汽车视频媒体垂直平台。

7月份,刘沛和他的团队突发奇想想做一个项目,基于视频内容生成主题和关键词,让用户一目了然地看到这个视频讲的是什么。

“现在的视频除了吸引流量的短视频,通常不会在开头就给出关键信息,而中长视频标题党居多,很多用户看了十来分钟也没有找到感兴趣的片段,便悻悻然退出,视频完播率较低。”

看到这个缺口,刘沛便想,能不能用AI自动生成一段视频的主旨、大纲,让受众直接找到自己喜欢的信息点击观看。

就汽车而言,有些用户想了解车的空间、有些想了解加速度、有些想了解油耗,但受限于视频的单线程浏览模式,只能一帧一帧扒,既费时、效率又低。如果开头不够引入入胜,不到一分钟就会点击退出。有了AI提取关键信息,用户可迅速浏览文本关键词精准定位每辆汽车的性能、细节、信息。

说干就干,刘沛和团队立刻汇报给CEO,开始立项。

但实际上手这个项目的除了UI设计也就三个人。

一个前端,一个后端,加上刘沛综合指导。

项目分为三步走,第一步是准备海量的AI可识别的素材。给AI的素材准确度越高,描述越清楚,AI识别能力就越强、反馈质量也更佳。

第二步是AI的交互过程。交互不是一蹴而就的,而是一个不断逼近、迭代,然后生成答案的过程。尤其是针对汽车行业里的一些专业知识,需要针对性地训练、部署,让模型能够更好地提炼出关键信息,生成优质的主题大纲。

第三步主要是后端的工作。为了使模型生成的答案达到生产级别,后端做了一些后线的算法加工,最终才达到上线效果。

这款基于“图像OCR、语音识别 + AI大模型推理”的视频主题提取产品,可依据时间轴精准到秒提取出主旨、大纲、内容甚至匹配的图片。在AI辅助下,视频与文本相结合,传播效率得到了极大的提高。

同时,该应用也可满足图像识别、图形处理、语音识别等批量AIGC需求。

自然语言处理_自然语言处理的技术_自然语言处理理论

基于AI自动生成的视频主题大纲

产品虽然优质,但设计研发的过程并非一帆风顺。

刘沛的工作,就是对整个产品线实施规划,及时发现可能存在的bug,修复优化。

比如如何准确高效提取视频内的字幕就是一大难题。

视频本身是一帧一帧图像,提取字幕需要将每一帧上的内容转换为文本。而字幕又分为软字幕和硬字幕,硬字幕本身已经和图片嵌合在一起,要提取难度更大。没有字幕的视频,就需要通过音频语音识别,从视频到音频再到文本进行三种格式的转化。

为了解决这个难点,刘沛和团队分析了上千份影视内容,从颜色、大小、字体、格式等维度不断提炼字幕关键信息,与AI模型进行交互。同时优化算法以提高字幕识别能力和最终结果的反馈质量。

就这样,历经重重困难,这个小而美的三人团队花了两个月就把产品做到了生产级别,解决了用户浏览中长视频的一大痛点。

这是国内目前首个基于“图像OCR、语音识别 + AI大模型推理”搭建的垂类视频主题提取产品。在这之前,百度虽然也研发了类似功能,但提取内容过于抽象,并不能聚焦于具体的细节、功能、数据,提供有价值的信息。

功能一经上线,就获得了业内和用户的极佳反馈,视频完播率和粉丝量都有了显著提升。

自然语言处理的技术_自然语言处理_自然语言处理理论