生成式 AI 技术为声音类产品带来全新机遇与挑战

aixo 2024-09-10 00:15:55

2024-09-10 00:15:55

声音类产品作为文艺创作的重要表现形式，与生成式AI（人工智能）的结合为文艺创作带来了全新的可能性。通过生成式AI技术，声音类产品在音乐创作、语音合成有声读物、虚拟主播、影像音效制作等方面不断变革创新，为文艺创作提供了全新的创作手段和表达方式。生成式AI技术在文艺创作中的应用为声音类产品发展提供了新的机遇，但面临的风险与挑战也需积极应对和解决。

生成式AI产品应用领域广泛

AI音乐创作“风生水起”。生成式AI技术已经在音乐领域得到广泛应用，主要体现在分类识别（音乐检索、乐谱识别、音频识别）、生成（AI作曲、虚拟歌手）及传播（MIDI音响、教育）这三个方面。AI在音乐创作的不同阶段都发挥了较大作用。在创作初期，创作者运用AIGC汲取音乐素材以及创作灵感，同时对作品的音乐风格进行分析和预测，并进行音乐素材的智能检索和组织。在创作中期，AIGC技术为创作者的作品产出提供支撑，更好地辅助音乐创作，将音乐作品意图具像化。在创作后期，AIGC为雏形作品的后期制作提供强大的音频处理工具，从而使作品的后期制作更加准确、高效。尤其是某些AI编曲技术的出现，为音乐创作者带来更多灵感的同时，也使创作过程更加高效。

AI虚拟主播走近大众。虚拟主播通过运用AI语音合成技术、自然语言处理技术、深度学习技术以及计算机视觉技术走进大众视野。语音合成技术通过先进的语音合成算法，模仿人类的声音，从而使虚拟主播能够流畅、自然地表达交流。计算机视觉技术在虚拟主播的形象呈现方面发挥着关键作用。通过3D建模和渲染技术，可以创建出高度逼真的虚拟人物。同时，通过面部捕捉和动作捕捉技术使虚拟主播能够实时模拟真人的表情和动作。情感计算技术可以分析观众的语言和行为，判断观众的情感状态，据此及时调整虚拟主播的回应方式及语气，进而赋予了虚拟主播在交互状态下的情感变化。

AI配音应用广泛。AI配音技术通过对大量语音数据进行学习，能够模拟出不同人物、不同情绪的语音特点，为AI配音产品提供丰富的角色表现和情感表达。随着AI技术的发展，神经网络、深度学习等技术出现，“TTS+AI”（从文本到语音+人工智能）的组合使得电子合成语音自然性和准确性不断提高。针对情感起伏、声线多元、人声适配度等多样化需求，目前已有AI语音产品供应商提供“情感TTS”定制服务，通过调整语音语调、语速、停连、音高甚至模拟人类在不同心情下的语气变化，使电子合成语音能够更贴切地适应不同的语境和场景，赋予其更为丰富的“情感”表达。AI配音技术应用场景较为广泛，对众多行业发展都有促进意义。在电影、电视剧、动画等影视作品中，AI配音技术被用于生成角色的语音。通过模拟不同音色和语言，AI配音技术可以使角色声音更加自然、真实，提高观众的观看体验。该技术在有声读物和电子书领域也应用甚广，为用户提供更加自然、流畅的语音播报服务。AI配音也被应用在游戏领域，可以生成自然且更符合角色设定的声音，增强了游戏消费者的体验。

生成式AI产品优势明显

创作成本相对较低。随着人工智能技术的发展，AI技术开始尝试应用于智能声音设计，即自动根据影视内容及情感要求生成相应音效，这一应用大大降低了制作成本。一方面，节省了声音类产品制作的时间和人力资源。相较于传统产品，AI技术的应用可以快速生成出所需声音，并实现自动化操作，减少了创作过程所需的人力和时间。另一方面，传统声音类产品制作容易受到多种因素影响，例如创作者的状态、环境噪音、设备操作等，导致创作周期较长，而生成式AI技术应用到声音类产品创作中可以最大限度降低外界因素影响，实现成本最优化。

素材处理精准高效。AI技术通过大量的数据学习，可以对音频素材进行识别、分类、整理，自动识别音频中如人声、音乐、音效等不同元素，并进行快速分类和整理，与人工相比大大提高了素材处理的质量，降低了数据处理的错误率。AI技术还可以对音频素材进行智能剪辑和拼接。此外，在音频处理过程中需要经过降噪、增减混响等特殊处理，人工处理可能存在个体偏差，而AI技术能最大限度降低错误出现的概率。

生成内容多元新颖。随着社会发展，人们对声音类产品的需求更加多元化、个性化。针对此现状，生成式AI可以帮助创作者在广告配音、音乐制作、虚拟角色声音等多领域的创作中打破固有思维限制，提供新颖的创作思路。不仅如此，AI能够通过分析用户的喜好、习惯和交互数据，了解用户对声音产品如音色、语气、语调等方面的具体需求，为创作者个性化创作提供实际支撑。

生成式AI产品发展存在的风险与挑战

权益问题存在争议。声音类产品涉及数据侵权风险、版权主体的权益以及个人隐私和人格权等问题。AIGC创作模型大多是由庞大的样本训练而成的，对模型选取的素材进行反向溯源难以实现，而采用的素材可能未经作者授权。不仅如此，生成式AI的使用者可以在生成的产品上进行二度创作，新产品版权的归属问题也难以确认。AI在生成部分声音类产品时，如使用到未经公开发布的普通人的声音，这类声音属于个人隐私信息，在公开发布时可能存在暴露隐私的风险，这将对个人隐私权和人格权造成侵犯。在当前发展阶段，AIGC从组合型内容创造转向探索型甚至变革型内容创造，其创作过程中的权益收益以及可能导致的侵权责任如何划分，目前也处于争论之中。

艺术规范问题存在争议。声音类AI产品涉及音乐、播音主持等艺术类学科，这些学科在其专业领域也有一定的专业规范和艺术化处理方式，而声音类AI产品在是否符合专业的艺术规范方面存在争议。以播音主持专业为例，在不同语境下朗读时，同一句话所表达的语气、情感、停连、重音都是不同的，说话时停连、重音的位置变化也会影响意思表达。但目前，生成式AI在配音时不能根据文本内容识别具体的语境，同一声音在不同语境下朗读方式区别不大。在情感处理方面，AI与真人相比表达较为生硬，没有情感起伏。因此，在实际应用中，声音类AIGC产品在艺术规范方面的问题也值得深思。

生成式AI产品对创作者的启示

创作者应不断提升自身能力。生成式AI技术可以实现一键生成，一些简单重复的工作不再需要人工完成，这就使一些创作者面临失业风险。当然，声音类AI产品存在的固有问题也使优秀创作者的地位不可撼动。例如，AI虚拟主播能够通过“克隆”方式模仿规范的普通话和特定音色，但究其根本也只能模仿声音的外在形式。实际上，优秀的主播需要在不同情境下采用不同的播报方式，通过语气、语调、停连等的变化来表达不同的情感状态。这就要求创作者们不断提高自身技术水平，提高专业能力，综合学习多领域知识，丰富自己的阅历，扩大自己的优势，从容面对AI产品发展对创作者产生的冲击。

创作者应合理利用AI技术。AIGC技术发展到现阶段，其在为创作者提供创作灵感、降低创作成本、提高作品产出效率、提升作品质量等方面具有一定的优势。因此，创作者要主动了解和学习AIGC技术，不能一味地肯定或者抵制，而是要将自身需要与AI技术相结合，掌握在AI技术运用当中的主动权，使其成为辅助作品创作的得力助手，实现自身与AI技术双向融合发展。同时，因AIGC的使用规范问题还存在争议，创作者要提高自身法律意识，及时了解AIGC相关法律法规，使AI技术能够在合理规范的情况下辅助自身创作，提高作品质量，产出更优秀的声音类产品。

随着AIGC技术的发展，其在声音类产品方面的应用已经占据了一定的位置。其不仅能模拟出接近人类的声音，直接生成声音产品，而且可以辅助创作者进行创作，为创作者提供全新的工具和独特的表达方式。但同时，生成式AI技术在声音类文艺创作应用中仍面临诸多挑战，我们要在抓住机遇的同时正视存在的问题，并在实践中努力加以改进，让生成式AI技术得到更好更广泛的应用。

（王一然作者单位：苏州大学传媒学院）

自然语言处理

生成式 AI 技术为声音类产品带来全新机遇与挑战

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号