李成笔记网

专注域名、站长SEO知识分享与实战技巧

网红语音社交APP遭处罚整改,究竟犯了什么罪?

近期,众多知名音频APP在各大应用商店遭遇下架,其中包含不少网红语音社交类APP,此举缘于这些APP存在有害信息、违反相关法律法规,应用商店按规定予以下架。随后,国家网信办发布消息,针对网络音频乱象启动专项整治行动,对这些APP分别采取了约谈、下架、关停服务等阶梯处罚。

当时,苹果App Store针对下架情况发布了公告,表示这些APP存在有害信息,违反相关法律法规,予以下架30天处理。相信在那天,很多不明真相的吃瓜群众头上直冒问号:分享音乐音频的软件还能违反法律法规?

结合网信办的公告以及对这些软件的深入研究后,基本可以确定下架原因之一,便是涉黄。如部分音乐社交软件,新增了视频直播功能,涉黄程度属直观可感知,但其他纯音频APP又是如何涉黄?

隐性涉黄内容是伤疤

以电台软件为例,这类软件提供了个人电台功能,通过开通个人FM电台,听众可以关注并收听电台内容。但只要含有由用户产生内容的功能,就容易受到有心人士及不法分子的关注,通过这些功能散布涉黄信息。

当然,这类电台内容属于直观可分辨,经过精心录制和编排的内容在语音识别上较为容易,平台方也容易通过简单的语音识别技术及过滤规则在审核阶段屏蔽掉。难以分辨、最容易“漏网”的隐性涉黄内容才是这类平台最大的伤疤。

如今不少音频软件加入实时语音功能,这类社交元素能够刺激日活率和拉新率。但实时语音对话对于审核工作来说,比较难以进行,需要通过实时语音识别实时审核内容,但是鉴于录音环境、口音、音量,实时语音识别还难以达到较高的准确率。

同样是内容审核,用于图片/视频/文字的AI审核技术目前就非常成熟。(没错,下面是广告时间>。<)

基于深度学习和神经网络,通过人脸识别及肢体识别,图普提供的内容审核云服务,能够精准识别涉黄内容,准确率超过99%。多年来服务于众多互联网平台,如映客直播、美拍、迅雷等,以此获得“互联网鉴黄师”的称号。图片/视频/文字在AI审核上的干扰因素较少,具有动作含义的唯一性,只要通过不断训练建立模型库即可。

而语音内容具有超多干扰因素,如音频清晰度、上下文联想/多音字/潜含义(毕竟中华文化博大精深)、地方口音、多语言混用、网络语言、缩写等等,中文语音识别天生就难度极高。这也是为什么目前大部分手机语音助手仅支持标准中文,以及一些广泛使用的方言(如粤语)。

但只要AI不断训练,以及算法的升级迭代,这类实时语音还是能够达到可审核的程度。(前方高能,广告时间又来了)图普科技现已上线语音识别审核服务,通过语音识别算法构建的语音识别引擎(ASR),能够对语音内容进行文字转译处理。具有语义理解和方言兼容等能力,从6大违规内容分类规则上判断语音是否涉嫌违规,6大分类为色情、暴恐、政治、广告、敏感、辱骂。

还有较为模糊的隐性涉黄内容,此类内容也最为容易被忽略,通常这类隐性内容仅包含短暂的低俗内容,如开黄腔、呻吟、娇喘、隐晦用语等含有挑逗、招嫖、色情传播等性质。由于隐藏在正常内容中,时间也较为短暂,就算由人工审核,往往也容易疏漏。采用图普科技语音识别审核,就可以针对嫌疑语音片段自动做标注,再由人工复审,以免错杀或漏杀。

另外,通过图普科技语音识别服务,针对一些敏感地区的方言,也可设置为重点审核对象,以免平台涉及敏感内容而遭处罚。当然,AI也不是万能的,有一种语音内容涉黄的程度非常难以界定,这便是人们越来越熟知的ASMR。

ASMR (Autonomous Sensory Meridian Response),中文译名“自发性知觉经络反应”,是一个用于描述感知现象的新词,其特征是:对视觉、听觉、触觉、嗅觉或者感知上的刺激而使人在颅内、头皮、背部或身体其他范围内产生一种独特的、令人愉悦的刺激感。

ASMR用于正途可以是放松身心、辅助睡眠等等,部分听众可能会对ASMR产生生理上的反应以达到某种释放需求(不需要再讲得更明白吧,为了过审,笔者也是不容易的)。于此,部分创作者就抱着这个目的而制作含有隐性涉黄的ASMR,如娇喘以及不可描述的内容。

基于此,近年来国内外也涌现了ASMR视频直播,在线直播ASMR内容录制过程。这类内容也有很多涉黄,如美女直播轻声娇喘ASMR以及更多不可描述的动作。ASMR能够刺激人类情感,达到某种情感释放,但是给机器、AI听,也就是一段纯粹的音频。

其实,人类在界定语音内容的涉黄程度本就很难去标准化,而AI审核可以具备标准化。假设现在AI能够识别声音主人的长相,并且识别出对应年龄,如果识别为未成年人则标注并拦截发布语音,再通过人工复审确认身份,避免因未成年人在平台受不良信息侵害,从而使平台遭处罚。这是否能成为另一种语音审核的思路呢?

AI通过声音还原脸 能实现语音审核?

前面的假设并非凭空想象,不久前,来自康奈尔大学的科学家们,利用互联网上数百万人的在线视频资料,设计并训练了一个深度神经网络。模型在训练过程中学习了视听、音像、声音和面部的关联性,从而根据声音来推测面部特征。它可以通过一个简短的音频片段来重建一个人的脸部图像,捕捉语言、口音、速度和发音等,从而推测年龄、性别、族裔、嘴唇形状、嘴唇大小、骨骼结构等等。

上图为一些成功的案例,每组案例从左往右:1、从原始视频中截取演讲者有代表性的脸部特写;2、从脸部提取人脸特征,进行人脸正前方化、光照归一化;3、AI完成的人脸重构,通过解码音频中预测的人脸特征计算得出。可以看出,重建的脸部图像与真实的长相还是有一定的差距。虽然可以还原部分的特征,但却无法准确到看起来像“一个模子里刻出来的”。

当然,暂时不代表这种AI技术已经成熟,更多时候均是失败案例。

A组:从同一视频中提取的语音片段进行人脸重建;b组:从同个人的不同视频中提取的语音片段进行人脸重建。可以看到,不同片段重建的人脸都有细微差别,这是由于在不同的时刻、不同的场合,说话,语调、语气也会有细微的差别,所以AI模拟出来的脸部图像也有些许的差异。但是也可以看到,重建出来的人像,一些关键特征和原片段的相似度还是较高。

还有一些更失败的案例,受音调和音色的影响,AI重建的人像可能会与原人像相差甚远。A、高音调的男性声音,例如男孩子的声音,AI可能会重建为成年女性;B、非母语的话,重建的人像可能种族不符。C和D,则是重建的人像与实际年龄不符。

虽然目前这种AI技术的准确率还很低,但提升空间还很大,如果可以进一步提高捕捉声音特征的敏感性,将研究范围扩展到胸腔的发声,声带的震动频率、方式,气息的运用,语癖等,也许会得到更精准的面部重建图像。如此一来,通过这种技术也许就能帮助实现高度可用的语音审核?

然而,理想是美好的,现实是复杂的。

如今,多数人都能了解到配音演员的功力,下到小萌娃、上到老爷爷老太太,无所不能。要识别专业配音演员基本毫无规律和线索可寻,目前无论是人类还是AI都不可能通过声音正确判断配音演员的性别及年龄。当然了,配音演员还是少数人群,但存在着“变声器”这种大众也可用的软件。

无论什么高新科技,基本都是双刃剑,变身器用于正途可以是保护隐私,用于歧途就可能涉嫌犯罪。如今变声器被广泛应用于网络游戏中,也成为或多或少的附属卖点,引出人的“玩”性。那么,在变声器被广泛应用的环境下,上文的“AI还原脸”技术可谓毫无用处。

综上所述,AI语音审核还是要从基本识别入手,识别语境、语义、隐晦暗示及方言等,无论是互联网行业,还是如今开始发展的融媒体行业,音视频都将是5G时代的重要载体。如何利用AI建立高效精准的审核流程,是图普一直以来的发展方向,如今图普上线语音识别服务,从图片、文字、音视频全方位覆盖,不断提供更优秀的审核服务,帮助平台避免内容审核疏漏造成的严重处罚。

发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言