第一部分:前言
从纸媒、电视传媒开始,内容产业搭载着互联网的发展快车,跨过了网络门户、论坛等形式,在移动互联网的普及下,终于迎来爆发式的发展。
而随着内容产业的飞速发展,我们对内容的加工处理方式也逐渐升级变化。
早年报纸、电视的制作门槛较高,从作品的创作完成到对外宣发除了要经过必要的技术处理,还要保证一道道地人工审校,在此前提下内容质量得以保障,但效率着实过低。
随着网络普及,新闻门户网站开始建设人工编辑团队,编辑们甄别最具影响的新闻热点在网站上实时更新,而论坛、贴吧也出现了“站长”、“吧主”等角色,除了维护这一虚拟社区的建设,亦要对相关的内容言论做审核处理。
有观点把微信公众平台的上线认为是新媒体的元年,亦有人认为今日头条等资讯个性化推荐产品的成功是内容产业的井喷。无论如何,内容的创作的门槛已经不复存在。
在鱼龙混杂、良莠不齐的内容环境中,社会对内容平台处理内容的期望与要求,亦越来越高。
第二部分:内容中台
中台的概念,早期由美军的作战体系演化,航母舰群作为中台指挥、策应、补给,特种部队作为前台决策、作战、打击。
以腾讯内容产品为例,经过最新的架构调整,微信、QQ和QQ空间形成用户平台;以腾讯新闻、微信公众平台、微信看一看、QQ看点、快报、浏览器等综合信息流产品,腾讯视频、微视等视频影音产品,共同形成内容产品矩阵;而企鹅号定位为内容中台。
所以,中台即内容创作者统一上传,统一存储处理,分发到各个业务线的综合平台。
“大中台,小前台”的概念由阿里带火,旨在建设一个反应更加敏捷高效的组织,为各业务线提供通用高效的处理能力。
腾讯盛传的“赛马机制”,即为鼓励内部竞争,业务部门自主立项,公司不作干预,谁的效率更高跑得更快,便更有机会拿到公司在这一业务的最终口径,随之而来的才是整个公司的资源倾斜。微信、王者荣耀等都是“赛马机制”的果实。
“赛马机制”在鼓励内部竞争创新的同时,亦产生了过量消耗,各个事业群之间很难实现资源共享,相互扶持与协同落地艰难。
“中台”的建设便是拥有复杂业务线的企业通过提炼各业务线的共性需求,将需求打造成组件化的资源提供给前台各业务部门使用。如此可以使产品在更新迭代、创新拓展的过程中研发更灵活、业务更敏捷,最大程度地避免“重复造轮子”的摸索。
中台的设计没有固定标准,本质根据企业对自身架构的期待与投入。
内容平台在消息系统、数据仓库、计算框架、存储系统等基础架构层建设的基础上,把业务层同性的算法能力,服务能力,业务能力高度集成,有效组织 ,动态规划,即为内容中台。
除去业内传统的内容开放平台,部分手机厂商及浏览器产品,在建设信息流产品时更多定位是内容聚合平台,此类场景中,内容中台的优势作用尤为突显。
以手机厂商浏览器信息流为例,CP通过API接口提供内容,存储、理解、推荐都可以通过中台调度,业务线轻装上阵,在不用过多人力投入的情况下,便能快速上线,抢占先机。
以百度为例:
1. 基础资源:业务类型
2. 核心技术:文本分类、事件集成 group概念
3. 基础特征-高级特征:特征理解。高级特征:语义相关特征
4. 应用策略:规则策略上的处理
评分:文章质量分、账号质量分,其中帐号质量分依赖文章质量分,评分设置回血机制。
黑白灰名单:为特殊帐号制定白名单,为部分帐号做豁免
后验挖掘:通过评论,通过负反馈,做的后向验证。
5. 平台:各个业务线根据需要做运营审核,包括内容审核、安全审核、质量审核、补全分类及tag等。
第三部分:内容理解
内容理解顾名思义,是对内容的理解工作。
内容行业根据创作者类型将内容做了不同划分。PGC(Professionally Generated Content)指专业生产内容、专家生产内容。UGC(User Generated Content)指用户原创内容。
理解实践中,我们会把围绕一篇内容产生的所有表征和语义做最全面的理解工作,不论PGC还是UGC,不管是图文还是视频,无关正文还是评论,都是理解工作的重点。
ugc作恶场景会更加复杂。
和谐文明、健康积极、规范有序的网络环境,是各家内容平台建设发展的前提。
而内容生产者创作水平、传播目的各不相同,内容消费者认知能力、接受程度无法把握,直接带来的影响是,有大量违法违规、低质垃圾、广告诱导、令人反感等严重影响用户体验的内容混入,难以甄别。
为了将上述低质内容有效剔除,除了最低效的人工审核,人工智能的配合成为内容处理的新的依赖。通过机器建模与审核团队的配合,保证内容平台安全、优质、高效。
内容理解为业务要求服务。
例如:信息流要求:标题字数是10个字以内,头像、昵称、简介是否有问题。
即理解维度足够全,理解粒度足够细,内容处理更可控,内容推荐更精准。
广义的内容理解,根据其不同应用目的,我把它分为工程能力、内容安全、低质内容、优质内容、与特征理解。
1. 人脸识别
问题:“细数那些陪伴我们长大的女神们”,此标题中没有提及具体姓名,正文中若仅为图片则该篇内容推荐可用信息过少。
方案:将各个行业所有的知名人脸,各种角度各种场合训练,通过人脸识别能力预测后,模型会给出预测结果与置信度,业务取一定置信的阈值后,便可在无姓名提及的前提下,通过图片实现对内容的深度理解。
注意:选择合适的置信度阈值,平衡召回率与准确率。
2. 影视识别
问题:影视截取片段中,创作者大多不会直接描述人物及影剧名,而是以细节详情作为标题,如“一个响指,整个宇宙真的消失了一半”,单从标题无法预测其为《复仇者联盟》的视频片段,影响分发准确。
方案:维护影视模型库,找到影视资源,进行模型训练,通过影视识别能力预测后,模型会给出预测出的相关tag,业务根据tag能预测分类,实现更准确的分发。
3. OCR识别
问题:在内容平台对内容质量越来越高要求的同时,随之而来的便是黑产针对平台规则的对抗,出于营销、导流、推广等目的,部分创作者会将文字内容以图片的形式呈现以规避平台打击。
方案:通过OCR识别能力,图片中掺杂的文字信息可以准确提取,用于理解和打击。
难点:无法对手写内容做识别。
内容安全是内容平台的底线,也是内容产品的生命线。
实践中发现,相对于有实名注册的PGC账号来说,UGC评论的敏感内容风险更高,因此在保证资讯内容安全的同时,评论详情也要做重点监管。
我们把涉政分拆为两个维度,即涉政敏感(不可发表的言论)和涉及政治(涉及政治相关)做区分处理,敏感部分通常按照规则强校验,这里考验的是策略产品的政治意识。涉及政治的内容召回用以重点监管评论环境,保障内容安全的同时,评论健康积极。
对于绝度不允许发表的词直接过滤,其它敏感的词组合出现时过滤。
其它内容识别后的处理策略:
1.优先审核:人工审核。
2.双盲审核:如意见不一致,上报继续审核。
3.禁止评论、不出相关推荐。
标题党的理解是个相对来说偏向主观的工作,受用户的教育经历、表达习惯、接受程度等多方面因素影响,很难达成一个定义的标准。
定义:让用户产生无法兑现的预期即为标题党。
1. 总结分类及特征:
经过大量的阅读与总结,我把常见的标题党类型提炼为以下多种。
2. 关键词强规则:
在大家对震惊体的抵制背景下,我们能总结出一批准确率极高的关键词,把此类关键词、正则做基础过滤,解决掉这些浅显易分辨的标题党。
3. nlp模型:
而基于规则的过滤是无法满足内容平台对标题质量的要求的,这时NLP的价值便发挥出来。
语料标注:为了保证不同标注人员的执行标准相对一致,我穷举了以下常见的标题党特征。
根据标题党程度,划分重度、一般等级,不同等级分层处理。
一线城市、高端机型、教育背景好:一般重度全部过滤。
相对下沉用户、千元机、教育背景差:重度过滤,一般降权推荐。
低质对抗中,在平台可控的范围内,我们本着“宁可误伤不可漏过”的原则,理解低质内容时抱着“不为正常即嫌疑”的心理,对低质内容从严对待。
在以上“正则+语料”的训练模式下,我们的bert模型对标题党的理解可以达到90%的准确率和85%以上的召回率,配合人审机制,平台标题党内容相对可控。
4. 人审机制
模型上线后,人工审核做兜底。
标题党数据特点:高点击、高跳出、低时长。
召回后人工审核。
做熔断机制,例如超过10+,需要熔断,进入人工审核队列,审核完后继续下发或下架。
我们在使用一个资讯产品时,除了希望在百无聊赖的时候有内容用于消遣,更多希望在此产品获取到新鲜资讯用以了解时事、紧跟社会。而对内容平台来说,热点内容的精准捕捉,便是突显产品优势的一个重要维度。
热点监控渠道:
自动
1、自家内容平台热点:通过变化率数据,进行keyword监控识别,聚合进入热点group。
2、爬取榜单:监控热搜榜,高置信;识别后库内检索,有即进入候选集,无则迅速响应,引导ugc生产、爬取竞品内容、pgc生产等。
3、竞品push:对标范围内的竞品,进行监控,n家均发,则自动推送。
4、门户首页:定期监控首页。
人工
人工判断有发酵热点迹象的内容,人工干预+引领。
深度学习的广泛运用之一,是对文本按其内容进行分类。
资讯行业一般会对内容作300-500个分类,包括一级分类(如游戏)、二级分类(如手游、端游等)、三级分类(如MOBA、PUBG等),部分平台会将三级分类分得更细(如王者荣耀、绝地求生等)。
百度有400多个,qq有500多个。tag多达60万。
三级分类的精细理解,一定程度已经类似一个tag的使用,辅助用户的历史行为和画像,在推荐时往往能产生更好的阅读表现。(如手机厂商的信息流产品,可以采集到设备上的app安装,对一个安装了“王者荣耀”的用户,推荐王者荣耀相关的资讯内容是一个可行的探索)
对分类的预测是做成互斥的二分类模型,还是多分类模型,是需要特别去考虑的。二分类模型应用时推荐置信度更高,但召回相对离散,即被预测为“古装剧”的内容,不会被“动作片”召回;而多分类模型便可将“妻子的浪漫旅行”预测为“综艺”和“旅行”两个分类,推荐场景便增加了更多可能。
以上介绍仅为各个理解维度的一些项目示例,根据内容类型,我将常见的一些理解工作简单概括如下。
正常ugc讨论场景:
只能使用常用3000-5000字,最终粗暴但可行的解决了猫捉老鼠的与低质对抗的工作。
评论的利用:
1、理解:识别积极、中性、消极、负面。识别广告的评论。
2、通过评论判定文章是否打击及打击程度。
实际应用过程中,多个模型互为配合互相依赖,才能发挥最大的管控能力。
第三部分:业内开放的处理能力
内容理解也是巨头厂商智能云服务重点抢占的市场之一,除了BAT之外,网易易盾、金山云、科大讯飞等企业在此业务亦有大量投入和较优表现。
1. 百度
2. 阿里
但各家云服务在理解内容时,成型的服务无法与业务线的标准完全对齐,而定制化服务收费不菲。内容平台发展到一定体量之时,没有自己的核心理解能力完全依赖付费业务,也非长久之计。
一个深度、精准、高效理解内容的中台,是内容平台之间竞争对抗的前提,在信息过载的行业时代,读懂内容才能把握先机,角逐未来。
第四部分:问答
1.分类和标签的应用场景有什么不同?
答:分类固定,标签颗粒度更细,更多,更灵活。
2.内容的标签是机器打标吗?
是提取关键词打标么?
那如果内容是一个图片集,有比较好的打标方式么?
答:标签实体词需要人工标注,具体打表可以交给机器。图片集的识别需要应用视觉理解,成本相对较高。可以从源头引导,例如设计上传时人工添加标签。
3.上午有一条垃圾评论,比如谐音字我们加了过滤以后,他又改成了另外的谐音字垃圾色情评论
答:1、对谐音的探索需要加强。2、探索其它规则,如果判断词非实体词,而是人工造的词且在文章内重复较多,可判定为需过滤。
CIO之家 www.ciozj.com 公众号:imciow