“优衣库试衣间”视频之后,北京三里屯的优衣库俨然已经成了朋友圈朝拜的景点之一。这又印证了那个万古不变的真理:黄赌毒的病毒传播属性总是惊人。
不过,不是说好网监手伸的又长又广吗?不是说好视频审核很严格吗?这样的视频是如何在一夜间不断被删又不断流出?
某视频网站的工作人员告诉雷锋网记者,目前他们每天处理的短视频上传量在150万左右,而审核人员不超过50个,视频审核的工作一大部分由机器负责。
图像识别和声音识别都还好说,机器是如何审核视频的?
入门级:MD5
先来看看国家不喜欢什么样的视频。
在下发的《网络视频审查管理规定》中,一共对十类视频不予审查通过,大而言之是反对宪法基本原则的、危害国家统一、泄露国家秘密等。
不过某视频网站告诉雷锋网记者,更接地气一些的形容是三类:色情、暴恐和极端宗教主义。除了规定所有用户自发上传的视频需要进行严格审查之外,网监还会对互联网上已经发布的视频进行二次审核。“参与审核的人数多到让你震惊”,某位业内人士这样告诉雷锋网记者。
在中国,每个公民都有一个唯一的身份证号(ID),通过这个ID可以全方位的定位一个人的年龄、性别、出生地等,同比MD5就是视频的ID。网监有一个巨大的危险MD5库,库内藏着各种不能流于世的视频。视频网站都需要接入这个库,并在实际审核中增加自己的库存。
在早期,过滤视频的第一步就是横扫整个库,把MD5吻合的视频直接剔除,并将它提交给公安违禁库。
不过,某短视频网站的工作人员M告诉雷锋网记者,匹配MD5正在逐步弃用,原因在于MD5非常容易被篡改,在视频中加入文字或者修改任意一帧就能实现。
于是,出现了更高级别的审核办法。
性能级:机器审核
通过MD5之后的视频,第二步会经历机器审核的过滤。市面上已经有成熟的第三方公司提供API接口,辅助视频网站进行机器审核。
图普科技的CEO李明强告诉雷锋网,机器审核视频是基于深度学习图像识别云,实际也是将视频截图,由机器审核每一张截图的安全性。不过具体是3秒截一张还是5秒截一张,松紧度由视频网站自己控制。
李明强介绍,机器审核视频原理是先建模,然后导入海量的违禁视频,让多个机器同时进行深度样本学习,再标注无法通过的图像种类,进而把这些样本揉碎、旋转、添加“噪音”,提高机器识别能力。这其中拼的不止是技术,还有样本图库的大小。据了解,在图普科技的样本库中,有超过1亿的色情样本和千万级别的极端宗教主义样本特征。
对于不能通过的视频,机器审核视频会给出两类结果:确定不能通过的,这类的准确率几乎能达到99.5%以上;仅作参考的,准确率在95%到97%,这可能意味着该视频需要再次进行人工审核。
据雷锋网了解,从整个行业来说,机器基本能筛过99%的视频,只有1%需要再次动用人工。如果是150万的视频,那人工只需要审核1.5万个。
专业级:机器+人工审核
第三方的技术可以直接拿来用吗?M告诉雷锋网记者,当然不行。拿来的只是底层,还要把机器再过一遍自己的样本图库,提高机器的识别能力。
M介绍,目前视频网站的审核坐席基本都是7×24小时工作,在临近阅兵、六四等重要日子,还要加大审核人员的配置。对于机器没有通过的视频,审核的工作人员会把其每6秒截图,一页60张图,一眼扫过去就可以判别视频是否真的触了红线。
第三方公司还会提供更加人性化的服务,例如对于可能需要人工再次审核的视频,会把机器判定是敏感图片的截图放在最靠前的位置,方便工作人员进行鉴别。
在机器和人工审核的双重过滤下,目前的视频网站基本可以实现上传视频一个小时内给出审核结果。
攻略若干M介绍,目前的违禁视频以色情居多,而且已经形成了完整的经济链条:贩卖色情小电影、勒索和色情裸聊数不胜数。有了经济利益的催动,审核的难度会变大很多。
当然,为了减轻审核工作,视频网站也有很多窍门,比如新用户和高危用户的上传会优先审核,他们是“重点关注对象”;明星、大V等账号会被设置成为信任账户,默认他们发布的视频不用通过审核。
漏洞也是有的。目前的视频审核基本只审核图像,不审核声音。这意味着,如果一段视频用正常的图像配上违禁的配音,也可以逃过审查。三星研究院负责声音识别的工作人员告诉雷锋网记者,目前对声音的识别技术已经非常成熟,没有将它运用到视频审核中,是因为仅用声音违规的视频是少数,还不成规模。
在国内,几乎所有的视频网站都是“先发后审”:视频先发布,打上网站水印,自己或者关注自己的好友能够看到,接着再进行审核。因此这也不奇怪,像“优衣库”中带着水印的视频满天飞了。
最后科普一下,视频网站除了会对发布违禁视频的用户封号处理之外,还会把其IP汇报给网监,据说散布危害国家安全的视频判六年。如果你有个朋友突然消失了,你们感受感受。
!评论内容需包含中文