您当前的位置:首页 > 电脑百科 > 程序开发 > 架构

花椒基于 Go 语言的敏感词系统架构讲解

时间:2020-06-02 10:50:54  来源:  作者:

背景介绍

直播系统主要是以内容为主,好的内容可以吸引用户来欣赏,也能为公司带来可观的收益,既然有传播的入口,那么必然有负面内容的出现,随着平台用户量不断扩大,内容的监管也是必不可少的一个环节,比如国家监管部门要求拦截词语包括涉政、非法、宗教、暴恐、版权等,以及平台自身需要拦截的词语包括竞品挖人、低俗、广告等垃圾词,那么我们本章就从文本内容的管控角度介绍下花椒敏感词服务的定制和应用。

系统介绍


采用Go语言开发,基于开源sego分词服务进行改造升级,将花椒自维护的敏感词库以秒级别自动加载,自动分词,实现服务内置自动热更新词库,分词器算法为基于词频的最短路径加动态规划,同时提供支持返回词类型、词属性、命中状态、命中词,并为业务提供JSON RPC服务,通过搭建集群化分词检测服务保证服务稳定性,分词检测效率非常高,可弹性扩展。

服务架构设计


花椒基于 Go 语言的敏感词系统架构讲解

 

特性


  • 基于开源sego升级改造,定制针对花椒场景的使用
  • 新增支持返回词类型、词属性、命中状态、命中词列表(定制)
  • 服务通用化,生成敏感词文件和敏感词检测服务分离化,解耦
  • 支持go-server内置秒级自动热更新加载敏感词文件,一条命令搞定(定制)
  • 提供JSON RPC服务
  • 多机房部署负载,易于弹性扩展(定制)

敏感词文件字典格式


不同的业务对敏感词的定制不尽相同,以花椒为例,对敏感词做了分类以及场景使用标识,格式如下:

花椒基于 Go 语言的敏感词系统架构讲解

 

  • 每一列对应含义:敏感词、词频、词属性、词类型

核心代码

  • 服务自动热重载
func init() {
 flag.Parse()
 c := cron.New()
 _ = c.AddFunc("@every "+*reloadInterval, reloadDict)
 c.Start()
}func reloadDict() {
 logToFile(logFile, "reload "+ fmt.Sprintf("%d", *port) +" start interval : "+*reloadInterval+" "+time.Now().Format("2006/01/02 15:04:05"))
 segmenter.LoadDictionary(*dict)
 logToFile(logFile, "reload "+ fmt.Sprintf("%d", *port) +" end :"+*reloadInterval+" "+time.Now().Format("2006/01/02 15:04:05"))
}
  • 定制返回命中列表、命中类型、场景标识等
func HitFilter(text string, words []map[string]string) (map[string][]string, bool) {
 hitMap := make(map[string][]string)
 length := len(words) hit := false for i := length - 1; i >= 0; i-- {  tmpMap := strings.Split(words[i]["Pos"], "|")
  for j := 0; j < len(tmpMap); j++ {
   hitMap[tmpMap[j]] = Append(hitMap[tmpMap[j]], words[i]["Text"])
  }
 }
 if len(hitMap) > 0 {
  hit = true } return hitMap, hit}

部署使用


  • 基础环境
    • golang version 1.11.2
  • 编译
cd $project_dir && go build -o ./bin/segoserver  *.go
花椒基于 Go 语言的敏感词系统架构讲解

 

  • 启动服务
/bin/segoserver --port=8080 --dict=/tmp/segoserver-user-dict.txt --reloadInterval=30s
  • 参数说明
    • port 指定敏感词分词检测服务端口
    • dict 指定要加在敏感词文件的路径
    • reloadInterval 自动热重载文件时间间隔
  • 敏感词字典文件生成
    • 可以另启一个脚本刷新敏感词字典文件到sego服务加载的路径即可(/tmp/segoserver-user-dict.txt)
  • 测试验证
~/huajiao_sego/ » curl -i  http://1270.0.01:8080/json?text=加微
HTTP/1.1 200 OK
Content-Type: application/json
Date: Wed, 25 Mar 2020 03:25:31 GMT
Content-Length: 142
{"Hit":true,"HitMap":{"3":["加微"],"4":["加微"],"5":["加微"],"6":["加微"]},"Segment":[{"Newtyp":"2","Pos":"3|4|5|6","Text":"加微"}]}%

延伸介绍


  • 场景应用
    • 以直播行业为例,一般对直播间弹幕,具备群发和被搜索看到的内容情况,必须要接入敏感词检测
    • 比较通用的接入场景,昵称、签名、评论、动态文本等
    • 以上再不同场景下的敏感词控制是不一样的,而且平台政策可能随时会变化,因此敏感词一般都是快速上下线
  • 效果
    • 传统的敏感词检测拦截做不到完全的拦截效果,一般对于汉子、数字、字母类的效果比较好
    • 对特殊字符类的传播和拦截效果不好,因此单靠敏感词是无法完全杜绝垃圾内容的传播
    • 敏感词检测一般作为第一道关卡,同时结合反垃圾智能模型对文本二次识别来打到拦截垃圾内容的目的


Tags:敏感词系统   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com),我们将及时更正、删除,谢谢。
▌相关推荐
背景介绍直播系统主要是以内容为主,好的内容可以吸引用户来欣赏,也能为公司带来可观的收益,既然有传播的入口,那么必然有负面内容的出现,随着平台用户量不断扩大,内容的监管也是必...【详细内容】
2020-06-02  Tags: 敏感词系统  点击:(60)  评论:(0)  加入收藏
▌简易百科推荐
为了构建高并发、高可用的系统架构,压测、容量预估必不可少,在发现系统瓶颈后,需要有针对性地扩容、优化。结合楼主的经验和知识,本文做一个简单的总结,欢迎探讨。1、QPS保障目标...【详细内容】
2021-12-27  大数据架构师    Tags:架构   点击:(3)  评论:(0)  加入收藏
前言 单片机开发中,我们往往首先接触裸机系统,然后到RTOS,那么它们的软件架构是什么?这是我们开发人员必须认真考虑的问题。在实际项目中,首先选择软件架构是非常重要的,接下来我...【详细内容】
2021-12-23  正点原子原子哥    Tags:架构   点击:(7)  评论:(0)  加入收藏
现有数据架构难以支撑现代化应用的实现。 随着云计算产业的快速崛起,带动着各行各业开始自己的基于云的业务创新和信息架构现代化,云计算的可靠性、灵活性、按需计费的高性价...【详细内容】
2021-12-22    CSDN  Tags:数据架构   点击:(10)  评论:(0)  加入收藏
▶ 企业级项目结构封装释义 如果你刚毕业,作为Java新手程序员进入一家企业,拿到代码之后,你有什么感觉呢?如果你没有听过多模块、分布式这类的概念,那么多半会傻眼。为什么一个项...【详细内容】
2021-12-20  蜗牛学苑    Tags:微服务   点击:(8)  评论:(0)  加入收藏
我是一名程序员关注我们吧,我们会多多分享技术和资源。进来的朋友,可以多了解下青锋的产品,已开源多个产品的架构版本。Thymeleaf版(开源)1、采用技术: springboot、layui、Thymel...【详细内容】
2021-12-14  青锋爱编程    Tags:后台架构   点击:(20)  评论:(0)  加入收藏
在了解连接池之前,我们需要对长、短链接建立初步认识。我们都知道,网络通信大部分都是基于TCP/IP协议,数据传输之前,双方通过“三次握手”建立连接,当数据传输完成之后,又通过“四次挥手”释放连接,以下是“三次握手”与“四...【详细内容】
2021-12-14  架构即人生    Tags:连接池   点击:(16)  评论:(0)  加入收藏
随着移动互联网技术的快速发展,在新业务、新领域、新场景的驱动下,基于传统大型机的服务部署方式,不仅难以适应快速增长的业务需求,而且持续耗费高昂的成本,从而使得各大生产厂商...【详细内容】
2021-12-08  架构驿站    Tags:分布式系统   点击:(23)  评论:(0)  加入收藏
本系列为 Netty 学习笔记,本篇介绍总结Java NIO 网络编程。Netty 作为一个异步的、事件驱动的网络应用程序框架,也是基于NIO的客户、服务器端的编程框架。其对 Java NIO 底层...【详细内容】
2021-12-07  大数据架构师    Tags:Netty   点击:(16)  评论:(0)  加入收藏
前面谈过很多关于数字化转型,云原生,微服务方面的文章。虽然自己一直做大集团的SOA集成平台咨询规划和建设项目,但是当前传统企业数字化转型,国产化和自主可控,云原生,微服务是不...【详细内容】
2021-12-06  人月聊IT    Tags:架构   点击:(23)  评论:(0)  加入收藏
微服务看似是完美的解决方案。从理论上来说,微服务提高了开发速度,而且还可以单独扩展应用的某个部分。但实际上,微服务带有一定的隐形成本。我认为,没有亲自动手构建微服务的经历,就无法真正了解其复杂性。...【详细内容】
2021-11-26  GreekDataGuy  CSDN  Tags:单体应用   点击:(35)  评论:(0)  加入收藏
相关文章
    无相关信息
最新更新
栏目热门
栏目头条