每秒20W次并发分词检索，架构如何设计？

时间：2019-09-02 10:32:30 来源：作者：

来源：架构师之路

常见的文本检索方案有哪些？

（1）数据库LIKE法

将标题数据存放在数据库中，使用like来查询，方案非常简单，能支持简单的模糊搜索，但不支持分词。

画外音：显然不适用于本例。

（2）数据库全文检索法

将标题数据存放在数据库中，建立全文索引来检索，方然依然简单，利用了数据库的能力，不用额外开发，但性能较低。

画外音： 本例的并发肯定扛不住。

（3）开源方案索引外置法

搭建lucene，solr，ES等开源搜索工具，建立索引，支持分词，支持数据量和吞吐量的水平扩展。

该方案能够很好的满足本例的需求。但是，杀鸡焉用牛刀，本例有一些业务特性：文本短，更新不频繁，如果利用好这两个特点，能有更巧妙的方案。

画外音：任何脱离业务的架构设计，都是耍流氓。

针对“更新不频繁”的特性，可以使用“ 分词+DAT ”方案。

画外音：分词就不多说了。

什么是DAT？

DAT是double array trie的缩写，是trie树的一个变体优化数据结构，它在保证trie树检索效率的前提下，能大大减少内存的使用，经常用来解决检索，信息过滤等问题。

画外音：更具体的，可以google一下“DAT”，DAT的缺点是，需要提前建立索引，索引不能实时更新。

为什么用trie树的变种DAT， 是否可以直接使用trie树呢？

trie树的优点是，索引可以实时更新；不足是，占用内存非常大。

本例索引无需实时更新，无法利用trie树的优点。但是，如果300W短文本建立好trie树内存能装下，则可以使用trie树，否则只能使用DAT。

普及， 什么是trie树？

trie树，又称单词查找树，经常用于搜索引擎词频统计，短文本检索，输入法输入提示等。

画外音：什么数据结构适合什么业务场景，一定要烂熟于胸。

它的特点是，能利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，其查询时间复杂度只与树的高度有关，与查询数据量级无关，因此查询效率非常高。

画外音：“时间复杂度与查询数量级无关”这个太屌了。

例如：上面的trie树就能够表示｛and, as, at, cn, com｝这样5个标题的集合，可以用来做这5个字符串的词频统计，或者检索。

画外音：检索时，节点存储命中该item的doc_list<doc_id>。

分词之后，是不是需要多次扫描trie树？

是的。

分词之后，每个item都要扫描一次trie树，得到的doc_list<doc_id>的交集，就是最终命中每个item的检索结果。

针对“短文本”“500W数据”“不频繁更新”这些特性，还能使用“ 分词+内存hash ”方案。

这个方案需要 先对索引进行初始化 ：

对所有短文本进行分词，以词的hash为key，doc_id的集合为value。

查询的过程也很简单：

对查询字符串进行分词，对每个分词进行hash，直接查询hash表格得到doc_list<doc_id>，再对每个分词的检索结果进行交集。

举个栗子进行说明。

例如：

doc1 : 我爱北京

doc2 : 我爱到家

doc3 : 到家美好

先对短文本进行分词：

doc1 : 我爱北京 -> 我，爱，北京

doc2 : 我爱到家 -> 我，爱，到家

doc3 : 到家美好 -> 到家，美好

对分词进行hash，建立hash表：

hash(我) -> {doc1, doc2}

hash(爱) -> {doc1, doc2}

hash(北京) -> {doc1}

hash(到家) -> {doc2, doc3}

hash(美好) -> {doc3}

这样，所有短文本初始化完毕，与trie树类似，查询时间复杂度与文本数据量也没有关系。

画外音：只与被分词后有多少数据量，即hash桶个数有关。

查询的过程是这样的：

假如用户输入“我爱”，分词后变为{我，爱}，对各个分词的hash进行内存检索

hash(我)->{doc1, doc2}

hash(爱)->{doc1, doc2}

然后进行合并，得到最后的查找结果是{doc1, doc2}。

这个方法的优点是，纯内存操作，能满足很大的并发，时延也很低，占用内存也不大，实现非常简单快速，而且冗余索引很容易水平扩展。

画外音：做索引高可用也不难，建立两份一样的hash索引即可。

它的缺点也很明显，索引全内存，没有落地，还是需要在数据库中存储固化的短文本数据，如果内存数据全丢失，数据恢复起来会比较慢。

总结

短文本，高并发，支持分词，不用实时更新的检索场景，可以使用：

（1）ES，杀鸡用牛刀；

（2）分词+DAT(trie)；

（3）分词+内存hash；

等几种方式解决。

思路比结论重要，希望大家有收获。

Tags：架构点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

架构师才需要知道的知识：如何做容量预估和调优

为了构建高并发、高可用的系统架构，压测、容量预估必不可少，在发现系统瓶颈后，需要有针对性地扩容、优化。结合楼主的经验和知识，本文做一个简单的总结，欢迎探讨。1、QPS保障目标...【详细内容】

2021-12-27　　Tags: 架构点击:(5)　　评论:(0)　　加入收藏

嵌入式程序架构--你了解多少？

前言单片机开发中，我们往往首先接触裸机系统，然后到RTOS，那么它们的软件架构是什么?这是我们开发人员必须认真考虑的问题。在实际项目中，首先选择软件架构是非常重要的，接下来我...【详细内容】

2021-12-23　　Tags: 架构点击:(7)　　评论:(0)　　加入收藏

我们需要一次怎样的数据架构变革？

现有数据架构难以支撑现代化应用的实现。随着云计算产业的快速崛起，带动着各行各业开始自己的基于云的业务创新和信息架构现代化，云计算的可靠性、灵活性、按需计费的高性价...【详细内容】

2021-12-22　　Tags: 架构点击:(10)　　评论:(0)　　加入收藏

开源的springboot+thymeleaf后台架构，程序员用了都点赞

我是一名程序员关注我们吧，我们会多多分享技术和资源。进来的朋友，可以多了解下青锋的产品，已开源多个产品的架构版本。Thymeleaf版（开源）1、采用技术： springboot、layui、Thymel...【详细内容】

2021-12-14　　Tags: 架构点击:(21)　　评论:(0)　　加入收藏

阿里架构师整理的 Netty 学习笔记之：Java NIO 网络编程

本系列为 Netty 学习笔记，本篇介绍总结Java NIO 网络编程。Netty 作为一个异步的、事件驱动的网络应用程序框架，也是基于NIO的客户、服务器端的编程框架。其对 Java NIO 底层...【详细内容】

2021-12-07　　Tags: 架构点击:(17)　　评论:(0)　　加入收藏

传统IT架构转型，从云原生平台到微服务应用构建

前面谈过很多关于数字化转型，云原生，微服务方面的文章。虽然自己一直做大集团的SOA集成平台咨询规划和建设项目，但是当前传统企业数字化转型，国产化和自主可控，云原生，微服务是不...【详细内容】

2021-12-06　　Tags: 架构点击:(23)　　评论:(0)　　加入收藏

京东App秒级百G日志传输存储架构设计与实战

背景在日常工作中，我们通常需要存储一些日志，譬如用户请求的出入参、系统运行时打印的一些info、error之类的日志，从而对系统在运行时出现的问题有排查的依据。日志存储和检索...【详细内容】

2021-11-23　　Tags: 架构点击:(22)　　评论:(0)　　加入收藏

zookeeper架构及工作原理

zookeeper动物管理员，是一个很形象的名字，是一个分布式协调服务。它可以用来做分布式配置管理，服务注册及发现，分布式锁。在CAP中，属于CP型。下图是zookeeper的架构图：图中，绿色的...【详细内容】

2021-11-16　　Tags: 架构点击:(38)　　评论:(0)　　加入收藏

嵌入式软件架构设计

如何设计一个好的软件架构，如何提高软件的扩展性，移植性，复用性和可读性？很多做嵌入式开发的朋友经常会遇到这种情况：一个项目软件设计完成了，客户提出了一些新的功能需求。这时侯...【详细内容】

2021-11-08　　Tags: 架构点击:(35)　　评论:(0)　　加入收藏

大数据开发之数据仓库架构分析

架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就...【详细内容】

2021-11-03　　Tags: 架构点击:(35)　　评论:(0)　　加入收藏

▌简易百科推荐

架构师才需要知道的知识：如何做容量预估和调优

2021-12-27　　大数据架构师　　　　Tags:架构　点击:(5)　　评论:(0)　　加入收藏

嵌入式程序架构--你了解多少？

2021-12-23　　正点原子原子哥　　　　Tags:架构　点击:(7)　　评论:(0)　　加入收藏

我们需要一次怎样的数据架构变革？

2021-12-22　　　　CSDN　　Tags:数据架构　点击:(10)　　评论:(0)　　加入收藏

微服务项目到底如何分模块？

▶ 企业级项目结构封装释义如果你刚毕业，作为Java新手程序员进入一家企业，拿到代码之后，你有什么感觉呢？如果你没有听过多模块、分布式这类的概念，那么多半会傻眼。为什么一个项...【详细内容】

2021-12-20　　蜗牛学苑　　　　Tags:微服务　点击:(9)　　评论:(0)　　加入收藏

开源的springboot+thymeleaf后台架构，程序员用了都点赞

2021-12-14　　青锋爱编程　　　　Tags:后台架构　点击:(21)　　评论:(0)　　加入收藏

长链接、短链接与连接池

在了解连接池之前，我们需要对长、短链接建立初步认识。我们都知道，网络通信大部分都是基于TCP/IP协议，数据传输之前，双方通过“三次握手”建立连接，当数据传输完成之后，又通过“四次挥手”释放连接，以下是“三次握手”与“四...【详细内容】

2021-12-14　　架构即人生　　　　Tags:连接池　点击:(17)　　评论:(0)　　加入收藏

分布式系统 Etcd 解析

随着移动互联网技术的快速发展，在新业务、新领域、新场景的驱动下，基于传统大型机的服务部署方式，不仅难以适应快速增长的业务需求，而且持续耗费高昂的成本，从而使得各大生产厂商...【详细内容】

2021-12-08　　架构驿站　　　　Tags:分布式系统　点击:(23)　　评论:(0)　　加入收藏

阿里架构师整理的 Netty 学习笔记之：Java NIO 网络编程

2021-12-07　　大数据架构师　　　　Tags:Netty 　点击:(17)　　评论:(0)　　加入收藏

传统IT架构转型，从云原生平台到微服务应用构建

2021-12-06　　人月聊IT　　　　Tags:架构　点击:(23)　　评论:(0)　　加入收藏

放弃微服务，构建单体应用

微服务看似是完美的解决方案。从理论上来说，微服务提高了开发速度，而且还可以单独扩展应用的某个部分。但实际上，微服务带有一定的隐形成本。我认为，没有亲自动手构建微服务的经历，就无法真正了解其复杂性。...【详细内容】

2021-11-26　　GreekDataGuy　　CSDN　　Tags:单体应用　点击:(35)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游