广告倒排索引架构与优化

时间：2019-09-20 11:51:05 来源：作者：

倒排索引架构

在广告系统中倒排索引起着至关重要的作用，当请求过来时，需要根据定向信息从倒排索引中匹配合适的广告。我们的倒排索引采用的是ElasticSearch（后面简称ES），考虑点是社区活跃，相关采集、可视化、监控以及报警等组件比较完善，同时ES基于JAVA开发，所以调优和二次开发相对方便

先看下我们的倒排索引的架构图

这个架构设计成如上图这样，经过了下面的思考与迭代

索引问题与优化

单点与稳定性问题

采用多节点部署

其中 A builder和 B builder都是两个节点，一个主和一个备，他们通过争抢锁（用zookeeper实现）来决定谁是主

多个节点会带来数据不一致问题

多生产者多消费者产生消息时序问题

把消息设置成无状态的

查询数据库获取最新数据（订单和创意更新频率低，所以对数据库压力不大）

因为出异常导致数据不一致

采用重试（幂等）和定时任务处理异常

全量更新索引，影响线上索引查询功能

采用主备索引

主备索引切换流程：更新备用索引->验证备用索引->主备切换->更新主索引

索引查询与重建索引问题与优化

压测ES QPS不高、CPU负载高、YGC频繁、索引重建索引耗时长

我们分别从查询和重建两个方向来看

查询

1s一次YGC，STW约10ms，对低延迟系统影响较大

调整 -Xmn 3g->7g，调整后10s一次YGC,STW约12ms

调整前YGC频繁，对低延迟系统影响较大，所以想增大YGC的时间间隔，降低性能抖动，考虑到YGC采用复制算法，每次垃圾回收时间主要包括扫描年轻代存活对象和复制存活对象，扫描对象的成本远低于复制对象，所以YGC的时间主要取决于存活对象的数量，在对象生命周期没有较大变化的情况下，YGC的时间自然不会有较大变化

调整后，YGC的时间间隔有了很大改善，GC时间并没有线性增加

调整分片数和副本数，减少线程损耗、较少IO

ES默认分片数是5，默认条件下，索引会被分配到不同的节点，这样每个节点只有部分索引，会导致一次请求需要合并多个节点的数据，IO数多

如图所示，假设有3个节点，2个主分片，每个分片有一个副本。当一次查询过来的时候

查询流程大致为：首先是node3收到请求，它可能会把请求转发到node2的R0或node1的P0，然后完成检索后把数据汇集到node3,最后返回。其中每个索引的内部，数据会保存到多个segment中，而对segment的查询是串行的

而我们的场景是请求量大，索引小（100M以内），所以把主分片调整为1，副本调整为节点数-1，这样能保证每个节点都存储所有索引，这样只会有一次io操作，如下图所示

ES(lucencu) 串行读取所有segment

索引更新会使segment数量增加，es对segment的查询是串行的，所以我们采用每分钟定时用 _forcemerge将segment降为1

热点方法排查发现JSON反序列化占50%cpu

禁用source只采用field存储必要字段

指定查询偏向本机节点

设置preference:_local

重建

全量重建前关闭从分片，禁用实时索引

replicas:0 refresh_interval:-1

减少索引在重建过程中索引同步带来的消耗

批量重建索引

使用 bulk批量重建索引，提高建索引的性能

后记

我们采用的方案，有些并不符合业界常用和推荐的方式，但是符合我们自己的业务，所以方案一定要适合自己团队的业务，没有最好的方案，只有更适合的方案

Tags：倒排索引架构点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

广告倒排索引架构与优化

倒排索引架构在广告系统中倒排索引起着至关重要的作用，当请求过来时，需要根据定向信息从倒排索引中匹配合适的广告。我们的倒排索引采用的是ElasticSearch（后面简称ES），考虑点是...【详细内容】

2019-09-20　　Tags: 倒排索引架构点击:(156)　　评论:(0)　　加入收藏

▌简易百科推荐

架构师才需要知道的知识：如何做容量预估和调优

为了构建高并发、高可用的系统架构，压测、容量预估必不可少，在发现系统瓶颈后，需要有针对性地扩容、优化。结合楼主的经验和知识，本文做一个简单的总结，欢迎探讨。1、QPS保障目标...【详细内容】

2021-12-27　　大数据架构师　　　　Tags:架构　点击:(5)　　评论:(0)　　加入收藏

嵌入式程序架构--你了解多少？

前言单片机开发中，我们往往首先接触裸机系统，然后到RTOS，那么它们的软件架构是什么?这是我们开发人员必须认真考虑的问题。在实际项目中，首先选择软件架构是非常重要的，接下来我...【详细内容】

2021-12-23　　正点原子原子哥　　　　Tags:架构　点击:(7)　　评论:(0)　　加入收藏

我们需要一次怎样的数据架构变革？

现有数据架构难以支撑现代化应用的实现。随着云计算产业的快速崛起，带动着各行各业开始自己的基于云的业务创新和信息架构现代化，云计算的可靠性、灵活性、按需计费的高性价...【详细内容】

2021-12-22　　　　CSDN　　Tags:数据架构　点击:(10)　　评论:(0)　　加入收藏

微服务项目到底如何分模块？

▶ 企业级项目结构封装释义如果你刚毕业，作为Java新手程序员进入一家企业，拿到代码之后，你有什么感觉呢？如果你没有听过多模块、分布式这类的概念，那么多半会傻眼。为什么一个项...【详细内容】

2021-12-20　　蜗牛学苑　　　　Tags:微服务　点击:(9)　　评论:(0)　　加入收藏

开源的springboot+thymeleaf后台架构，程序员用了都点赞

我是一名程序员关注我们吧，我们会多多分享技术和资源。进来的朋友，可以多了解下青锋的产品，已开源多个产品的架构版本。Thymeleaf版（开源）1、采用技术： springboot、layui、Thymel...【详细内容】

2021-12-14　　青锋爱编程　　　　Tags:后台架构　点击:(21)　　评论:(0)　　加入收藏

长链接、短链接与连接池

在了解连接池之前，我们需要对长、短链接建立初步认识。我们都知道，网络通信大部分都是基于TCP/IP协议，数据传输之前，双方通过“三次握手”建立连接，当数据传输完成之后，又通过“四次挥手”释放连接，以下是“三次握手”与“四...【详细内容】

2021-12-14　　架构即人生　　　　Tags:连接池　点击:(17)　　评论:(0)　　加入收藏

分布式系统 Etcd 解析

随着移动互联网技术的快速发展，在新业务、新领域、新场景的驱动下，基于传统大型机的服务部署方式，不仅难以适应快速增长的业务需求，而且持续耗费高昂的成本，从而使得各大生产厂商...【详细内容】

2021-12-08　　架构驿站　　　　Tags:分布式系统　点击:(23)　　评论:(0)　　加入收藏

阿里架构师整理的 Netty 学习笔记之：Java NIO 网络编程

本系列为 Netty 学习笔记，本篇介绍总结Java NIO 网络编程。Netty 作为一个异步的、事件驱动的网络应用程序框架，也是基于NIO的客户、服务器端的编程框架。其对 Java NIO 底层...【详细内容】

2021-12-07　　大数据架构师　　　　Tags:Netty 　点击:(17)　　评论:(0)　　加入收藏

传统IT架构转型，从云原生平台到微服务应用构建

前面谈过很多关于数字化转型，云原生，微服务方面的文章。虽然自己一直做大集团的SOA集成平台咨询规划和建设项目，但是当前传统企业数字化转型，国产化和自主可控，云原生，微服务是不...【详细内容】

2021-12-06　　人月聊IT　　　　Tags:架构　点击:(23)　　评论:(0)　　加入收藏

放弃微服务，构建单体应用

微服务看似是完美的解决方案。从理论上来说，微服务提高了开发速度，而且还可以单独扩展应用的某个部分。但实际上，微服务带有一定的隐形成本。我认为，没有亲自动手构建微服务的经历，就无法真正了解其复杂性。...【详细内容】

2021-11-26　　GreekDataGuy　　CSDN　　Tags:单体应用　点击:(35)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游

无相关信息