SpringBoot项目中ES High Level Rest Client 超时问题排查及解决

时间：2022-11-07 14:20:33 来源：今日头条作者：蜗牛学技术

问题描述

最近项目中遇到一个问题，在某一个时刻应用系统出现了大量的ES访问超时的现象，异常日志主要为：

JAVA.io.IOException: Connection reset by peer
	at org.elasticsearch.client.RestClient.extractAndWrapCause(RestClient.java:793) ~[elasticsearch-rest-client-7.4.0.jar!/:7.4.0]
	at org.elasticsearch.client.RestClient.performRequest(RestClient.java:218) ~[elasticsearch-rest-client-7.4.0.jar!/:7.4.0]
	at org.elasticsearch.client.RestClient.performRequest(RestClient.java:205) ~[elasticsearch-rest-client-7.4.0.jar!/:7.4.0]
	at org.elasticsearch.client.RestHighLevelClient.internalPerformRequest(RestHighLevelClient.java:1454) ~[elasticsearch-rest-high-level-client-7.4.0.jar!/:7.4.0]
	at org.elasticsearch.client.RestHighLevelClient.performRequest(RestHighLevelClient.java:1439) ~[elasticsearch-rest-high-level-client-7.4.0.jar!/:7.4.0]
	at org.elasticsearch.client.IndicesClient.exists(IndicesClient.java:785) ~[elasticsearch-rest-high-level-client-7.4.0.jar!/:7.4.0]
	at com.free4inno.scheduler.adapter.service.elasticsearch.GenericEsService.isIndexExists(GenericEsService.java:60) ~[classes!/:0.0.1-SNAPSHOT]
	at com.free4inno.scheduler.adapter.service.elasticsearch.MetricsToEsService.getTodayIndex(MetricsToEsService.java:56) ~[classes!/:0.0.1-SNAPSHOT]
	at com.free4inno.scheduler.adapter.service.elasticsearch.MetricsToEsService.insert(MetricsToEsService.java:49) ~[classes!/:0.0.1-SNAPSHOT]
	at com.free4inno.scheduler.adapter.service.Scheduler.sendMetrics(Scheduler.java:64) [classes!/:0.0.1-SNAPSHOT]
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) ~[?:1.8.0_261]
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) ~[?:1.8.0_261]
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) ~[?:1.8.0_261]
	at java.lang.reflect.Method.invoke(Method.java:498) ~[?:1.8.0_261]
	at org.springframework.scheduling.support.ScheduledMethodRunnable.run(ScheduledMethodRunnable.java:84) [spring-context-5.2.8.RELEASE.jar!/:5.2.8.RELEASE]
	at org.springframework.scheduling.support.DelegatingErrorHandlingRunnable.run(DelegatingErrorHandlingRunnable.java:54) [spring-context-5.2.8.RELEASE.jar!/:5.2.8.RELEASE]
	at org.springframework.scheduling.concurrent.ReschedulingRunnable.run(ReschedulingRunnable.java:93) [spring-context-5.2.8.RELEASE.jar!/:5.2.8.RELEASE]
	at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) [?:1.8.0_261]
	at java.util.concurrent.FutureTask.run(FutureTask.java:266) [?:1.8.0_261]
	at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180) [?:1.8.0_261]
	at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293) [?:1.8.0_261]
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) [?:1.8.0_261]
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) [?:1.8.0_261]
	at java.lang.Thread.run(Thread.java:748) [?:1.8.0_261]
Caused by: java.io.IOException: Connection reset by peer
	at sun.nio.ch.FileDispatcherImpl.read0(Native Method) ~[?:1.8.0_261]
	at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39) ~[?:1.8.0_261]
	at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223) ~[?:1.8.0_261]
	at sun.nio.ch.IOUtil.read(IOUtil.java:197) ~[?:1.8.0_261]
	at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:378) ~[?:1.8.0_261]
	at org.Apache.http.impl.nio.reactor.SessionInputBufferImpl.fill(SessionInputBufferImpl.java:231) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	at org.apache.http.impl.nio.codecs.AbstractMessageParser.fillBuffer(AbstractMessageParser.java:136) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	at org.apache.http.impl.nio.DefaultNHttpClientConnection.consumeInput(DefaultNHttpClientConnection.java:241) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	at org.apache.http.impl.nio.client.InternalIODispatch.onInputReady(InternalIODispatch.java:81) ~[httpasyncclient-4.1.4.jar!/:4.1.4]
	at org.apache.http.impl.nio.client.InternalIODispatch.onInputReady(InternalIODispatch.java:39) ~[httpasyncclient-4.1.4.jar!/:4.1.4]
	at org.apache.http.impl.nio.reactor.AbstractIODispatch.inputReady(AbstractIODispatch.java:114) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	at org.apache.http.impl.nio.reactor.BaseIOReactor.readable(BaseIOReactor.java:162) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	at org.apache.http.impl.nio.reactor.AbstractIOReactor.processEvent(AbstractIOReactor.java:337) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	at org.apache.http.impl.nio.reactor.AbstractIOReactor.processEvents(AbstractIOReactor.java:315) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	at org.apache.http.impl.nio.reactor.AbstractIOReactor.execute(AbstractIOReactor.java:276) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	at org.apache.http.impl.nio.reactor.BaseIOReactor.execute(BaseIOReactor.java:104) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	at org.apache.http.impl.nio.reactor.AbstractMultiworkerIOReactor$Worker.run(AbstractMultiworkerIOReactor.java:591) ~[httpcore-nio-4.4.13.jar!/:4.4.13]
	... 1 more

异常现象表现为：

①第一次连接出现timeout，后续连接正常且timeout时长为配置的socket时长。

②抛出异常时间段不固定。

问题定位

这个问题在之前开发多集群管理平台的时候也出现，当时因为存在③跨版本且还没有正式投产的情况下，并没有太关注的此类问题，觉得此问题可能是版本兼容性。项目组报上来问题才认真地排查了一番。

应用系统通过ES High Level Rest Client客户端直连且版本相同，可以排查③的情况。起初怀疑是查询或者写入量大，后台处理不及时的原因导致异常。于是查看监控数据和日志，监控显示在几次出现异常的时间点上各项指标这都很正常，没有出现流量陡增的情况，结合现象②，可以排除是因为服务端压力的原因。

接着把影响异常的源头定位在客户端。ES客户端和服务端的连接采用的是长连接，查阅源码发现客户端创建了client连接池，每个client持有一个http连接，并且开启http的keep-alive策略复用连接。正是因为这个复用探活的原因导致该异常发生。下面具体分析该问题。

问题分析

在未处理前restClient客户端创建示意代码：

final RestClientBuilder restClientBuilder =  RestClient.builder(redisHostList).setRequestConfigCallBack(requestConfigBuilder -> {;

      requestConfigBuilder.setConnectTimeout(5000);

      requestConfigBuilder.setSocketTimeout(60000);

      requestConfigBuilder.setConnectionRequestTimeout(500);

      return requestConfigBuilder;

      }).setHttpClientConfigCallback((httpAsyncClientBuilder) -> {

          httpAsyncClientBuilder.disableAuthCacheing();

       return httpAsyncClientBuilder;    final RestHighLevelClient restHighLevelClient = new RestHighLevelClient(restClientBuilder);

客户端与服务端的连接示意图：

ES high-level-client 对长连接的实现是把超时时间设置为-1，意味着客户端永远不超时，服务端设备为了资源的利用率会检测与此设备的连接是否在使用，如果一个连接长时间没有使用，服务端会主动把这个连接关闭，而此时客户端不知情，还处在连接状态，可以说当前处于半连接状态。当有流量进来的时候使用了该连接就会发现与服务端连接不上，产生timeout，客户端也断开此链接，如上图 1 所示。客户端使用新连接 2 与服务端通信。因此问题的根源在于客户端没有及时发现连接的不可用并断开，因此需要设置让客户端主动对tcp连接进行探测保活。

解决方案

一、客户端显式的设置setKeepAliveStrategy
httpAsyncClientBuilder.setKeepAliveStrategy((httpResponse,httpContext) -> TimeUtils.MINUTES.toMillis(3))

二、显示开启 tcp keepalive
httpAsyncClientBuilder.setDefaultIOReactorConfig(IOReactorConfig.sustom().setSoKeepAlive(true).build())

三、在系统层面设置tcp keepalive探测保活时间
net.ipv4.tcp_keepalive_time = 60

来源：
https://www.modb.pro/db/388569

Tags：SpringBoot 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

详解基于SpringBoot的WebSocket应用开发

在现代Web应用中，实时交互和数据推送的需求日益增长。WebSocket协议作为一种全双工通信协议，允许服务端与客户端之间建立持久性的连接，实现实时、双向的数据传输，极大地提升了用...【详细内容】

2024-01-30　　Search: SpringBoot 点击:(19)　　评论:(0)　　加入收藏

SpringBoot如何实现缓存预热？

缓存预热是指在 Spring Boot 项目启动时，预先将数据加载到缓存系统（如 Redis）中的一种机制。那么问题来了，在 Spring Boot 项目启动之后，在什么时候？在哪里可以将数据加载到缓存系...【详细内容】

2024-01-19　　Search: SpringBoot 点击:(86)　　评论:(0)　　加入收藏

SpringBoot3+Vue3 开发高并发秒杀抢购系统

开发高并发秒杀抢购系统：使用SpringBoot3+Vue3的实践之旅随着互联网技术的发展，电商行业对秒杀抢购系统的需求越来越高。为了满足这种高并发、高流量的场景，我们决定使用Spring...【详细内容】

2024-01-14　　Search: SpringBoot 点击:(91)　　评论:(0)　　加入收藏

公司用了六年的 SpringBoot 项目部署方案，稳得一批！

本篇和大家分享的是springboot打包并结合shell脚本命令部署，重点在分享一个shell程序启动工具，希望能便利工作。 profiles指定不同环境的配置 maven-assembly-plugin打发布压...【详细内容】

2024-01-10　　Search: SpringBoot 点击:(166)　　评论:(0)　　加入收藏

简易版的SpringBoot是如何实现的！！！

SpringBoot作为目前最流行的框架之一，同时是每个程序员必须掌握的知识，其提供了丰富的功能模块和开箱即用的特性，极大地提高了开发效率和降低了学习成本，使得开发人员能够更专注...【详细内容】

2023-12-29　　Search: SpringBoot 点击:(136)　　评论:(0)　　加入收藏

用 SpringBoot+Redis 解决海量重复提交问题

前言一：搭建redis的服务Api 二：自定义注解AutoIdempotent 三：token创建和检验四：拦截器的配置五：测试用例六：总结前言:在实际的开发项目中,一个对外暴露的接口往往会面临很多...【详细内容】

2023-12-20　　Search: SpringBoot 点击:(53)　　评论:(0)　　加入收藏

SpringBoot中如何优雅地个性化定制Jackson

当使用 JSON 格式时，Spring Boot 将使用ObjectMapper实例来序列化响应和反序列化请求。在本教程中，我们将了解配置序列化和反序列化选项的最常用方法。一、默认配置默认情况下...【详细内容】

2023-12-20　　Search: SpringBoot 点击:(132)　　评论:(0)　　加入收藏

springboot-如何集成Validation进行参数校验

一、步骤概览二、步骤说明1.引入依赖包在 pom.xml 文件中引入 validation 组件,它提供了在 Spring Boot 应用程序中进行参数校验的支持。<dependen...【详细内容】

2023-12-13　　Search: SpringBoot 点击:(157)　　评论:(0)　　加入收藏

优雅的springboot参数校验，你学会了吗？

前言在后端的接口开发过程，实际上每一个接口都或多或少有不同规则的参数校验，有一些是基础校验，如非空校验、长度校验、大小校验、格式校验；也有一些校验是业务校验，如学号不能重...【详细内容】

2023-11-29　　Search: SpringBoot 点击:(200)　　评论:(0)　　加入收藏

Springboot扩展点之BeanDefinitionRegistryPostProcessor，你学会了吗？

前言通过这篇文章来大家分享一下，另外一个Springboot的扩展点BeanDefinitionRegistryPostProcessor，一般称这类扩展点为容器级后置处理器，另外一类是Bean级的后置处理器；容器级...【详细内容】

2023-11-27　　Search: SpringBoot 点击:(175)　　评论:(0)　　加入收藏

▌简易百科推荐

Qt与Flutter：在跨平台UI框架中哪个更受欢迎？

在跨平台UI框架领域，Qt和Flutter是两个备受瞩目的选择。它们各自具有独特的优势，也各自有着广泛的应用场景。本文将对Qt和Flutter进行详细的比较，以探讨在跨平台UI框架中哪个更...【详细内容】

2024-04-12　　刘长伟　　　　Tags:UI框架　点击:(1)　　评论:(0)　　加入收藏

Web Components实践：如何搭建一个框架无关的AI组件库

一、让人又爱又恨的Web ComponentsWeb Components是一种用于构建可重用的Web元素的技术。它允许开发者创建自定义的HTML元素，这些元素可以在不同的Web应用程序中重复使用，并且...【详细内容】

2024-04-03　　京东云开发者　　　　Tags:Web Components 　点击:(8)　　评论:(0)　　加入收藏

Kubernetes 集群 CPU 使用率只有 13% ：这下大家该知道如何省钱了

作者 | THE STACK译者 | 刘雅梦策划 | Tina根据 CAST AI 对 4000 个 Kubernetes 集群的分析，Kubernetes 集群通常只使用 13% 的 CPU 和平均 20% 的内存，这表明存在严重的过度...【详细内容】

2024-03-08　　InfoQ　　　　Tags:Kubernetes 　点击:(19)　　评论:(0)　　加入收藏

Spring Security：保障应用安全的利器

SpringSecurity作为一个功能强大的安全框架，为Java应用程序提供了全面的安全保障，包括认证、授权、防护和集成等方面。本文将介绍SpringSecurity在这些方面的特性和优势，以及它...【详细内容】

2024-02-27　　风舞凋零叶　　　　Tags:Spring Security 　点击:(55)　　评论:(0)　　加入收藏

五大跨平台桌面应用开发框架：Electron、Tauri、Flutter等

一、什么是跨平台桌面应用开发框架跨平台桌面应用开发框架是一种工具或框架，它允许开发者使用一种统一的代码库或语言来创建能够在多个操作系统上运行的桌面应用程序。传统上...【详细内容】

2024-02-26　　贝格前端工场　　　　Tags:框架　点击:(47)　　评论:(0)　　加入收藏

Spring Security权限控制框架使用指南

在常用的后台管理系统中，通常都会有访问权限控制的需求，用于限制不同人员对于接口的访问能力，如果用户不具备指定的权限,则不能访问某些接口。本文将用 waynboot-mall 项目举例...【详细内容】

2024-02-19　　程序员wayn　　微信公众号　　Tags:Spring 　点击:(39)　　评论:(0)　　加入收藏

开发者的Kubernetes懒人指南

你可以将本文作为开发者快速了解 Kubernetes 的指南。从基础知识到更高级的主题，如 Helm Chart，以及所有这些如何影响你作为开发者。译自Kubernetes for Lazy Developers。作...【详细内容】

2024-02-01　　云云众生s　　微信公众号　　Tags:Kubernetes 　点击:(51)　　评论:(0)　　加入收藏

链世界：一种简单而有效的人类行为Agent模型强化学习框架

强化学习是一种机器学习的方法，它通过让智能体（Agent）与环境交互，从而学习如何选择最优的行动来最大化累积的奖励。强化学习在许多领域都有广泛的应用，例如游戏、机器人、自动驾...【详细内容】

2024-01-30　　大噬元兽　　微信公众号　　Tags:框架　点击:(68)　　评论:(0)　　加入收藏

Spring实现Kafka重试Topic，真的太香了

概述Kafka的强大功能之一是每个分区都有一个Consumer的偏移值。该偏移值是消费者将读取的下一条消息的值。可以自动或手动增加该值。如果我们由于错误而无法处理消息并想重...【详细内容】

2024-01-26　　HELLO程序员　　微信公众号　　Tags:Spring 　点击:(88)　　评论:(0)　　加入收藏

SpringBoot如何实现缓存预热？

2024-01-19　　 Java中文社群　　微信公众号　　Tags:SpringBoot 　点击:(86)　　评论:(0)　　加入收藏

推荐资讯

早高峰打“飞的”有多	JavaScript的异步编程
Rust编程语言的内存安	数字人破解跨境直播难
Meta确认5月发布Llama	ChatGPT 应用商店？可能
社交网络与Web3：数字社	速查微信聊天最频繁对