网站首页 > 技术文章正文

Redis 常见问题处理（redis的问题）

nanyue 2024-10-21 06:13:58 技术文章 31 ℃

Redis常用问题

1、当容器的CPU使用率超过预期？

检查是否除Redis相关进程在运行外，还有其他不必要进程在运行，若有，可以关闭非必要进程，再看是否CPU使用率还超出预期。再结合Redis的CPU使用率进行分析，是否Redis正常运行，进行排查。

排查一：连接数过多，关闭僵尸连接，采用redi-cli登录,采用client kill ip:port(redis远程连接的ip和端口)。设置空闲清理时间： redis-cli config set timeout 300。

排查二：慢查询堆积，因为redis是单线程，如果有慢查询的话，会阻塞住之后的操作，通过redis日志查，可以对慢查询进行持久化，比如定时存放到mysql之类。

2、当容器网络出/入流量超过阈值？

当出现网络流量过高的情况，通常是因为服务器与服务器之间拷贝数据导致的，拷贝结束，流量即可恢复正常，如果不是数据拷贝，通常是服务器中毒或者受到攻击，在对内或对外大量发包导致，此时，可按照以下方法进行排查
1.如果您使用的是Linux系统的服务器，可以在系统中安装nethogs查看具体的进程占用流量的情况（如nether eth0->查看网卡具体流量）并杀死该进程;对于一些常见的网络问题，如容器之间网络通信问题，您可以使用Tcpdump工具捕获网络流量，来解决这些网络问题
2.如果您使用的是windows系统，可通过资源监视器（启动任务管理器>资源监视器>网络）看到哪些进程占用网络流量并结束相关进程
如果问题还未解决，请联系运维人员。

3、当容器down之后的处理方法？

当prometheus监控到容器down指标Container Killed告警，说明容器可能失效或终止运行，以异常状态退出或健康检查失败，k8s的核心组件 kubelet会根据设置的pod重启策略自动重启该容器，例如容器运行时内存超出限制，容器以Failed状态终止，kubelet则自动重启该容器。而pod中的守护进程supervisor会保证Redis服务自动重启。

4、当容器的memary的使用率超过预期？

检查是否除Redis相关进程在运行外，还有其他不必要进程在运行，若有，可以关闭非必要进程。若是Redis已超过已使用流量的阈值，导致容器的memary的使用率超过预期，可以结合Redis的已使用容量进行分析，见下面提到的问题。

5、容器的存储使用率超过预期？

首先检查是哪一个目录的磁盘量已快耗尽，如果是Redis的挂载目录的磁盘已快满，考虑定时删除过期的日志文件，或是由于备份文件过大，可以增大磁盘容量，如果是其他目录，检查是否有垃圾缓存，或者其余日志文件，可以考虑只保留最新的内容。

6、当QPS(set/get值)超过预期数值，触发告警的处理方法？

正常连接配置下，QPS不会超出预期数值。可能开发人员使用了管道模式（Pipeline pipeline=jedis.pipelined();），使系统每秒处理的请求数量增大，减少了延迟时间，但是管道模式不适用于请求之间有依赖关系、可靠性要求高的场景，会造成请求失败。请根据业务需求综合考虑是否开启管道模式，确定开启后，可以联系运维人员调整对应的告警值。

7、当Redis客户端的总连接数超过预期数值，触发告警的处理方法？

此时的Redis性能较低，CPU占用率很高，检查Redis客户端是否都是有效连接，（./redis-cli –h host –p port client list），由于客户端频繁的连服务器，每次连接都在很短的时间内结束，导致网络丢包。为了解决这两个问题，需要做的就是服务端和客户端定期检查，客户端通过setTestWhileIdle(Boolean.True)、setTimeBetweenEvictionRunsMillis(xxx) 来定期检查死链，服务端通过设置超时时间来做到检查连接的问题。另在客户端查看， netstat -ae |grep redis，可能会发现系统存在大量TIME_WAIT状态的连接，通过调整内核参数解决，vi /etc/sysctl.conf。编辑文件，加入以下内容： net.ipv4.tcp_timestamps=1 net.ipv4.tcp_syncookies = 1 net.ipv4.tcp_tw_reuse = 1 net.ipv4.tcp_tw_recycle = 1 net.ipv4.tcp_fin_timeout = 30 然后执行 /sbin/sysctl -p 让参数生效。

8、当已使用容量超过预期数值,触发告警的处理方法？

排查一：查看Redis的内存碎片率是否已超过1.5，超过则需要重启Redis服务器，可以让额外产生的内存碎片失效并重新作为新内存来使用，使操作系统恢复高效的内存管理，在重启服务器之前，需要在Redis-cli工具上输入shutdown save命令，意思是强制让Redis数据库执行保存操作并关闭Redis服务，这样做能保证在执行Redis关闭时不丢失任何数据。在重启后，Redis会从硬盘上加载持久化的文件，以确保数据集持续可用。

排查二：内存碎片率在1.0-1.5之间属于正常范围,内存在正常运行，建议增大集群的内存容量，提高集群的性能，否则Redis的处理请求效率会降低。

9、当每秒内网出/入流量平均值超过预期数值，触发告警的处理方法？

可能是有某些较大的key一直在频繁访问导致。为防止阻塞进程，建议不在Redis客户端执行查询操作，而是将备份文件导出，使用第三方工具redis-rdb-tools对Redis备份文件dump.rdb进行分析，找出最大key，与开发人员确认具体情况，是否设置过期时间或者删除key。

上一篇： Kafka集群的监控与故障排查（监控kafka集群状态）
下一篇：记一次kafka集群副本不同步问题处理及思考

网站首页 > 技术文章 正文