最近在做从Redis的数据迁移,从AWS的ElastiCache中将数据迁移到ec2部署的Redis集群环境中.
这里先简述一下大概的迁移过程
- 使用ElastiCache中的备份功能,产生RDB快照文件,9G的数据快照时间大约49分钟.
- 将该RDB导入到S3存储,再从S3存储下载到ec2,将该快照文件加载到新Redis集群.
- 应用将连接从ElastiCache修改为ec2的Redis集群
这里可以看到,第一步到第三步的迁移过程.实际上应用还是一直在往ElastiCache中写数据,这里就有一个gap的数据存在,那么我们怎么将gap的key找出来呢,这里有两种方案.
- 在第三步执行完成后,再次对ElastiCache做一个快照,产生一个RDB文件,通过工具对这迁移前和迁移后的RDB文件做分析,对比,找出增量的key.(该方式只适合找出增量的key).
- 研发在应用层解决,例如,从产生快照的那一刻起,记录有变化的key信息(set,hset等新增或者修改的key),然后将这些有过变化的key导入到新的ec2的Redis集群.
目前来说采用的是第二种方案,这里就涉及了到以下问题
- 如果是迁移过程中新增的key,可以直接从ElastiCache导入到新的ec2.
- 如果是迁移后应用将ec2的Redis的hash key的某个字段修改了,那么就不能再将ElastiCache中该key导入到ec2的Redis中,只能merge.
针对以上两个问题的解决方案.
新增的key目前迁移方案有三种.
- 通过redis的migrate命令,但是该命令有一个弊端,在Redis版本小于3.0时,无COPY选项,migrate会删除源key,目前我们ElastiCache的版本是2.8.24,所以暂时不考虑.
- move命令只支持在单节点多个数据库之间做迁移,所以也不在考虑范围内.
- 通过dump和restore组合,dump用于产生一个value序列化的值,restore用于将该序列化的value值还原,需要注意的是该命令只支持从低版本的redis迁移到高版本的redis(或同版本之间),这里说的版本指的是RDB版本,目前采用该方案实现.
如果是Elasticache和ec2 Redis都存在的key并且是变化的,则根据实际情况判断,例如,在ElastiCache中都是以hash key存在
127.0.0.1:6379[10]> hgetall 4IK3Z9SFN1K34UAJ8EDKBXHNU
1) "CE"
2) "[\"lukewalker@****.com\",\"1424066864767\"]"
3) "FN"
4) "[\"Luke\",\"1407005321955\"]"
5) "LN"
6) "[\"Walker\",\"1407005321988\"]"
7) "LL"
8) "[\"1407005321222\",\"1407005321222\"]"
9) "FF"
10) "[\"Walker\",\"1407005321988\"]"
在以上字段中,可能会出现两种情况
- 在迁移中,应用将ElastiCache该键的字段修改过,例如"CE"字段的值修改过,注意值是一个数组,第二个字段代表修改时间戳,那么迁移后只需要将变化的字段复制过去即可,不能采用键导入操作,这里就是只需要将修改过的"CE"字段复制过去.
- 在迁移后,应用将ec2的该键字段修改过,例如"CE"字段的值修改过,产生了一个新的时间戳,但是ElastiCache中该键的字段值还是修改之前的话,不能复制该字段.
以上考虑的问题我们通过下列图来展示
具体脚本总结如下
#!/bin/bash -x
source_redis_instance="172.16.101.54"
source_redis_port=6379
source_redis_db=2
target_redis_instance="172.16.101.55"
target_redis_port=6379
target_redis_db=2
existed_in_target_hash_keys="/usr/local/redis/dba/shell/existed_in_target_hash_keys.txt"
incremental_hash_keys="/usr/local/redis/dba/shell/incremental_hash_keys.txt"
for hash_key in `/usr/local/redis/src/redis-cli -h ${source_redis_instance} -p ${source_redis_port} -n ${source_redis_db} --raw KEYS "*"`
do
source_hash_key=${hash_key}
source_hash_key_in_target=`/usr/local/redis/src/redis-cli -h ${target_redis_instance} -p ${target_redis_port} -n ${target_redis_db} --raw EXISTS "${source_hash_key}"`
if [ ${source_hash_key_in_target} == 1 ]; then
target_hash_key=${source_hash_key}
echo "${source_hash_key}" >> ${existed_in_target_hash_keys}
source_hash_key_fields=`/usr/local/redis/src/redis-cli -h ${source_redis_instance} -p ${source_redis_port} -n ${source_redis_db} --raw HKEYS "${source_hash_key}"`
for source_hash_key_field in ${source_hash_key_fields}
do
source_hash_key_field_in_target=`/usr/local/redis/src/redis-cli -h ${target_redis_instance} -p ${target_redis_port} -n ${target_redis_db} --raw HEXISTS "${target_hash_key}" "${source_hash_key_field}"`
if [ ${source_hash_key_field_in_target} == 1 ]; then
target_hash_key_field=${source_hash_key_field}
source_hash_key_field_value_timestamp=`/usr/local/redis/src/redis-cli -h ${source_redis_instance} -p ${source_redis_port} -n ${source_redis_db} HGET "${source_hash_key}" "${source_hash_key_field}" | \
awk -F, '{print $2}' | awk -F] '{print $1}' | sed 's/\"//g'`
target_hash_key_field_value_timestamp=`/usr/local/redis/src/redis-cli -h ${target_redis_instance} -p ${target_redis_port} -n ${target_redis_db} HGET "${target_hash_key}" "${target_hash_key_field}" | \
awk -F, '{print $2}' | awk -F] '{print $1}' | sed 's/\"//g'`
if [ ${source_hash_key_field_value_timestamp} -gt ${target_hash_key_field_value_timestamp} ]; then
source_hash_key_field_value=`/usr/local/redis/src/redis-cli -h ${source_redis_instance} -p ${source_redis_port} -n ${source_redis_db} HGET "${source_hash_key}" "${source_hash_key_field}"`
/usr/local/redis/src/redis-cli -h ${target_redis_instance} -p ${target_redis_port} -n ${target_redis_db} HSET "${target_hash_key}" "${target_hash_key_field}" "${source_hash_key_field_value}"
fi
else
source_hash_key_field_value=`/usr/local/redis/src/redis-cli -h ${source_redis_instance} -p ${source_redis_port} -n ${source_redis_db} HGET "${source_hash_key}" "${source_hash_key_field}"`
/usr/local/redis/src/redis-cli -h ${target_redis_instance} -p ${target_redis_port} -n ${target_redis_db} HSET "${target_hash_key}" "${source_hash_key_field}" "${source_hash_key_field_value}"
fi
done
else
echo "${source_hash_key}" >> ${incremental_hash_keys}
/usr/local/redis/src/redis-cli -h ${source_redis_instance} -p ${source_redis_port} --raw -n ${source_redis_db} DUMP ${source_hash_key} \
| head -c-1 \
| /usr/local/redis/src/redis-cli -h ${target_redis_instance} -p ${target_redis_port} -x -n ${target_redis_db} RESTORE ${source_hash_key} 0
fi
done