让“无声的漏洞”无可遁形：详解2023 数据库顶会SIGMOD最佳论文

2023-06-22 11:46:29 东方资讯

【编者按】2023数据库顶会SIGMOD在美国西雅图颁出最佳论文。阿里云与浙江大学合作的《Detecting Logic Bugs of Join Optimizations in DBMS》获得最佳论文，成为自1975年该会议至今49年以来，中国大陆研究团队首次斩获该奖项。

这项工作聚焦数据库逻辑测试，始于阿里云PolarDB云原生数据库的内核测试，通过开发创新的自动化数据库逻辑测试方案TQS，检出不易察觉的逻辑漏洞予以修复。实验发现，TQS运行仅24小时就检测出4大商用数据库管理系统的逻辑漏洞115个，予以修复后，大幅提升数据库稳定性。

该论文一作唐秀系浙江大学博士，这一工作是她在阿里云数据库进行研究型实习时的成果；阿里云数据库负责人李飞飞也是作者之一，此前他曾以一作身份凭借《Wander Join: Online Aggregation via Random Walks》拿下2016年SIGMOD最佳论文。本次论文获奖，完成了中国大陆研究团队在数据库顶会的历史性突破，也成为了中国校企合作攻克科研难题的典范之一。

(资料图)

我们特别邀请到唐秀博士，为我们深入浅出地解读这篇论文的关键成果。

作者 | 唐秀，浙江大学博士，2022 年阿里巴巴优秀研究型实习生

背景与动机

我国数据库正处于高速发展期，并且随着应用复杂程度的增加，企业和用户对于更强大、更安全的数据库的需求也越来越迫切。因此，如何检查数据库漏洞和错误，成为保障数据库安全、提升数据库稳定性的关键之一。

在数据库查询执行期间，主要有两类错误（bug）：一种常见的错误是数据库突然崩溃停止，这种错误对于开发人员来说相对容易检测，因为数据库连接会突然中断。然而，还存在一类隐藏的错误，即逻辑漏洞。在这种情况下，数据库正常运行并返回结果，但实际上并非正确的结果。

图说：逻辑漏洞举例

以上图中的两个逻辑漏洞为例，图a展现了MySQL的一个哈希连接错误，这种错误发生在错误地将零和负零视为不同值的情况下，导致最终返回一组空集合；b图涉及数据类型转换和数据精度损失导致的错误半连接：在MySQL中，当比较两个值是否相等时，数据类型转换和精度损失可能导致意外的结果，从而影响查询结果集的构建。

逻辑漏洞很难检测，但其导致的后果确很严重，重则会导致“上万航班延误瘫痪”级别的大规模宕机，因此也被视为“无声的漏洞”。本论文便主要聚焦于此。

针对逻辑漏洞，目前已经有一些检测方法，例如部分查询语义（PQS），但这些方法通常只支持针对单表选择查询的检测，在涉及多表查询以及不同的连接算法和连接结构的情况下，仍存在大量的研究空白。

而最常用的差分测试，通过在不同数据库中执行相同操作，以验证其一致性，这种测试仍存在问题：假如两个数据库返回相同的结果，也有可能是基于同样错误的逻辑生成了一样的结果，也即如何验证查询结果正确性的关键问题。

同时，测试数据库现在面临的搜索空间是非常庞大的，如何引导测试以尽可能消耗最小的资源穷尽全部测试，也是一个需要解决的问题。

研究思路与核心内容

围绕这两个关键问题，我们引入了一个名为TQS（转换查询合成）的全新解决方案，以解决MySQL数据库中可能出现的逻辑错误。

图说：TQS架构图

TQS包括DSG和KQE两部分，分别为数据驱动的模式和查询生成，与知识引导的查询空间探索。

为解决真值生成问题，我们采用了以下方法：首先，根据给定的宽表，使用函数依赖（FD）将该表拆分为多个表。

图说：DSG是如何拆分宽表的

同时，为了进行边缘测试，我们还插入了一些噪声数据作为边缘情况的样本（图中彩色数据），并基于数据库的模式图模型，随机游走生成一系列查询。

图说：DSG构建针对表连接的Bitmap 索引

在此基础上，构建RowID映射表，用于记录在表拆分过程中，宽表中的行和拆分后表的行的对应关系。根据表连接是表拆分的逆向过程的直觉，构建基于构建RowID映射的Bitmap索引，以便从宽表中检索到连接查询的理论真值。这些真值生成后，便是检测潜在逻辑错误的参照样本。

然而，对于给定的数据库模式，可生成的连接查询的数量会随着表格和列的数量呈指数级增长，显然无法使用枚举法一一验证。那么，要如何更高效地探索查询未知空间呢？我们提出了TQS的第二部分设计——KQE。

图说：KQE原理图

KQE首先将模式图进一步拓展为一个规划迭代图，来表示整个查询生成空间。同时，在大量的历史查询图中，KQE构建了一个基于嵌入的图索引，以确保新生成的查询图尽可能地远离其在历史查询中的近邻，探索更多的未知空间。

总体来看，KQE可基于结构相似性为生成的查询图评分，同时也通过自适应随机游走多样化查询生成，从而极大降低了对于重复查询的概率，节省了计算资源开支。

实验结果分析

我们的研究在MySQL、MariaDB、TiDB 和 PolarDB 等4大常用DBMS上进行了实验。

运行了 24 小时后，TQS 成功找到了 115 个漏洞：MySQL 中 31 个、MariaDB 中 30 个、TiDB 中 31 个、PolarDB 中 23 个。通过最小化测试样例，我们进一步将它们分为20种类型。

图说：实验检出漏洞分类详表

我们已经将检测到的漏洞提交给相应数据库社区，并得到了他们积极的反馈。这些漏洞的危机程度被数据库社区判定为首要危急或严重级别，一些漏洞已经修复在了其数据库最新版本中。

具体来说，MySQL 8.0.28的错误主要集中在Semi-join和Sub-query的执行过程中，其中，几个错误被评定为首要危急，即最紧急的错误，这些错误已经在MySQL 8.0.30版本中得到修复，并提供了相应的修复说明。而对于已使用SQLancer进行全面测试的TiDB，TQS也测出了一些首要危急错误，TiDB对其进行了修复。另外，针对PolarDB，我们则直接提交错误报告，相关错误已经被修复。

图说：TQS与原有方法的有效性对比

总的来说，相比于其它方法，TQS在多项指标上取得了更优的效果，较原有方法实现高达100倍的性能提升，各组件的有效性也通过控制变量实验得到了检验。

6月21日晚上8点整，本文一作唐秀将直播解读论文，欢迎广大读者预约收看。

返回搜狐，查看更多

责任编辑：

英国通胀率连续第四个月高于预期 英央行升息压力加大_世界信息

华科资本(01140.HK)年度纯利跌33.85%至1.46亿港元

当前快报:中国休闲运动挑战赛落户温州 桨板+路跑刷新运动体验

天天头条：自然连接和笛卡尔积的符号（自然连接和笛卡尔积）

人生不能错过的十部爱情动画电影 10部超赞动画电影陪你过周末）-每日热议

每日速递：中钢洛耐： 二级市场股价波动受宏观经济、行业周期、投资偏好、市场供求等多重因素影响

世界快播：读者来信 | 本市部分路段随意占道停车现象突出：别图一时之便 影响交通秩序

环球今亮点！四川实际种粮农民一次性补贴标准2023：每亩补贴多少？

成都蒙彼利埃幼儿园：课题研究谋发展，专业深耕待花开

财务软件摊销年限最长为几年（财务软件摊销年限最新规定2020）-今日播报

少将中将上将军衔相当于什么官 少将中将上将大将是什么级别

五月五，今日过端午

15部，周润发朱一龙倪大红领衔的端午档有多强？

大屏幕上案情触目惊心！中石化1.5万余人同步接受警示教育-全球观点

世界微动态丨如何打造“认知障碍友好社区”？虹口这个街道这样守护“老宝贝”

重点聚焦!河北开放大学生物制药学院 “落户”华药

“浓情端午 乐在其粽”县水利局开展端午节主题活动|热点

6月22日、23日光影水舞秀暂停播放 当前热门

世界看点：应急管理部派工作组赴宁夏银川燃气爆炸事故现场指导救援处置

全球百事通！退市运盛：蒋业磊因未依法履行其他职责被上海证券交易所采取监管措施

每日速讯：市人社局:全力落实稳就业、扩社保、优服务举措

会议纪要显示加拿大央行讨论过按兵不动，但暗示下次还会加息 当前热门

创维数字跌停 西部证券月内维持买入评级

今日快看!消防员深夜解救园宠小羊 萌娃们用歌声与画笔致谢

千年梯田 十年新生

南京税务局：“粽”享端午 与税“童”行 世界微资讯

世界资讯：东北首家新业态、新就业群体蓝骑士·爱心驿站在沈阳成立

每日精选：所以您不需要沾沾自喜，因为一切都是灾难，和霉运的开始

天天要闻：霸王集团(01338.HK)：预计上半年仍可能发生经营亏损

无限制免费看！全网漫画都在这了，纯净无广

【小新的Vlog】火星旅游攻略 看这一篇就够了

什么是附着力汽车行驶的驱动附着条件是什么_什么是附着力 天天快讯

“粽”情山水乐享端午漂流 溯溪高热一“夏” 天天热点

直接点名！文班亚马：刚下飞机就感受到了马刺球迷的爱

中央气象台6月21日18时发布高温黄色预警 快看点

【快播报】粗心母子！孩子跑错考点后妈妈接考也走错

“三省一区”科技成果转移转化战略联盟成立

非洲及东南亚或成跨境电商新蓝海 中企重构生态链-热门

焦点报道:致欧科技登陆创业板 河南A股上市公司达到110家

全球今热点：上海持续优化“沪惠保”方案 两年多累计赔付超11亿元惠及数十万个家庭

三星医疗：子公司中标4.77亿元新能源变压器采购项目_天天时快讯

天天短讯！javabus新地址是（jvabus的新地址）

世界实时：鼎诚人寿主打长期主义和价值经营，推动行业行稳致远发展

汽车零部件板块表现活跃 中马传动录得4天3板 主力大手笔加仓这些个股|速读

草书单独符号：卜字符

每日讯息!豆科植物葛根几月份采挖 葛根什么季节采挖

两年累亏超4亿元，君圣泰医药赴港股一搏，核心慢病产品预计2025年提交上市申请

男士洗面奶哪个好用？十款口碑爆棚的推荐！

刘传钢深入镇（街道）进行现场办公 开展实地调研

海尔诉小米等侵害发明专利权 环球快资讯

全球热消息：中国天眼FAST发现轨道周期最短脉冲星系统 为经典双星演化理论提供关键证据

jbl汽车音响各系列区别（jbl汽车音响各系列区别简述） 世界观察

在微信当中AAA是什么意思

罗马诺：巴萨已免签京多安 合同2+1年 上赛季11球7助 身价2000万欧

衣服粘毛是什么原因_衣服粘毛

汇客厅|薛艺：传承经典 融入现代 让鼎大祥“老字号”焕发新活力

法国总统宣布欧洲多国将联合采购法制防空系统 引发德国防长质疑

民政部将开展为期半年的打击整治非法社会组织专项行动

北京：“延庆东南山·九沟十八湾”工作推进会召开 当前观点

今日快讯：北京城市副中心首条特色消防主题公交线路正式运营

“中国流动科技馆”西秀站巡展活动开始啦！_前沿热点

官方通报学校食堂烤鱼现蛆虫情况属实，师苑餐厅曾入选标准化食堂-报道

延吉冷面、麻辣凉面……北京老字号多种特色“夏至面”热销|天天热点评

新课标小学生趣味阅读与作文训练_关于新课标小学生趣味阅读与作文训练简介

冰粉的制作方法_沉香叶茶的制作方法 沉香叶茶如何制作简单好喝

海口发布暴雨红色预警-每日视讯

中国海诚（002116）6月21日主力资金净买入818.23万元 环球微速讯

城地香江： 截止到2023年一季度末的股东总数为28,860人-今日看点

2023年首都儿科研究所端午节开放吗？工作安排一览 天天热门

划650元价格底线 金沙酒业借力华润系AB面-环球热文

当前速读：昌江县农产品公用品牌“昌廪食”正式发布

美联储鲍威尔：预计职位空缺与失业人口的比率将下降

【天天聚看点】cosa公式余弦定理_sina cosa tana公式

我国将在各地建设农民工工资争议速裁庭 播报

激活数据要素潜能 数据要素统一大市场对接活动在郑州举行 天天日报

全球播报:再夺全球顶级竞赛CVPR NTIRE冠军，打造更好用户体验，淘宝拥有哪些内容技术？

禹州市神垕镇：民族器乐进校园 传统文化润心田_环球热门

主角老婆多的玄幻小说排行榜_主角老婆多的玄幻小说

国内首个5G智慧虚拟拍摄联合实验室落地无锡|当前讯息

今日播报!汨罗江畔千年端午民俗的新传承

英国通胀率连续第四个月高于预期英央行升息压力加大_世界信息

当前快报:中国休闲运动挑战赛落户温州桨板+路跑刷新运动体验

每日速递：中钢洛耐：二级市场股价波动受宏观经济、行业周期、投资偏好、市场供求等多重因素影响

世界快播：读者来信 | 本市部分路段随意占道停车现象突出：别图一时之便影响交通秩序

少将中将上将军衔相当于什么官少将中将上将大将是什么级别

“浓情端午乐在其粽”县水利局开展端午节主题活动|热点

6月22日、23日光影水舞秀暂停播放当前热门

会议纪要显示加拿大央行讨论过按兵不动，但暗示下次还会加息当前热门

创维数字跌停西部证券月内维持买入评级

今日快看!消防员深夜解救园宠小羊萌娃们用歌声与画笔致谢

千年梯田十年新生

南京税务局：“粽”享端午与税“童”行世界微资讯

【小新的Vlog】火星旅游攻略看这一篇就够了

什么是附着力汽车行驶的驱动附着条件是什么_什么是附着力天天快讯

“粽”情山水乐享端午漂流溯溪高热一“夏” 天天热点

中央气象台6月21日18时发布高温黄色预警快看点

非洲及东南亚或成跨境电商新蓝海中企重构生态链-热门

焦点报道:致欧科技登陆创业板河南A股上市公司达到110家

全球今热点：上海持续优化“沪惠保”方案两年多累计赔付超11亿元惠及数十万个家庭

汽车零部件板块表现活跃中马传动录得4天3板主力大手笔加仓这些个股|速读

每日讯息!豆科植物葛根几月份采挖葛根什么季节采挖

刘传钢深入镇（街道）进行现场办公开展实地调研

海尔诉小米等侵害发明专利权环球快资讯

全球热消息：中国天眼FAST发现轨道周期最短脉冲星系统为经典双星演化理论提供关键证据

jbl汽车音响各系列区别（jbl汽车音响各系列区别简述）世界观察

罗马诺：巴萨已免签京多安合同2+1年上赛季11球7助身价2000万欧

汇客厅|薛艺：传承经典融入现代让鼎大祥“老字号”焕发新活力

法国总统宣布欧洲多国将联合采购法制防空系统引发德国防长质疑

北京：“延庆东南山·九沟十八湾”工作推进会召开当前观点

冰粉的制作方法_沉香叶茶的制作方法沉香叶茶如何制作简单好喝

中国海诚（002116）6月21日主力资金净买入818.23万元环球微速讯

城地香江：截止到2023年一季度末的股东总数为28,860人-今日看点

2023年首都儿科研究所端午节开放吗？工作安排一览天天热门

划650元价格底线金沙酒业借力华润系AB面-环球热文

我国将在各地建设农民工工资争议速裁庭播报

激活数据要素潜能数据要素统一大市场对接活动在郑州举行天天日报

禹州市神垕镇：民族器乐进校园传统文化润心田_环球热门

世界最资讯丨夏至到节令美食都有啥？

热讯：官方售价36.90万元起皇冠SportCross和全新一代皇冠威尔法联袂上市

好莱坞编剧罢工加拿大“补位”

崇州市中小学生读书教育主题活动颁奖典礼在蜀南小学举行世界报道

澳柯玛：公司积极推进各个产业数字化、场景化、智能化发展

广西本地蛇_广西南蛇是什么蛇天天报道

端午小长假运输今日启动！预计7100万人次乘火车出行日均1420万人次消息

人教版七年级上册英语教案全英文版人教版七年级上册英语教案

看龙舟赛品“粽”头戏

街机三国志吞食天地攻略三国志吞食天地攻略天天动态

热讯：蜀山传迅雷超清下载蜀山传迅雷下载

红颜薄命野兔红颜薄命

英国通胀率连续第四个月高于预期英央行升息压力加大_世界信息

乘联会：6月1-18日乘用车市场零售82.8万辆同比下降6%

小米经典旅行箱再降价一百多香爆了

焦点速看：萌系代表新手友好上汽大众ID.3试驾体验

“小揽运”/引入插混系统新款路虎揽胜极光官图发布

天天资讯：全球最佳！提出感知决策一体化端到端自动驾驶大模型上海科研团队闪耀AI顶会

亚马逊(AMZN.US)Prime Day即将到来美国消费热情面临重大考验

七年级寒假作业答案2021江西高校出版社全球聚焦

广西毒品犯罪案件数量呈下降态势环球热门

当前快报:中国休闲运动挑战赛落户温州桨板+路跑刷新运动体验

环球速递！《我们的荆轲》曹禺剧场上演历史故事连接当下

外地高龄旅客走失泰州民警20分钟寻回

节约集约用地严守耕地红线

FAST发现迄今最短轨道周期脉冲双星系统世界实时

梭哈稳准狠的最高境界梭哈技巧高手进阶攻略

ios 13.1.3怎么升级_iOS13.1正式版升级体验今日看点

每日速递：中钢洛耐：二级市场股价波动受宏观经济、行业周期、投资偏好、市场供求等多重因素影响

速讯：北汽蓝谷：关于极狐考拉的上市安排，公司计划于三季度末上市并接受预定