Li, Hui, Ge Qu, Li, Jiaxi Yang, Bowen Li, Wang, Bowen Qin, Cao, Geng, Nan Huo, Ma, Kevin C.C. Chang, Fei Huang, Cheng, Li
[The of Hong Kong & Group]
相关研究:近期的相关研究包括ACL 2021上的“Text-to-SQL for with Large ”(作者来自华盛顿大学)、EMNLP 2021上的“ Text-to-SQL with ”(作者来自加州大学圣地亚哥分校)等。
要点:
论文摘要:
这篇论文探讨了文本到SQL解析,即将自然语言指令转换为可执行SQL语句的过程,在近年来受到越来越多的关注。然而,大部分现有的基准测试,如和,都聚焦于数据库架构,只有少量数据库内容,这导致了学术研究和实际应用之间的差距。为了缩小这一差距,作者提出了一个新的基准测试——Bird,它是一个大规模数据库的文本到SQL任务基准测试,包含12,751对文本到SQL数据和95个数据库,总大小为33.4 GB,涵盖了37个专业领域。
Bird的重点是数据库值,突出了脏数据库内容、NL问题和数据库内容之间的外部知识以及SQL效率等新挑战,特别是在大规模数据库的背景下。为了解决这些问题,文本到SQL模型必须具备数据库值理解能力,除了语义解析。实验结果表明,数据库值在生成大型数据库的准确文本到SQL语句方面具有重要意义。此外,即使是最有效的文本到SQL模型,如,在执行准确度方面也只能达到40.08%,远远低于人类92.96%的结果,这证明了仍然存在挑战。此外,作者还提供了效率分析,以提供有益于工业界的文本到高效SQL语句生成的见解。
作者认为,Bird将有助于推进文本到SQL研究的实际应用。该论文的排行榜和源代码均可在
代码地址:
论文地址: