Jigsaw Datasets：提升程序合成研究的实用工具

admin

Jigsaw数据集是专为研究程序合成与大型语言模型（LLM）交互而设计的数据集。本文将详细介绍Jigsaw数据集的组成、结构以及如何利用这些数据支持程序合成的研究。

Jigsaw数据集概览

Jigsaw项目包含两个主要的数据集，都在相关论文《Jigsaw: Large Language Models meet Program Synthesis》中有详细描述：

PandasEval1 – 由论文作者收集，包含68个条目。
PandasEval2 – 通过两次黑客马拉松用户研究会议收集，涵盖21个独特的任务。每个任务包含多个具有细微差别的集合，例如标量/常数差异，某些任务的集合在语义上有所不同。每个任务最多有5种变体/集合，每个集合包含多种自然语言的变体，共计725个条目。

数据集结构

Jigsaw数据集的结构非常清晰，具体包括：

最外层： 包含唯一任务ID的键值对。
任务层： 每个任务包含不同集合的键值对。
集合层： 每个集合包括：
- 用户编写的查询列表及其用户ID。
- 一个或多个输入输出（IO）示例，每个示例都是一个字典，包含：
  - 输入的代码片段。
  - 输出的代码片段。
  - 输入与输出的对应名称。
- 一个或多个正确的解决方案。

数据集的应用

Jigsaw数据集的设计支持程序合成领域的研究，尤其适用于研究LLM在程序代码生成中的应用。通过分析这些数据，研究人员可以更好地理解LLM如何处理各种编程任务，以及如何优化模型以提高其效率和准确性。

温馨提示：

文章标题：Jigsaw Datasets：提升程序合成研究的实用工具

文章链接：https://yuntunft.cn/38438.html

更新时间：2024年07月05日

给TA打赏

共{{data.count}}人

人已打赏

AI 开源项目

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部