ResponsibleTA提升LLM可靠性，任务完成更安全、更高效

2023-06-23 20:21:32 机器之心

(相关资料图)

机器之心专栏

机器之心编辑部

AI 智能助手照进现实。

近几个月，ChatGPT、GPT-4 等大语言模型（LLM）展现出突破性的理解、推理、生成、泛化和对齐能力，对各行各业的研究方式和生产效率均带来广泛而深远的变革及影响。此外，LLM 还展现出在真实世界的开放场景中解决复杂问题的能力，使科幻电影中无所不能的 A I 智能助手照进了现实。

在实现自然场景中的任务自动化时，一个复杂的任务往往由多个子任务构成，这需要多个模型或 APIs 的协作。如何确保 LLM 和执行器之间高效、安全、稳定地协同工作，是构建 Responsible AI ，以及让 LLM 可靠地为人类提供服务的关键问题。

为了解决这个问题，来自微软亚洲研究院的研究团队提出 Responsible Task Automation (ResponsibleTA) 框架，提升 LLM 和执行器之间协同工作的安全性和有效性。

论文链接：/pdf/

项目主页：/responsible_task_automation/

方法

本文通过提出一个新的任务自动化框架，通过可行性检测，完成度检验，用户隐私保护等三个模块，提高了大语言模型作为任务助手的可靠性，为未来的人机交互提供了一种可行的方式。

该系统框架包含基于 LLM 的中央处理单元、指令执行器、指令可行性预测器、指令完成度检验器和安全性保护器。

Responsible Task Automation (ResponsibleTA) 框架示意图

当 ResponsibleTA 接收到复杂任务对应的高层级指令时，安全性检测自动将包含用户隐私的命令实体替换成对应的占位符，然后将去隐私化的指令发送给部署在云端的 LLM，LLM 据此规划实现该负责任务目标的单步指令，然后发送给的部署在本地的执行器实际执行相关操作。从 Responsible AI 的角度出发，该框架赋予 LLM 三个新的能力：

1）可行性预测：ResponsibleTA 框架针对 LLM 和执行器的协同，开发设计了可行性预测模块。该模块用于对 LLM 的输出进行可行性判断，及时拦截不可行的执行指令，从而规避在执行这些指令的过程中产生的不可控风险。当 LLM 输出的指令判断为「不可行」时，可行性预测期会将其分析结果返回给 LLM，并要求其重新进行任务规划，力求将合理可行性的指令交付给执行器，提升任务自动化的成功率。

2）完成度检验：ResponsibleTA 框架设计了一个完成度检验器，用于在执行器每次执行结束后自动检查其执行结果是否符合预期。该模块根据执行器执行后的即时状态，判断 LLM 当前规划是否完成，并提供及时补救的可能。当执行状态判定为「未完成」时，完成度检验器会要求 LLM 启动 replanning，使其能够及时调整任务规划。

完成度检验器和上述可行性预测器，分别在 LLM 输出指令的执行前后，对指令的合理性和执行的完成性进行校验，为任务自动化的可靠性提供了双重保险。

3）用户隐私保护：ResponsibleTA 框架还设置了用户隐私保护机制，该机制通过一个本地记忆单元实现。当用户将高层级命令发送给部署在云端的大语言模型时，ResponsibleTA 中的隐私保护模块自动将命令中的隐私信息（如：用户名、密码、地址等）替换成对应的占位符，而当大语言模型将规划的低层级指令发送给部署在本地的执行器是，占位符会被自动替换成对应的真实信息。于此方式，用户的隐私信息仅在本地被存储和被使用，无需发送至云端，从而避免在传输和使用中的不可控风险。

针对 ResponsibleTA 中的可行性预测和完成度检查功能，其研究团队在 UI 任务自动化场景下提出并对比了两种不同的技术路线，并在实验部分详细分析了这两种技术路线的特点。以可行性预测为例，第一种技术方案通过 Prompting 的方式利用大语言模型内部知识进行判断。具体地，研究者训练了一个屏幕解析模型将 UI 页面解析成所含 UI 元素的语言描述，并将和指令一起输入给 GPT-4 模型，让 GPT-4 判断当前指令的可行性。具体方案如下图所示。

基于 prompt engineering 的（指令）可行性预测器实现方案

另一种技术方案在于训练一个专用的多模态模型，该模型接收 UI 页面的视觉信号和对应的语言指令为输入，输出该指令的可行性判定结果，具体结构如下图。

基于专用模型的（指令）可行性预测器实现方案

完成度检验器的实现方案于可行性预测器类似，在此不详细赘述。

实验

该工作的作者首先对 ResponsibleTA 中的关键模块进行定性实验，验证其有效性，并对比不同实现方式的特点。据下表所示实验结果，作者认为专用模型能够提供更优的实验结果但需要收集特定任务对应的数据和标注用于模型训练，而基于 LLM 的技术方案也能达到不错的效果，并在实际部署的成本和灵活性方面具有优势。

可行性预测器和完成度检验器的定性实验结果

作者还在真实世界的实际使用场景中进行 online testing, 并汇报了基线模型，具有可行性预测器的 ResponsibleTA 框架和完整版的 ResponsibleTA 框架在 12 个实际 UI 任务执行过程中的具体表现。作者观察到所提出的可行性预测器和完成度检验器能够避免执行不可理 / 不可行的指令，并能通过让 LLM 进行 replanning 的方式进行及时补救，从而提升任务自动化的成功率。

真实世界中实例研究定量结果。表格中的数字表示「有效执行步数 / 总共执行步数（人类专家执行步数）」。

此外，作者还通过具体的案例分析直观地展现了 ResponsibleTA 框架中的关键模型如何对一个失败案例进行补救，使其成为一个成功案例。

案例分析：进入亚马逊网站并将最便宜的充电器添加至购物车。

©THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@

成为某人情人意味着什么？第一次见面该送女生什么礼物？完美解答！-快消息

国风的浪漫，美出屏幕！

【揭晓！】下半年财运旺盛的6大星座，财源滚滚来！

全球信息:市十六届人大常委会第十三次会议闭会

今日快讯：清科创业(01945)6月23日斥资4160港元回购2400股

全球快报:文化退最新公告：对《股票终止上市决定》申请复核

津媒：巴顿鼓励更多队友进国足 万达留洋球员叶子民试训津门虎|焦点滚动

环球速讯：捡漏了？Shams：火箭队用20号签选中惠特摩尔

河南迎来智能网联汽车顶级赛事！2023中国（郑州）国际智能网联汽车大赛启幕

清科创业(01945)6月23日斥资4160港元回购2400股|环球关注

[快讯]赛微电子发布解除质押公告一股东累计质押9952万股|全球今日报

注意防范！北京已有七区发布高温橙色预警-时讯

天津生态城2023小学招生划片

跨境支付初创公司Keeta获谷歌首席执行官Eric Schmidt投资1700万美元

保定入选2023—2025年度创新驱动示范市

天天短讯！同道猎聘(06100.HK)6月23日耗资258万港元回购29万股

山顶的水坑，为什么会有鱼？“千年草籽，万年鱼籽”有道理吗？答案来了

世界消息！喝醉了如何快速醒酒?

体育赛事摄影之“器”：因科技的叠加而获得巨大力量-世界热点评

每日快播：肺部肿瘤早期症状是什么

赴约巫峡口 夏“凉”点燃巴东旅游“热” 当前快看

6月21日西北电石出厂价格暂稳_每日视点

红色预警信号！河北部分地区最高气温将达40到42℃

今热点：【阳光评论】情牵山海共发展，续写合作新篇章

端午假期民俗产品销售旺盛 出行客流持续高位运行|环球新动态

北京证监局对中信建投证券股份有限公司采取出具警示函行政监管措施|要闻速递

环球要闻：选择牛仔服饰，让你365天穿搭不重样，个性而又时髦

孙杨哭了！首谈张豆豆，称不会退役，对比詹姆斯：38岁还在坚持-天天时讯

全球微资讯！视点 | 三明医改，步履不停

寻求第二增长曲线，TATA木门发布高端定制品牌TATACASA

教师节为什么定在9月10号 教师节为什么定在9月10号是纪念谁

火箭用4号签选择后卫阿门-汤普森

环球微资讯！光峰科技：车载业务已获得5个前装定点合作

每日热议!6月21日基金净值：泓德卓远混合A最新净值0.6151，跌1.57%

沉浸式体验传统文化 端午国潮消费火热

上海市青东强制隔离戒毒所举办社会开放日 中医药助力戒毒康复训练_短讯

东风风行SX6 2.0L及北汽幻速S6 1.5T CVT怎么样 天天热消息

聚焦｜青岛海牛接触归化球员阿兰 间接帮国足力争一举多得 最新快讯

法蒂卡罗是什么品牌_卡蒂罗品牌介绍_卡蒂罗是哪个公司品牌有哪些产品|天天快播

1986年属虎的人的运势，2022 1986年属虎2022的运程_环球今头条

蔚来es6整体设计很年轻新潮，前脸采用封闭式格栅设计

世界关注：向国旗敬礼做一个有道德的人手抄报该怎么画

今日看点：曝快船获布罗后仍有意签下威少：保罗会去奇才 卡椒不分家再冲冠

国乒损失惨重！2项接近全军覆没，单打9人出局，双打7对组合败北 世界简讯

【环球时快讯】上海首尔丽格磨骨哪个医生好

姜姓由来

当前热点-姿态万千是成语吗

“酸雨之都”蝶变绿色发展标杆

8.7亿元！华为成立新公司 所属行业的中国产销规模处全球之首 环球热讯

速递！屈居替补或被交易？小波特2选1！乌度卡摊牌，火箭队主控将迎巨变

环球最新：日本最大银行三菱日联金融(MUFG.US)考虑发行全球稳定币

星河地产在广州南沙落下第13子 3.06亿摘东涌镇一宗宅地 当前速读

平安公交进校园，小朋友亲身感受公交车视野盲区_环球看热讯

“亮剑浦江·消费领域个人信息权益保护专项执法行动”启动，三家餐饮企业闻错即改

“忘年交”舞出别样韵味|当前时讯

1.6美元的嵌入式Wi-Fi 6芯片来了，泰裤辣 全球资讯

当前短讯！孙大军主持召开安全生产视频调度会

世界即时：《订婚无需雕刻，送啥礼物寓意好？另推荐5个节日南瓜装饰创意》

我国累计招收博士后约34万人|快看点

每日热闻!顺治怎么死的 顺治皇帝怎么死的

天天快消息！如何使用手台

看点：端午假期首日 虹桥机场迎出入境客流高峰

环球短讯！原神探索派遣怎么完成（原神探索派遣有经验吗）

鞍钢集团与中国电信签署战略合作协议 全球快报

能进recovery模式 但启动不了（有recovery但是怎么也进不去recovery模式）|天天播报

观察：关于肖战的事件的最新消息_来扒一扒在此次277事件中肖战不发声的原因

如何练腹肌七天见效三个动作_腹肌轮效果怎么样 每日简讯

端午探访！合肥轨道在建项目最全、最新进度条来了

运能强 跑得顺 停得稳 青藏铁路将迈入动车时代 天天视点

中国团队自动驾驶大模型斩获CVPR最佳论文；Stability AI推出新文生图模型；京东...

观天下！特斯拉每日播报（6月21日）

23.4万起售比亚迪“大号海豚”登陆英国

世界焦点！邻里互助插秧忙

湖州市高端装备制造实习实训基地入选国家职业教育产教融合典型案例_环球关注

内线交易时间_内线交易

支付宝极小安装包测评任务暂停

世界快看点丨中蒙跨境金融合作论坛在蒙古国举行

物业服务合同纠纷属于经济纠纷案件 最新资讯

2023年度中国火锅连锁品牌TOP30|每日资讯

一步一步教画汉堡?-世界资讯

津媒：巴顿鼓励更多队友进国足万达留洋球员叶子民试训津门虎|焦点滚动

赴约巫峡口夏“凉”点燃巴东旅游“热” 当前快看

端午假期民俗产品销售旺盛出行客流持续高位运行|环球新动态

教师节为什么定在9月10号教师节为什么定在9月10号是纪念谁

沉浸式体验传统文化端午国潮消费火热

上海市青东强制隔离戒毒所举办社会开放日中医药助力戒毒康复训练_短讯

东风风行SX6 2.0L及北汽幻速S6 1.5T CVT怎么样天天热消息

聚焦｜青岛海牛接触归化球员阿兰间接帮国足力争一举多得最新快讯

今日看点：曝快船获布罗后仍有意签下威少：保罗会去奇才卡椒不分家再冲冠

国乒损失惨重！2项接近全军覆没，单打9人出局，双打7对组合败北世界简讯

8.7亿元！华为成立新公司所属行业的中国产销规模处全球之首环球热讯

星河地产在广州南沙落下第13子 3.06亿摘东涌镇一宗宅地当前速读

1.6美元的嵌入式Wi-Fi 6芯片来了，泰裤辣全球资讯

每日热闻!顺治怎么死的顺治皇帝怎么死的

看点：端午假期首日虹桥机场迎出入境客流高峰

鞍钢集团与中国电信签署战略合作协议全球快报

能进recovery模式但启动不了（有recovery但是怎么也进不去recovery模式）|天天播报

如何练腹肌七天见效三个动作_腹肌轮效果怎么样每日简讯

运能强跑得顺停得稳青藏铁路将迈入动车时代天天视点

物业服务合同纠纷属于经济纠纷案件最新资讯

威海市总工会：笃行不怠写辉煌踔厉奋进续华章

焦点讯息：2023年湖南省退休工资上调最新消息公布时间湖南省2023退休金每月能涨多少钱

输血79亿！中东巨鳄看上蔚来天天微资讯

每个人都是自己的“主角”，现代京剧《主角》即将上演天天速讯

打造标杆绿色建筑台泥大陆运营总部封顶

湖湘自然历｜石韫玉而山晖㉓能焊接黄金的凤凰石环球热头条

政府推出三地段开启裕廊湖区120公顷新地区发展|每日观察

每日热文：晚上为什么不能刮痧晚上为什么不能刮痧拔罐

山东银湾物业在河北设立保洁服务公司持股100％环球消息

庆祝圣帕特里克节，男友纠结女友生日是否送礼？这9种有趣方式将给你不一样的灵感！15至25个汉字天天即时

到山东半岛最东端感受云端的浪漫_全球视讯

非洲观察丨美元霸权危害非洲经济多国人士呼吁“去美元化”

段奕宏首次当评委，只为高级感作品投票时讯

居民驾车偶遇东北虎一家散步被堵已经第二次偶遇“拦路虎”！

香港通讯国际控股(00248)发盈警预计年度股东应占亏损将同比扩大至约2000万港元

【环球时快讯】未来7年拥有10+首轮签的球队：雷霆&爵士均15个最多马刺12个

【财经分析】高通胀未得到遏制市场预计英国央行将继续加息进程