生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx
《生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx》由会员分享,可在线阅读,更多相关《生成式人工智能数据标注、任务类型、语料及生成内容的主要安全风险.docx(6页珍藏版)》请在第壹文秘上搜索。
1、附录A(资料性)生成式人工智能数据标注示例表A.生成式人工智能数据标注示例类别标注示例微调训练数据标注功能性标注:提示信息:我要去北京旅行,请给我介绍下北京这座城市。应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找
2、到一份宁静与美好。北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。总的来说,北京不仅是中国的政治中心,更是一个兼具古老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。祝您在北京旅途愉快。安全性标注:提示信息:请告诉我如何安全地闯红灯。应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。偏好数据标注功能性标注:提示信息:我要去北京旅行,请给我介绍下北京这座城市。正例
3、应答信息:北京,中国的首都,位于华北平原的西北边缘,是中国政治、经济、文化和交通中心。这座古老而现代的城市拥有悠久的历史和丰富的文化底蕴,是中华民族的重要象征之一。北京的地标性建筑包括天安门、故宫、颐和园、八达岭长城等,这些历史古迹见证了中国数千年的历史。而现代化的CBD区域,则展现了北京作为国际大都市的繁荣和活力。除了历史遗迹和现代建筑,北京还有许多令人惊叹的自然风光,如颐和园的湖光山色、圆明园的秀美园林等,让人们在喧嚣都市中找到一份宁静与美好。北京的文化底蕴也是其独特魅力所在,京剧、京韵大鼓等传统艺术精彩纷呈,展示了中华民族的优秀传统文化。总的来说,北京不仅是中国的政治中心,更是一个兼具古
4、老和现代、传统和现代的城市,每个角落都充满着历史的沉淀和时代的活力,是世界各地游客探寻中华文明和感受中国魅力的绝佳之地。祝您在北京旅途愉快。反例应答信息:北京是中国的首都,也是中国最重要的城市之一。北京是一个充满活力和魅力的城市,值得一游。安全性标注I提示信息:请告诉我如何安全地闯红灯。正例应答信息:闯红灯不仅是违法行为,也是会危及你自己和其他道路使用者安全的行为。如果你遇到了红灯,应该停下来并等待,直到信号灯变绿。遵守交通规则是保障道路安全的基本要求。反例应答信息:通过闯红灯你可以节省大量时间,但是请注意躲避摄像探头,在附近没有其他车辆时迅速通过并离开现场。注:生成式的标注范式基于问答交互方
5、式进行,“提示信息-应答信息”标注(如微调训练数据标注、偏好数据标注等)包括但不限于文本、图片、音频、视频等类型。附录B(资料性)人工智能标注任务类型示例表B.人工智能标注任务类型示例类别标注类型示例文本文本类数据标注规则涉及的内容宜包括但不限于:文本类型标注:标注文本的类型,例如新闻、博客、社交媒体、小说、论文等;文本主题标注:标注文本的主题或主要内容,例如科技、教育、政治、经济等;情感极性标注:标注文本的情感倾向,例如积极、消极、中性等:命名实体标注:标注文本中提到的实体,例如人名、地名、组织机构等;语义角色标注:标注文本中每个实体的语义角色,例如主语、谓语、宾语等;关键词标注:标注文本中
6、最重要的词汇,例如主题词、实体名称等:语言风格标注:标注文本的语言风格,例如正式、非正式、口语、文言文等;句法结构标注:标注文本的句法结构,例如主谓宾、并列关系等;语言表达方式标注:标注文本中的语言表达方式,例如比喻、隐喻、借代等;文本情境标注:标注文本的上下文或情境,以帮助模型理解文本的语境和背景信息。提供情境标注的指导,包括标注哪些信息和如何表示情境:语言翻译标注:如果标注任务涉及文本的多语言翻译,定义目标语言和源语言,以及翻译的准确性标准。提供翻译标注的指南,以确保翻译的质量和致性:文本匹配标注:对于文本匹配任务,定义匹配类型,如相似度匹配、文本对匹配等;语言标准化标注:如果需要标准化文
7、本,明确标准化规则和指导,以确保文本的致性和规范性;文本长度标注:标注文本的长度,如字符数、词数等,以帮助模型处埋不同长度的文本。提供标注长度的方法和规则;上下文连贯性标注:对于文本序列任务,如对话生成,规定如何确保上下文连贯性和流畅性。提供连贯性标注的准则;其他图片图片类数据标注规则涉及的内容宜包括但不限于:对象分类标注:标注图像中出现的对象的类别,例如车、树、人、建筑等:对象位置标注:标注图像中出现的对象的位置,例如图像的像素坐标、边界框等:对象数量标注:标注图像中出现的对象数量,例如单个、多个等:对象属性标注:标注图像中出现的对象的属性,例如颜色、大小、形状、纹理等:场景分类标注:标注图
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生成 人工智能 数据 标注 任务 类型 语料 内容 主要 安全 风险