基于序列标注的合同智能审核应用实践.docx
《基于序列标注的合同智能审核应用实践.docx》由会员分享,可在线阅读,更多相关《基于序列标注的合同智能审核应用实践.docx(13页珍藏版)》请在第壹文秘上搜索。
1、基于序列标注的合同智能审核应用实践“十四五”规划和2035年远景目标纲要提出要“加快数字化发展,建设数字中国“,将数字化战略地位和建设内容提到了前所未有的高度。数字化经济成为社会经济发展的重要驱动力,也是银行业转型发展的新一轮机遇,推动银行业数字化转型升级和金融科技水平提升,重点在于加强科技创新与传统业务深度融合。银行业金融活动过程中产生了海量的信息资源,其中相当一部分是难以直接利用的非结构化文本数据。长期以来,对这些数据的审核与筛查主要依靠人工操作,但这项工作对审核人员的要求比较高、费时费力、效率低下。华夏银行积极开展数字科技转型升级,推进人工智能技术在金融业务中的广泛应用,创新使用自然语言
2、处理(NaturalLanguageProcessing,简称NLP)技术自动识别文档中的敏感信息,包括特殊名词、风险词汇和短句子等关键信息,达到提示潜在风险,高效应对审阅、查找、校对等复杂工作的目标,赋能经营发展。本文将以合同审核业务为例,介绍利用序列标注技术开展关键词识别和提取的应用实践。关键技术在整个实践过程中,我们特别注意关键技术的梳理、总结和提炼,包括基本概念、主流方法、基本原理等。这些对于应用实践快速落地和场景进一步拓展具有重要的指导意义。L序列标注的概念序列标注就是给定一个序列,对序列中的每一个元素打上一个标签,是NLP中一个重要的任务,它包括分词、词性标注、命名实体识别等。其中
3、,命名实体识别(NamedEntityRecognition,简称NER),是指从文本数据中识别出具有特定意义的实体,如人名、地名、公司名等。命名实体识别是信息抽取、智能问答、机器翻译等应用的重要技术支撑。2 .基于规则和统计机器学习的方法早期的NER任务大多采用基于规则和统计机器学习的方法。基于规则的方法利用手工编写的规则,将文本与规则进行匹配来识别出命名实体。其优点是规则模板的构建相对简单、容易实现、准确率也较高。其缺点是严重依赖于专家知识,人工编写规则工作量太大,且人工构建模板不可能包含所有的识别规则,模型的可移植性较差。统计机器学习方法将NER看作序列标注问题,利用机器学习的相关算法训
4、练模型,对句子的各个位置进行标注,常用的算法有SVM、HMM、CRF等。其优点是模型计算复杂度较低、泛化性更好,缺点是特征工程的好坏将直接影响模型效果。3 .基于词嵌入和深度学习的方法近年来,随着词嵌入(WOrdEmbedding)和深度学习技术的兴起,不少学者将深度神经网络(RNN、LSTM.GRU等)应用到序列标注任务中,在多种公开大规模的数据集上都取得了不错的实验效果。该方法以词向量作为系统输入,通过神经网络自动提取特征,预测每个位置的标签。其优点是模型可以自动获取特征无需人工干预,缺点是需要大量标注训练数据、对每个位置标签的预测过程是独立的,缺少上下文信息可能预测出非法的标签序列。4
5、.BERT+BI-LSTM+CRF公开的NER工具有很多,包括NLTK、Spacy、LTP等等,它们都有内置预先训练好的模型,可以识别出句子中人名、地名等基础实体,像Spacy工具还能通过加载自己数据训练新的NER模型,使用上非常便捷,但模型精度较差,而且不能满足用户个性化需求。本文使用预训练语言模型、深度神经网络和统计机器学习相结合的模型BERT+BI-LSTM+CRF解决序列标注问题。模型共包含3层,每一层各有其特点和优势,结构如图1所示。BERT层将输入句子中的每个单元(字或词)转换为计算机能处理的数值型向量格式。BERT预训练语言模型采用双向Transformer结构进行特征抽取,使用
6、大规模语料在MLM(MaskedLanguageModel)和NSP(NextSentencePrediction)两个任务中进行训练,计算词与这句话中所有词的相互关系,进而获取该词融合了上下文特征的动态表征,具有更好的语义表示能力。BI-LSTM层通过神经网络为每个输入单元预测对应的标签概率。LSTM是一种特殊的循环神经网络,能有效地解决长序列训练过程中的梯度消失和梯度爆炸问题,但是由于其网络结构是单向的,只考虑了上文信息而忽略了下文信息对模型的影响,因此可以再加入一个反向LSTM层,逆序获取下文信息构成一个双向长短期记忆网络(BidireCtiOnaILongshort-termmemor
7、y,简称BI-LSTM),Bl-LSTM模型可以充分学习当前字的上下文信息,从而更好地判断当前输入的标签概率。CRF层构建一个转移矩阵来表示标签从一个状态转移到另一个状态的概率,并选择计算得分最高的标签序列作为最佳答案。CRF是一种由无向图表示的联合概率分布模型,能在给定一组输入随机变量条件下求另一组输出随机变量的条件概率分布。CRF模型可以通过训练语料,学习到标签之间的约束规则,从而过滤掉很多无效的标签序列。比如,采用BK)标注法对句子进行标注时,句子的第一个标签只能是“B”或者“0”,不能是“I”;标签“只能出现在标签“B”之后,不能单独出现,也不能出现在其他标签后面。应用实践L数据标注训
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 序列 标注 合同 智能 审核 应用 实践
