基于LSTM-SNP的命名实体识别
Named Entity Recognition Based on the LSTM-SNP
Corresponding author: CHEN Xiaoliang,chenxl@mail.xhu.edu.cn
-
摘要: 脉冲神经P系统(SNPs)是抽象于生物神经元信息交互机制的高效并行计算系统。LSTM-SNP首次结合非线性SNP和长短期记忆神经网络(LSTM),从而形成门控机制可解释的深度学习通用模型。LSTM-SNP作为传统序列分析模型LSTM的最新变体,在处理典型自然语言处理序列分析问题的性能表现未见相关研究。文章以命名实体识别任务为基础,通过在LSTM-SNP上增补不同的深度学习组件,对LSTM-SNP与传统LSTM以及其变体BiLSTM的性能差异进行了全面分析,为在自然语言处理任务中使用LSTM-SNP模型提供可靠的改进参考。通过以CoNLL-2003和OntoNotes5.0为标准数据集的对比实验,发现:LSTM-SNP模型与LSTM模型具有类似的实体识别性能,但随着预处理的操作,LSTM-SNP模型的整体性能提升更为显著;LSTM-SNP模型对命名实体的识别是一种行之有效的方法,且具有较大的应用潜力。
-
关键词:
- LSTM-SNP模型 /
- 命名实体识别 /
- 模型性能测评
Abstract: Spiking neural P systems (SNPs) are efficient parallel computing systems abstracted from the mechanism of information exchange between biological neurons. For the first time, LSTM-SNPs combine nonlinear SNPs and long short-term memory (LSTM) to form a universal deep learning model that gating mechanisms can explain. LSTM-SNPs, the latest variant of the traditional sequence analysis model LSTM, has yet to be studied on the performance of typical sequence analysis in natural language processing. This paper comprehensively analyzes the performance difference in the named entity recognition tasks between LSTM-SNPs, traditional LSTMs, and its variant BiLSTM by adding different deep learning components. The study provides a reliable reference for applying the LSTM-SNP model in natural language processing tasks. The results of comparative experiments based on CoNLL-2003 and OntoNotes 5.0 data sets indicate the LSTM-SNP model has a similar entity recognition performance to the LSTM model. In further research,the overall model performance can be improved significantly with the pretreatment operation. The results show the LSTM-SNP model is an effective method for named entity recognition and has great application potential. -
脉冲神经P系统(SNPs)是从生物信息学的神经元之间的脉冲通信机制中抽象出来的一类分布式并行计算模型[1]。1个脉冲神经P系统,通常由4个基本元素构成:结构、数据、规则集和对规则的控制方法[2]。结构细分为膜结构和数据结构2部分。膜结构由有向图进行刻画,其中图的节点和边分别表示神经元和神经元间的突触。数据结构形式化为脉冲多重集。1个神经元的内部机制包含脉冲和规则。系统中的数据一般是由神经元的脉冲统计个数来描述。规则是脉冲神经P系统完成信号传递的核心[3]。SNP系统的规则分为2个类别:脉冲规则和遗忘规则[4]。前者又叫作点火规则,表示消耗脉冲且同时产生新脉冲,后者仅消耗而不会产生新脉冲。
与传统SNP系统的区别在于,非线性脉冲神经P系统(NSNPs)[5]通过预定义的神经元状态非线性函数实现脉冲的消耗和产生。因此,NSNP系统适用于捕获复杂系统中的非线性特征。长短记忆神经网络(LSTMs)[6]属于循环神经网络(RNNs)的变体。1个LSTM模型包含1个隐藏状态和3个门结构(遗忘门、输入门和输出门),共同实现神经元信息传递的调节。受到NSNP系统脉冲和遗忘规则的启发,Liu等 [7]基于LSTM模型提出了新的循环神经网络模型,即LSTM-SNP模型。该模型只由一个非线性脉冲神经元组成,具有非线性脉冲机制(非线性脉冲消耗和产生)和非线性门函数(重置、消耗和生成)。
循环模式可以较好地解决序列分析问题,例如,时间序列的预测。然而LSTM-SNP作为传统序列分析模型LSTM的最新变体,在处理典型自然语言处理序列分析问题,如命名实体识别(NER)的性能表现未见相关研究。本文将序列分析模型LSTM-SNP用于解决命名实体识别任务,通过添加不同的深度学习组件,模型的性能得到显著的提升,同时,设计了多组对比实验,比较LSTM-SNP模型、传统的LSTM和双向长短记忆网络(BiLSTM)的性能。
1. 相关工作
本文旨在研究LSTM-SNP模型在命名实体识别任务上的适应性问题,以评估模型在自然语言处理底层任务中的性能和潜力。命名实体识别任务是指在不规则文本中识别具有代表性的特定实体。其主要研究策略、方法根据时间的先后顺序分为:基于规则、基于机器学习和基于深度学习。
)基于规则的命名实体处理,以语法为基础。Etzioni等[8]和Wang等[9]分别提出了基于地名词典和基于词汇句法模式引用规则的2种经典方法。这类方法具有设计简单、复杂性低等优点,但识别效果严重依赖领域专家对语料库的标注[10]。此外,在处理大规模数据集时基于规则的模型性能具有局限性。
)机器学习已经成为研究命名实体识别的主流技术。该任务在机器学习领域被定义为多分类序列标注问题。主要技术包括最大熵(MaxEnt)、支持向量机(SVMs)、隐藏马尔可夫模型(HMMs)、条件随机场(CRFs)等。Makino等[11]基于语音和单词形式构建了系列人工特征,继而用HMM提取特征,将其合并,并使用SVM计算实体识别结果。Krishnan等[12]利用2个CRFs来提取实体识别中的局部特征,并输出由逻辑前向CRF提取的特征信息。这些模型克服了基于规则的缺陷,然而,由于无法捕获更多的上下文信息,当面对句子过长的场景会导致模型性能的降低。
)近期一些文献强调了神经网络方法在解决NER问题中的作用,包括长短期记忆神经网络(LSTMs)、卷积神经网络(CNNs)及其变体。神经网络方法避免了手动特征提取。Luo等[13]提出了一个基于注意力的具有CRF层的双向长短期记忆神经网络(Att-BiLSTM-CRF),继而训练一个高准确度的模型来识别已命名的实体。Li等[14]建立的BiLSTM-CNN模型表明,CNN作为模型组件可以显著提高实体识别的精度。Li等[15]提出了一种新的替代方法W2NER,它将NER建模为词—词关系分类。此外,Bert、LSTM和多重二维扩展卷积(DConv)的有机组合可以较优地处理NER问题。
2. LSTM-SNP模型实验设计
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
2.1 LSTM-SNP模型结构
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
由于使用了sigmoid型函数,LSTM能够有效地选择放弃和保留的信息。3个门控单元的连接与控制的计算公式为:
$ \left.\begin{aligned}&{{\boldsymbol{f}}}_{t}=\sigma ({{\boldsymbol{W}}}_{f}\cdot [{h}_{t-1}\text{,}{x}_{t}]+{{{b}}}_{f})\\ &{{\boldsymbol{i}}}_{t}=\sigma ({{\boldsymbol{W}}}_{i}\cdot [{h}_{t-1}\text{,}{x}_{t}]+{{{b}}}_{i})\\ &\tilde {\boldsymbol{C}}_{t}={{\rm{tan}}}{\rm{h}}({{\boldsymbol{W}}}_{c}\cdot [{h}_{t-1}\text{,}{x}_{t}]+{{{b}}}_{c})\\ &{{\boldsymbol{C}}}_{t}={{\boldsymbol{f}}}_{t}*{{\boldsymbol{C}}}_{t-1}+{{\boldsymbol{i}}}_{t}*\tilde {\boldsymbol{C}}_{t}\\ &{{\boldsymbol{o}}}_{t}=\sigma ({{\boldsymbol{W}}}_{o}\cdot [{h}_{t-1}\text{,}{x}_{t}]+{b}_{o})\\ &{{\boldsymbol{h}}}_{t}={{\boldsymbol{O}}}_{t}*{{\rm{tan}}}{\rm{h}}({{\boldsymbol{C}}}_{t})\end{aligned}\right\} $
(1) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
$ \left.\begin{array}{c}{{\boldsymbol{r}}}_{t}=\rho ({{\boldsymbol{W}}}_{r}\cdot {{\boldsymbol{x}}}_{t}+{{\boldsymbol{U}}}_{r}\cdot {{\boldsymbol{u}}}_{t-1}+{b}_{r})\\ {{\boldsymbol{c}}}_{t}=\rho \left({{\boldsymbol{W}}}_{c}\cdot {{\boldsymbol{x}}}_{t}+{{\boldsymbol{U}}}_{c}\cdot {{\boldsymbol{u}}}_{t-1}+{b}_{c}\right)\\ {{\boldsymbol{o}}}_{t}=\rho ({{\boldsymbol{W}}}_{o}\cdot {{\boldsymbol{x}}}_{t}+{{\boldsymbol{U}}}_{o}\cdot {{\boldsymbol{u}}}_{t-1}+{b}_{o})\end{array}\right\} $
(2) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
$ {{\boldsymbol{\alpha}} }_{t}=f\left({{\boldsymbol{W}}}_{\alpha }\cdot {{\boldsymbol{x}}}_{t}+{{\boldsymbol{U}}}_{\alpha }\cdot {{\boldsymbol{u}}}_{t-1}+{b}_{\alpha }\right) $
(3) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
$ \left.\begin{aligned}&{{\boldsymbol{u}}}_{t}={{\boldsymbol{r}}}_{t}\odot {{\boldsymbol{u}}}_{t-1}-{{\boldsymbol{c}}}_{t}\odot {\boldsymbol{\alpha}} \left(t\right)\\ &{{\boldsymbol{h}}}_{t}={{\boldsymbol{o}}}_{t}\odot {{\boldsymbol{\alpha}} }_{t}\end{aligned}\right\} $
(4) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
2.2 LSTM-SNP-CRF模型
Lafferty等[16]在2001年提出条件随机场(CRFs)。CRF是统计关系学习的重要框架,具有较强的描述、逻辑推理,以及对不确定性的处理能力。作为典型的判别模型经常被构造为NER或其他NLP学习模型的增强组件。本节阐述LSTM-SNP和CRF组件的兼容性,目的在于研究CRF组件能否在NER任务中提高LSTM-SNP的识别准确性。
本文选择LSTM和BiLSTM 这2个模型作为LSTM-SNP模型的参照实验组,通过实体识别精度来评估3个模型对CRF层的性能提高敏感性。模型的处理流程为首先将文本经过词嵌入转换为特征向量,然后分别送入LSTM-SNP、LSTM、BiLSTM 这3个模型获取词语之间的关系特征,最后将其输入到CRF处理层,获得标签的分值,最大分值对应的标签即为模型认定的标签。模型整体处理流程如图3所示。LSTM-SNP层的功能与LSTM层和BiLSTM层的功能相同。这3层都是用来提取句子的特征。LSTM-SNP层将依次被LSTM或BiLSTM层取代,用于CRF敏感性比较。这些模型使用了BIO(begin,inside,outside)标签方案。
2.3 GloVe-CNN- LSTM-SNP模型
本节提出带有GloVe[17]和卷积神经网络(CNN)[18]的LSTM-SNP的整体体系架构,如图4所示。LSTM-SNP、LSTM-SNP-CRF这2种模型中的嵌入表示仅采用了独热编码连接层。这种嵌入方法会造成编码稀疏、维度大、词间相似性反应能力弱等问题。因此,LSTM-SNP在命名实体识别任务的有效性有待进一步的实验证明。区别于传统LSTM-SNP,本文采用了更高效的特征提取方法,具体分为基于词级别的特征提取和字符级别的特征提取。词级别的特征通过词嵌入方法GloVe以及手动定义词大小写特征的方法分别获取语言特征和词大小写信息。基于字符级别的特征提取是通过卷积神经网络CNN以获得词更加细粒度的特征表示。CNN模型提取单词的字符级特征的过程如图5所示。模型将GloVe向量、CNN向量和单词大小写信息向量通过拼接操作相结合,并通过LSTM-SNP层进行处理。同时,为了验证LSTM-SNP模型在实际应用中的优越性,本文将LSTM-SNP层分别替换为LSTM层和BiLSTM层用于性能比对。下面将基于词级别和字符级别介绍各项特征提取技术。
2.3.1 基于词级别的语义特征提取
近年来,一些工具,如word2vec和GloVe,已被广泛应用于命名实体识别(NER)。GloVe是一种用于获取词的向量表示的无监督学习算法。简而言之,GloVe允许获取文本语料库,并将该语料库中的每个单词直观地转换为高维空间位置。 这意味着相似的词将被放在一起,而这一技术也是词嵌入技术的重要组成部分。本文受到Chiu等 [18]的启发,提出了一种基于预训练的字符嵌入方法,将来自维基百科和网络文本的60亿个单词作为训练资料,设计了一组基于GloVe embeddings3[17]的对比实验。
2.3.2 基于词级别的大小写信息特征提取
因为在使用GloVe词嵌入方法时会丢失大量的字母大写信息,所以本文借鉴Collobert[18]的方法获取词嵌入过程缺少的信息。该方法使用一个单独的查找表来添加大写选项:全为大写、初始大写、初始小写、大小写混合、其他。
本文的GloVe-CNN-LSTM-SNP模型应用了Collobert等[18]的方法以在单词嵌入期间获得词语大小写信息,同时将该查找表选项扩展。选项包括:所有字母全小写、所有字母全大写、仅首字母大写、全为数字、多部分为数字、少部分数字(包含数字)、 其他、填充标记这8个选项。将此选项表命名为查找表C中,用于做基于词级别的单词大小写信息嵌入。
2.3.3 基于字符级别的特征提取
CNNs[18]是当前深度学习技术中最具有代表性的一种神经网络结构,近年来受到了众多学科的广泛关注。实验设置通过采用CNN技术,从英文文本资料中提取指定实体的字符级特征。
英语中的单词通常由细粒度的字母构成,CNN技术被用于处理这些字母。这些字母包含了诸如前缀/后缀等隐藏特征。对于不同类型的字符,实验设置了不同的随机字符向量,以区分字符和字符类型(字母、数字、标点符号、特殊字符等)。例如,大写字母‘A’和小写字母‘a’对应于2组不同的字符向量集。图5展示了CNN从一个单词中提取字符级特征的过程。
结合词级别和字符级别的特征表示,并将2种级别的特征表示向量进行拼接,得到完整的单词嵌入表示。该词嵌入表示包括了词的语言相关特征、词语的字符特征、词的大小写信息。图6展示了在GloVe和LSTM-SNP基础上加入CNN模块后的整体模型,即完整的GloVe-CNN-LSTM-SNP模型。LSTM-SNP层的功能与LSTM层和BiLSTM层的功能相同。这3层都是用来提取句子的特征。LSTM-SNP层将依次被LSTM或BiLSTM层取代,用于比较3种模型对于CNN的敏感程度。
3. 实验分析
3.1 数据集
本研究优先采用2个经典的命名实体识别数据集CoNLL-2003和OntoNotes5.0,对基于CRF、基于GloVe和基于CNN的LSTM-SNP模型性能进行评估。所有的数据集都可以在网站公开获得。CoNLL-2003数据集可以通过文献[19]网站下载。OntoNotes5.0数据集可以通过文献[20]网站下载。关于数据集的训练测试和验证集的句子数量划分如表1所示。
3.2 评估标准
根据前期工作[21],为正确评估LSTM-SNP在命名实体识别任务中使用CRF、CNN和GloVe时模型的有效性,本文选择了NLP领域的通用评估度量系统,即精度(P)、召回率(R)和准确率(Acc)。测试样本被分为实际的实体类别和预测的实体类别。实验结果分为4类,如表2所示。预测的实体代表由模型得出的实体标签,实际的实体代表人工标注的真实标签。
表 1 语料库句子统计Table 1. Corpus sentence statistics数据集 全集 训练集 验证集 测试集 CoNLL-2003 20744 17291 — 3453 OntoNotes5.0 76714 59924 8528 8262 表 2 混淆矩阵Table 2. Confusion matrixsActual entities Predicted entities Positive Negative Positive TP FN Negative FP TN 本文采用的精度(P)、召回率(R)和准确率(Acc)定义为:
$ P=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}}\times 100\mathrm{\%} $
(5) $ R=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{N}}\times 100\mathrm{\%} $
(6) $ {\rm{Acc}}=\frac{\mathrm{T}\mathrm{P}+\mathrm{T}\mathrm{N}}{\mathrm{T}\mathrm{P}+\mathrm{T}\mathrm{N}+\mathrm{F}\mathrm{P}+\mathrm{F}\mathrm{N}}\times 100\mathrm{\%} $
(8) 式中:TP(true positive)表示模型正确地将一个实体标记为正类, 即模型正确地将一个实体标记为实体,并且这个实体与真实标签一致;FN(false negative)表示模型错误地将一个实体标记为负类,即模型没有将一个实体标记为实体,或者将实体标记为了错误类型;FP(false positive)表示模型错误地将一个非实体标记为正类,即模型将一个非实体错误地标记为了实体;TN(true negative)表示模型正确地将一个非实体标记为负类,即模型正确地将一个非实体标记为非实体。
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
$ {P_{{\rm{macro}}}}\text{= average}\left({P}_{1}\text+{{P}}_{2}{+ \cdots +}{{P}}_{n}\right) $
(9) $ {R_{{\rm{macro}}}}\text{= average}\left({R}_{1}\text+{{R}}_{2}{+ \cdots +}{{R}}_{n}\right) $
(10) ${F}_{1{\rm{macro}}}=\frac{2\times P_{{\rm{macro}}}\times R_{{\rm{macro}}}}{P_{{\rm{macro}}}+R_{{\rm{macro}}}} $
(11) This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
3.3 参数配置
根据LSTM-SNP、LSTM和BiLSTM的模型结构,首先在实验中实现了这3种模型。当对比实验依次添加CNN和GloVe作为嵌入模型时,模型的内部参数保持不变。
LSTM-SNP模型除了需要学习的权重矩阵和偏差向量外,还有一些通过实验确定的先验参数,包括迭代计数(iterations)、Dropout率和神经元数量(neurons)。
This page contains the following errors:
error on line 1 at column 67: Extra content at the end of the documentBelow is a rendering of the page up to the first error.
图7This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
当迭代次数和提前停止次数为15-5、Dropout率为50%时,设置不同的神经元个数(32、64、128、256和512)进行实验。如图9所示的当前结果发现,神经元数量设为256有利于模型训练。
3.4 对比实验结果分析
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
表 3 对比实验设置Table 3. Contrast experiment settings组别 本文模型 对比模型1 对比模型2 A组 LSTM-SNP LSTM BiLSTM B组 LSTM-SNP-CRF LSTM-CRF BiLSTM-CRF C组 GloVe-LSTM-SNP GloVe-LSTM GloVe-BiLSTM D组 GloVe-CNN-LSTM-SNP GloVe-CNN-LSTM GloVe-CNN-BiLSTM 表 4 LSTM-SNP、LSTM、BiLSTM在数据集CoNLL-2003和OntoNotes5.0的性能结果Table 4. Performance results of LSTM-SNP, LSTM, and BiLSTM in the dataset CoNLL-2003 and OntoNotes5.0组别 Models CoNLL-2003 OntoNotes5.0 P R F1macro P R F1macro A LSTM-SNP 77.25 69.82 73.35 40.50 38.16 39.30 LSTM 76.45 68.66 72.35 40.05 38.77 39.40 BiLSTM 83.19 72.01 77.20 61.29 54.24 57.55 B LSTM-SNP-CRF 82.20 70.94 76.16 65.16 55.51 59.95 LSTM-CRF 82.18 71.37 76.40 65.38 55.18 59.85 BiLSTM-CRF 84.10 71.55 77.32 79.25 76.89 78.05 C GloVe-LSTM-SNP 83.25 72.22 77.34 79.25 69.00 73.77 GloVe-LSTM 82.32 80.55 81.41 79.25 76.89 78.05 GloVe-BiLSTM 86.38 84.90 85.63 82.42 80.74 81.57 D GloVe-CNN-LSTM-SNP 76.72 79.65 78.12 74.42 75.85 75.12 GloVe-CNN-LSTM 81.55 81.55 81.55 78.55 78.74 78.64 GloVe-CNN-BiLSTM 84.96 87.00 85.96 81.12 82.68 81.89 3.4.1 基于A、B、C、D组的实验分析
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
3.4.2 种模型的消融实验分析
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
需要指出的是,数据集CoNLL-2003的数据量相对于数据集OntoNotes5.0来说较小。数据集CoNLL-2003大约是数据集OntoNotes5.0的3.5倍。因此,模型LSTM-SNP、LSTM与BiLSTM相比,LSTM-SNP和LSTM对数据集的质量和数量更为敏感。
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
This page contains the following errors:
error on line 1 at column 1: Start tag expected, '<' not foundBelow is a rendering of the page up to the first error.
4. 总结与展望
本文旨在评价LSTM-SNP模型在序列问题(命名实体识别)应用中的有效性。同时,为了探索LSTM-SNP模型是否具有在自然语言处理领域的研究潜力,本文在LSTM-SNP模型以及其对比模型LSTM和BiLSTM中有序添加了一些深度学习组件,包括CRF、单词嵌入等,以对比组件对不同模型的性能提升幅度,从而为LSTN-SNP模型的未来研究提供可靠数据参考。
实验表明,传统LSTM-SNP模型在命名实体任务中的性能与LSTM模型基本相似,但与BiLSTM的良好性能仍存在一定的差距。此外,实验发现,LSTM-SNP模型受数据集领域知识的影响较大。在LSTM-SNP模型中加入CRF、词嵌入和CNN,该模型的性能有了显著的提高。加入词嵌入、CNN等特征预处理模块可以极大地改善模型的总体性能。总体而言,LSTM-SNP模型在命名实体识别任务中具有潜力,并且有比较大的改进空间。
未来的工作将考虑使用LSTM-SNP模型提取实体局部特征。本文仅考虑了实体上下文特征,其粒度不够细腻。因此,将注意机制引入到LSTM-SNP模型中,利用注意机制来提取局部特征[22],从而实现对命名实体识别有较大影响权重特征的重点关注。同时,考虑实现多层或双向的LSTM-SNP模型,以提高模型提取特征的能力。
-
表 1 语料库句子统计
Table 1 Corpus sentence statistics
数据集 全集 训练集 验证集 测试集 CoNLL-2003 20744 17291 — 3453 OntoNotes5.0 76714 59924 8528 8262 表 2 混淆矩阵
Table 2 Confusion matrixs
Actual entities Predicted entities Positive Negative Positive TP FN Negative FP TN 表 3 对比实验设置
Table 3 Contrast experiment settings
组别 本文模型 对比模型1 对比模型2 A组 LSTM-SNP LSTM BiLSTM B组 LSTM-SNP-CRF LSTM-CRF BiLSTM-CRF C组 GloVe-LSTM-SNP GloVe-LSTM GloVe-BiLSTM D组 GloVe-CNN-LSTM-SNP GloVe-CNN-LSTM GloVe-CNN-BiLSTM 表 4 LSTM-SNP、LSTM、BiLSTM在数据集CoNLL-2003和OntoNotes5.0的性能结果
Table 4 Performance results of LSTM-SNP, LSTM, and BiLSTM in the dataset CoNLL-2003 and OntoNotes5.0
组别 Models CoNLL-2003 OntoNotes5.0 P R F1macro P R F1macro A LSTM-SNP 77.25 69.82 73.35 40.50 38.16 39.30 LSTM 76.45 68.66 72.35 40.05 38.77 39.40 BiLSTM 83.19 72.01 77.20 61.29 54.24 57.55 B LSTM-SNP-CRF 82.20 70.94 76.16 65.16 55.51 59.95 LSTM-CRF 82.18 71.37 76.40 65.38 55.18 59.85 BiLSTM-CRF 84.10 71.55 77.32 79.25 76.89 78.05 C GloVe-LSTM-SNP 83.25 72.22 77.34 79.25 69.00 73.77 GloVe-LSTM 82.32 80.55 81.41 79.25 76.89 78.05 GloVe-BiLSTM 86.38 84.90 85.63 82.42 80.74 81.57 D GloVe-CNN-LSTM-SNP 76.72 79.65 78.12 74.42 75.85 75.12 GloVe-CNN-LSTM 81.55 81.55 81.55 78.55 78.74 78.64 GloVe-CNN-BiLSTM 84.96 87.00 85.96 81.12 82.68 81.89 -
[1] PĂUN G. Computing with membranes[J]. Journal of Computer and System Sciences, 2000, 61(1): 108 − 143. doi: 10.1006/jcss.1999.1693
[2] 张葛祥, 潘林强. 自然计算的新分支—膜计算[J]. 计算机学报, 2010, 33(2): 208 − 204. ZHANG G X, PAN L Q. A new branch of natural computing-membrane computing[J]. Journal of Computer Science, 2010, 33(2): 208 − 204.
[3] 黄亮. 膜计算优化方法研究[D]. 杭州: 浙江大学, 2007. HUANG L. Study on optimization method of membrane calculation [D]. Hangzhou: Zhejiang University, 2007.
[4] 潘林强, 张兴义, 曾湘祥, 等. 脉冲神经膜计算系统的研究进展及展望(英文)[J]. 计算机学报, 2008, 31(12): 2090 − 2096. doi: 10.3321/j.issn:0254-4164.2008.12.003 PAN L Q, ZHANG X Y, ZENG X X, et al. Research progress and prospect of pulse neural membrane computing system[J]. Journal of Computer Science, 2008, 31(12): 2090 − 2096. doi: 10.3321/j.issn:0254-4164.2008.12.003
[5] PENG H, LV Z, LI B, et al. Nonlinear spiking neural P systems[J]. International Journal of Neural Systems, 2020, 30(10): 2050008. doi: 10.1142/S0129065720500082
[6] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735 − 1780. doi: 10.1162/neco.1997.9.8.1735
[7] LIU Q, LONG L, YANG Q, et al. LSTM-SNP: A long short-term memory model inspired from spiking neural P systems[J]. Knowledge-Based Systems, 2022, 235: 107656. doi: 10.1016/j.knosys.2021.107656
[8] ETZIONI O, CAFARELLA M, DOWNEY D, et al. Unsupervised named-entity extraction from the web: An experimental study[J]. Artificial intelligence, 2005, 165(1): 91 − 134. doi: 10.1016/j.artint.2005.03.001
[9] WANG Z, LI J, WANG Z, et al. XLore: A Large-scale English-Chinese bilingual knowledge graph[C]/Proceedings of the 12th International Semantic Web Conference (Posters & Demonstrations Track) .[S.l.]: CEUR-WSorg, 2013: 121−124.
[10] 康怡琳,孙璐冰,朱容波,等. 深度学习中文命名实体识别研究综述[J]. 华中科技大学学报(自然科学版), 2022, 50(11): 44 − 53. KANG Y L, SUN L B, ZHU R B, et al. Overview of the research on Chinese named entity recognition for in-depth learning[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2022, 50(11): 44 − 53.
[11] MAKINO T, OHTA Y, TSUJII J. Tuning support vector machines for biomedical named entity recognition[C]//Proceedings of the ACL-02 Workshop on Natural Language Processing in the Biomedical Domain.Pennsylvania, USA: Association for Computational Linguistics, 2002: 1− 8.
[12] KRISHNAN V, MANNING C D. An effective two-stage model for exploiting non-local dependencies in named entity recognition[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics.Pennsylvania, USA: Association for Computational Linguistics, 2006: 1121 − 1128.
[13] LUO L, YANG Z, YANG P, et al. An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition[J]. Bioinformatics, 2018, 34(8): 1381 − 1388. doi: 10.1093/bioinformatics/btx761
[14] LI L, GUO Y. Biomedical named entity recognition with CNN-BLSTM-CRF[J]. Journal of Chinese Information Processing, 2018, 32(1): 116 − 122.
[15] LI J Y, FEI H, LIU J A, et al. Unified named entity recognition as word-word relation classification[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(10): 10965 − 10973. doi: 10.1609/aaai.v36i10.21344
[16] LAFFERTY J, MCCALLUM A, PEREIRA F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning.San Francisco CA, USA: Morgan Kaufmann Publishers Inc, 2001: 282 – 289.
[17] PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA, USA: Association for Computational Linguistics, 2014: 1532 − 1543.
[18] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 357 − 370. doi: 10.1162/tacl_a_00104
[19] DeepAI. CoNLL 2003 (English) dataset download[EB/OL]. (2003-11-12)[2022-11-26].https://deepai.org/dataset/conll-2003-english.
[20] Linguistic Data Consortium. OntoNotes Release 5.0Download. [EB/OL]. (2013-10-16)[2022-11-26]. https://www.ldc.upenn.edu/.
[21] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012. LI H. Statistical learning method[M]. Beijing: Tsinghua University Press, 2012.
[22] 李明扬, 孔芳. 融入自注意力机制的社交媒体命名实体识别[J]. 清华大学学报(自然科学版), 2019, 59(6): 461 − 467. doi: 10.16511/j.cnki.qhdxxb.2019.25.005 LI M Y, KONG F. Social media named entity recognition with self attention mechanism[J]. Journal of Tsinghua University (Natural Science Edition), 2019, 59(6): 461 − 467. doi: 10.16511/j.cnki.qhdxxb.2019.25.005
-
期刊类型引用(1)
1. 邢春康,任勋益. 基于深度神经网络的对话系统研究综述. 软件导刊. 2024(09): 20-30 . 百度学术
其他类型引用(1)