摘要:[目的] 解决潜在高价值专利识别过程中序列建模的长距离依赖问题以及序列特征的关键信息获取问题,提升潜在高价值专利识别精准度和可解释性。[方法] 提出一种基于预训练模型XLNet和双注意力机制BiAttention的潜在高价值专利识别模型(XLBBC),通过XLNet模型进行专利文本表示和高质量语义获取,再利用BiGRU网络获取全局文本序列信息,随后嵌入BiAttention层使模型集中注意力于输入序列的不同部分,联合CNN层捕捉专利文本中的关键短语和特定模式。在非晶合金、工业机器人、钙钛矿太阳能电池等领域的混合专利数据集展开实证研究。[结果] 该模型在一定数据规模(40000条专利数据)时具备高准确性(0.89)和一致性(0.65)的双重优势;模型的预测准确率达到42%左右,较之既有研究模型的准确率提升约9%。[局限] 尚未考虑标准必要专利与高价值专利的关联关系和融合机制,算法复杂度有待提升。[结论] XLBBC模型在文本分类层面的效果优于CNN等组合模型;XLNet模型在全局语义理解上具备优越性;当注意力层处于XLNet-BiGRU层和CNN层之间时,会取得更好的模型效果。
文章目录
0引言
1相关工作
2研究设计
2.1样本构建
2.2基于XLBBC模型的潜在高价值专利识别
3模型训练与验证
3.1实验数据集
3.2实验参数
3.3模型验证结果
4对比试验
4.1改变数据规模
4.2注意力机制对比
4.3基线对比
5结语