名词解释网站程序的功能-翻译学文献| 基于Neo4j的语言学术语知识图谱建立研究

02

抽象的

本研究以“语言术语”为数据源,使用Neo4j图数据库,采用自上而下的图构建模型,结合风暴理论和事务知识图谱的建立,生成语言术语知识图谱,直观地解释语言术语的内部内容。 五类属性值和九类术语节点之间的关系为建立学科知识图谱提供了更加合理的模型,分析语言术语知识图谱的一些特征,开展语言术语知识图谱的研究。 总结和展望。

00

介绍

知识图谱的定义由Google于2012年提出,分为用于完善搜索引擎功能的辅助知识库。 知识图谱是一种利用图模型来描述人类认知并建立与世界万物关系的技术方法。 它本质上是一个描述实体与实体之间关系的语义网络。 其基本构成单元是“实体-关系-实体”。 三元组[1]包括实体及其关联的属性值对。 实体通过关系相互连接,从而生成网络知识结构。

知识图谱作为知识管理的重要手段,以通用、直观的方式对数据进行检索和分类,通常服务于网络大数据的分析。 Google、Bing、Yahoo等搜索引擎都引入了知识图谱。 同时,知识图谱对于梳理某个专业领域的发展也具有重要意义。 在国家层面,还提出“构建包含数十亿实体的多源、多学科、多数据类型的跨媒体知识图谱”[2]。 在最近的研究中,也出现了一些针对特定知识领域的知识图谱的研究,例如董晓晓等人。 [3]完成了知识组织与教育教学原理和规律的融合,定义教育领域知识图谱中实体类型、实体属性和实体关系的模型建立方法; 王松等. [4]回顾了中医知识图谱的概念、关键技术和研究现状,展望了中医知识图谱研究的发展趋势; 肖飞龙等. [5]基于Neo4j图数据库,建立癌症防治措施知识图谱,探究癌症防治机构的数量、人员以及防治措施的现状,为癌症防治措施的建立提供建议。预防和控制系统。 在语言学领域,有学者基于CiteSpace等文献分析图谱进行综述研究。 例如,陈凤华等人。 [6]利用CiteSpace分析了多年来发表在国外核心期刊和国际核心期刊上的多模态话语研究文献的知识图谱演化。 ; 刘霞等. [7]利用CiteSpace对1998年至2013年发表在CSSCI期刊上的相关文献进行定量分析和可视化。此类研究的数据来源是期刊网站的文献数据,一般局限于某个微观研究领域。 研究目的是分析研究热点并撰写综述文章,不涉及语言术语系统图谱的构建。 笔者通过查询CNKI、万方等刊物数据发现,国外尚无研究者使用图数据库来存储和揭示整个语言学术语的发展历程。 “术语是已知事物的命名,是通向未知的基础,往往成为构建一门学科乃至整个知识体系的重要节点和衍生点。就此而言,一门学科的关键术语是就像学科的基因一样,具有学术繁殖的力量。 [8]语言学发展到今天,已经拥有了比较庞大的知识体系,可以说建立语言术语知识图谱具有重要意义。

基于上述研究现状,本研究在系统梳理和分析语言术语的发展脉络和发展特征的基础上,采用领域知识图谱中常用的自上而下的构建模式,以语言术语[9]作为研究对象。结构化数据源对传统知识图谱的节点和边之间的关系进行构建和梳理,并基于风暴理论添加事件的逻辑类型,构建事件知识图谱。 事务知识图谱的本质是以风暴为节点的知识库,是知识图谱研究的延伸和演变,其发展源头可以追溯到20世纪70年代的专家系统[10]。 本文的语言术语知识图谱以“术语风暴”为核心节点和动力枢纽,以“术语风暴属性值”为子核心节点和关联单元,以“术语风暴关系”为演化框架和延伸路线,并以“术语风暴关系”作为演化框架和延伸路线,“术语风暴属性-值关系(属性)”是结构内容和分布网络的知识图谱的新形式,从而构建了术语风暴的演化逻辑链语言术语空间及构建术语知识内容分布模型。 基于Neo4j图数据库,建立语言学术语知识图谱,梳理语言学发展现状,总结语言学知识图谱的主要特点,深入探索知识图谱的建立模式旨在推动语言术语知识图谱应用的发展,并尝试为学科术语知识图谱提供范式。

01

相关理论与技术

1.1 知识图谱的建立

知识图谱可以分为两类:通用知识图谱和领域知识图谱。 划分的主要标准是知识数据的领域范围和图表构建方式的差异。 通用知识图谱非常重视知识的广度。 数据通常来自大型爬虫收集的互联网资源。 知识图谱通过命名实体识别、属性提取等算法建立,一般采用自下而下的建立模式。 领域知识图谱也称为垂直知识图谱或行业知识图谱。 其知识广度仅限于某一特定领域。 它是基于该领域的专业知识构建的。 具有数据冗余少、结构化程度高的特点。 一般采用自动自上而下的建立模式,更加专业、精准[11]。

本文研究的语言术语知识图谱属于领域知识图谱。 其自上而下的构建方法需要从顶层的概念出发。 建立知识图谱,然后进行实例与数据的匹配。 本体的建立非常重要,它决定了最终的知识图谱是否反映了该领域知识的广度和精度,是否能够正确地展现该领域的特征以及该领域不同概念之间的关系。

大多数知识图谱直观地呈现为相互连接的节点和边,对应于节点、关系和属性三大元素。 节点(Node)是一个实体对象,分为起始节点和结束节点。 两个节点通过关系连接。 与传统数据库中的ER图(实体关系图)中的实体相比,节点主要利用实体的标签信息。 差异可以包含或不包含属性信息(属性信息是描述实体的信息)。 图数据库中关系的表示是连接节点的“边”,它用来表示实体之间的连接。 属性(Property)用Key-Value(键值对)表示,包含节点或关系内部的个体特征信息。

名词解释网站程序的功能-翻译学文献| 基于Neo4j的语言学术语知识图谱建立研究

1.2 图数据库Neo4j和Pyneo2

图数据库是一种NoSQL数据库,基于图论,表达客观世界中实体与实体之间的关系[12]。 在遍历图进行本地读取方面,图数据库的性能非常突出,同时可以使用各种数据图模型及其数据扩展[13]。 这些方法常用于语义关系复杂、数据量大的数据。 与传统的关系数据库相比,图数据库更适合作为知识图谱的存储介质。 用于图数据库处理的Cypher图查询语言可以实现关系查询和图算法,更有利于支持查询和价值挖掘[14]。 主要的图数据存储系统包括RDF图模型和属性图模型。 前者使用RDF(资源描述框架)三元组作为存储对象。 RDF由节点和边组成。 节点表示实体/资源或属性,边表示实体与实体之间以及实体与属性之间的关系。 RDF图模型有比较成熟的标准体系和标准查询语言SparQL,常见的数据库有Jena和Virtuoso。 属性图是目前主流图数据库选择的数据模型,更准确地说,它是一个带标签的属性图(Labeled-Property Graph),它的节点和边可以定义属性[15]。 常见的图数据库包括 Neo4j、FlockDB 和 GraphDB。 其中,开源的Neo4j因其高性能、高稳定性、强可扩展性而成为应用最广泛的原生图数据库之一[16]。

Neo4j使用原生图来存储和处理数据,体现了关系网络中实体连接的本质,并且在查询时可以快速路径返回关联数据,展现高效的查询性能; 支持非结构化数据存储和大规模数据,能够很好地适应需求的变化,具有很大的灵活性。 此外,它还可以分析和推理实体之间的复杂关系,并支持逻辑语言分析和面向约束的推理。 Neo4j有自己的查询语言——Cypher语言,它是一种面向图分析的、声明性的、表达性的描述性图查询语言[17],非常人性化,易于操作。 主要用到的关键字有create(主要用于创建图节点、关系、属性)、match(匹配现有图数据库中的目标信息)、where(是匹配函数的条件)、return(返回指定值后的值)匹配完成),根据这个查询语句实现图形数据的分析和推理。 Neo4j以美观清晰的图结构存储知识数据,图结构有节点和关系两种基本类型。 每个节点代表一个实体,一个节点可以具有多种关系和属性,从而与其他节点形成关联。 关系是指两个节点之间的关系,用户可以根据顶层的要求自主设计关系类型[12]。

Py2neo 是一个客户端库和工具包,Python 应用程序和命令行可用于与 Neo4j 建立连接。 Py2neo 包装了官方驱动程序,添加了对 HTTP、高级 API、OGM、管理工具、交互式控制台、Pygments 的 Cypher-Lexer 以及许多其他功能的支持。 Py2neo包提供了一系列Neo4j解析和存储功能。 使用 Py2neo 包,可以构建 Neo4j 模型并将其存储在计算机内存中。 通过生成节点和关系,过滤重复数据,最终生成Neo4j图数据库[18]。 本研究使用Py2neo构建Neo4j模型,并对Neo4j数据库进行增、删、查、修改等操作。

02

构建语言术语知识图

2.1 构建思路

语言术语多为名词,但隐藏的风暴名词具有时态性质,这是促进术语之间动态关系和术语图式化的核心驱动力,值得重视和突出。 首先,以语言学[理论/理论/方法]为核心节点和动力枢纽,构建术语知识图谱的网络框架和演化模型。 这更符合语言术语的思维习惯和认知规律。 其次,以[理论/理论/方法]的持续时间、存在区域、代表人物、关键词(高频/基础/核心术语)、观点为逻辑主体和主要内容,形成术语知识图谱的关联网络已编译。 以及相关的节点。 最后以【理论/理论/方法】的关键词及其之间的关系(三元组:关键词术语-关系-关键词术语)为逻辑单元和关键信息,形成术语知识图谱。 内容实体和知识链。 以上三点与事件论中的“事件”、“事件关系”、“事件与事件要素关系”、“事件要素”、“事件要素关系”具有逻辑契合和功能对应。

基于上述思路,语言术语知识图谱中的三元组主要包括以下三个要素:

(1)术语混乱:在本研究中,特指语言术语中包含的理论/理论/方法。 它们的形成和延续行为以及核心凝聚力类似于“事件”,因此被称为“(语言)术语风暴”,表现为知识图谱中的众多节点;

(2)关系:各种理论/理论/方法之间的演化模式和事件链在知识图谱中表现为连接节点的边;

(3)属性价值:每种理论/理论/方法的存在时间、存在范围、代表人物、关键词、观点等的具体价值。

名词解释网站程序的功能-翻译学文献| 基于Neo4j的语言学术语知识图谱建立研究

图1为本研究中语言术语知识图谱的建立过程:对“语言术语”中的知识数据进行命名实体、关系、属性的知识抽取后,将相关内容进行对齐,实现知识融合,然后基于Neo4j实现图谱可视化,并进行知识图谱特征分析等知识应用工作。

2.2 知识来源

本研究的知识图谱的结构化数据来自于语言术语。 《语言学术语》是一本结构严谨的术语词典,其内容是经国家科技术语审定委员会审定出版的语言学术语,包括理论语言学、语言学、语音学、语法、语义词典学、词典学等。 、方言学、修辞学、音韵学、训诂学、计算语言学、社会语言学、民族语言学,共13部分,2939条条目[19],文本以与英文名学科相关的概念体系和知识体系为基础排列,定义给出了它的基本内涵,注释简明地解释了它的内涵名词解释网站程序的功能,在中文名称后面列出了相应的英文名称。 本研究以术语项为主要实体,从术语项的解释内容中提取术语关系和属性值关系。

2.3 实体提取与对齐

本研究以《语言学术语》中的2939个术语条目为基础,剔除“匹配”等一些非典型术语条目,以术语条目作为知识图谱的主要节点,构建以术语为中心的语言术语知识体系。 获取到节点后,需要进行实体对齐,即解决“名称不同但属性相同”的问题,检查知识图谱中的节点是否使用不同的词语来谴责同一个概念,并解决图数据中的实体混淆和实体歧义问题。 例如,“转化生成派”也称为“生成句型派”。 如果不进行消歧、去重,检索过程中就会形成冗余和遗漏。 因此,实体对齐是构建知识图谱过程中必不可少的环节。 一。 因为《语言术语》是一本术语词典,词典本身的性质基本上消除了术语的重复,数据冗余量很小。 对于少数“名异同义”的术语和解释,本研究采用人工校对的方法,将相似的表述统一为同一实体。

2.4 关系和属性值的提取和对齐

知识图谱的本质是一个语义网络,节点之间需要通过“关系”来连接。 关系是知识图谱生成网络的关键。 在建立语言学知识图谱的过程中,本研究使用事件的逻辑类型来定义节点关系。 Affair Map 最早由 Yang 等人提出。 [20],它是描述风暴之间演化规则和模式的事件逻辑知识库。 从层次结构来看,事务的知识图谱是一个有向图,其中节点代表风暴,有向边代表风暴之间的逻辑关系[21]。 语言术语具有清晰的发展逻辑,适合建立事物图谱,能够展现语言术语的发展变化。 本研究总结了语言术语之间的九种实体关系:因果关系、条件关系、种类关系、构成关系、继承关系、共存关系、对立关系、相似关系、互补关系,可以阐明语言术语的演化规律和逻辑,如表1所示。

以上九种关系都是从术语外部出发的关系。 从内部看,一个术语是由许多属性组成的。 属性是术语的内部组成部分。 语言术语是在一定的时间和空间范围内出现的。 对于某种术语扰动,大多数实体本身都具有时间、地域、代表人、关键词等。根据语言术语所包含的重要知识特征,定义了五个属性值,用于挖掘术语之间的规则。术语storm的内部特征,如表2所示。

属性值对齐表针对同一属性的属性值多种表达的问题,设置统一的标注规则,减少数据冗余,提高知识表达能力。 例如,在时间属性中,“20世纪中叶”和“1950年代”的属性值描述是不同的,但它们所指代的概念基本相同。 这类问题就是属性值冗余问题。 就本研究而言,属性值冗余问题主要存在于时间和人物属性上,采用统一的格式规则来对齐这两个属性,如表3所示。

2.5 知识存储与可视化

本研究采用自上而下的构建模式,在对节点、属性、关系的相关类别进行顶层设计和格式标准化后,进行“语言术语”的术语收集和三元组构建。 最终得到6211个三​​元组,两端的实体(属性)通过中间的关系连接起来,如表4所示。

使用Py2neo和Cypher句型将csv文件导出到Neo4j数据库,并进行可视化地图展示。 由于图谱较大,提取了部分节点关系作为示例,如图2所示。在Neo4j中,以“同时语言学”的父节点为例,“人”关系的属性值为“索绪尔”,“地点”关系的属性值为“瑞士”。 同时,该节点以“历史比较语言学节点”为“条件”关系,以“历时语言学”为“对立”关系。 通过 Neo4j 中的层次图结构可以直观地显示语言术语中的关系和属性。

知识图谱具有丰富的检索功能。 基于这张知识图谱,可以从多个角度梳理语言术语的发展,可以更清楚地了解语言学的发展历史和现状。 本研究还在本文后面简要分析了个体的宏观特征。

03

语言术语知识图谱的内容分析与讨论

3.1 总体特征分析

(一)数量巨大、涉及面广。 语言学是一门历史悠久的学科,其术语涉及的知识面非常广。 本研究共生成了6263个三胞胎,涵盖从传统中学到新兴交叉学科,跨度宽、知识水平细。 高,是一个比较系统、全面的领域知识图谱。 该图谱的建立也将有助于拓展后期语言术语研究的深度和广度。

(二)层次清晰、结构性强。 本研究的数据来源“语言学术语”将语言学术语定义为13个部分,包括理论语言学、语言学、语音学等。 所辖分院包括汉字概论、汉字起源与发展、汉字结构、汉字形制、汉字内部关系、汉字新政、应用研究等。 每个部分的小分支数量不固定,但条目控制在300个以内,是在构建知识图谱过程中可以直接使用的结构数据。

(三)规范性强。 语言术语作为学术研究的产物,本身具有精确、严谨的特点。 例如,“深层结构”、“表层结构”和“层次分析法”在理论之初就已经被明确定义,并且具有不可逆、不可替代的特点。 在解释《语言学术语》中的术语条目时,往往先给出上位概念,然后强调其含义,最后解释其影响。 这种相对固定的术语澄清模式也为节点、关系和属性的提取提供了便利,具有较强的规范性。

3.2 地方特色分析

基于Neo4j的Cypher句型,可以根据检索需求筛选必要的知识数据,从而发现语言术语的个体发展规律。 本研究仅以位置属性为例简单说明检索过程。 例如,要对term location的属性值进行全图搜索,输入Cypher命令:MATCHp=()-[r:'location']->() RETURNpLIMIT300,可以得到location的部分节点属性,对比图表可以得到“美国”在术语位置的属性值中占据频率最高,如图3所示。可见,在语言学的发展中,美国的术语输出最多。

3.3 语言术语与事物的动态关系说明

语言术语知识图谱的组织和结构不能与一般知识图谱相同,侧重于[实体-关系-实体]和[实体-属性-属性值],忽视宏观、大粒度的知识演化框架,也不能与一般的知识图谱相比较。 与事务地图一样,它注重[事件-关系-事件],忽略了微观、细粒度的知识关联形式。 应充分融合静态知识图谱和动态事件图谱的结构特征和存在模式,构建基于“静动”融合特征的语言术语知识图谱。 尽管这些术语主要是名词,但隐藏名词本质上是动态的。 它们是促进术语之间的动态关系和术语图式化的核心驱动力。 应该强调和强调它们。 人类命题记忆是以“事件”为存储单位,存储了构成风暴的概念以及它们之间的关系,以及风暴与风暴之间的关系[22]。 以风暴作为知识的基本单位,可以更好地反映知识,尤其是知识的动态性。 从认知科学的角度来看,事件更符合人类的理解和思维习惯。

本文利用事件的逻辑类型来建立节点之间的关系,逻辑类型形成的三元组就成为术语风暴的“观点”属性值。 如图4所示,转换生成学派的“视点”属性指向“深层结构-决策-表面结构”三元组。 在一个视点内形成一个三元组,同时以一个整体作为更高层次三元组的构成元素,表现出语言术语发展的动态关系和逻辑,以及更小层次的节点关系是一层层嵌套的。 促进大节点关系的形成和发展,最终促进语言术语的发展。

04

结语

本文重点介绍了语言术语知识图谱的建立过程,最终实现了知识图谱的呈现。 建立的较为完整的语言术语知识图谱填补了学术界语言知识图谱研究的空白。 您可以使用此地图查询数据以发现语言术语的演变。 其次,本文提供了一种“动态-静态”的术语图谱建立模式,适用于大多数学科的术语图谱建立模式,并具有一定的可移植性。 该方法还有助于建立一种媒体集成词典,从词典的双向封闭主义转向“词典-用户”的单向集成和交互[23]。 另外,基于Neo4j的功能,可以将地图接入网站socket,实现面向用户的后端地图网页。

这个知识图谱的建立还存在不足。 首先,参考文献有限。 由于迄今为止国内还没有学者完善和研究语言术语知识图谱,因此本文只能参考与本研究目的类似的知识图谱研究,技术普遍不成熟。 虽然已经获得了较为完整的语言术语知识图谱系统,但关系的准确性仍存在问题。 一些孤立的节点与其他术语缺乏联系,术语之间的深层关系需要在后期研究中进一步探讨。 其次,数据来源比较单一。 本文语言术语的知识通道依赖于“语言术语”名词解释网站程序的功能,因此知识数量有限,提取的知识数量不够,图谱的准确性有待提高。 在后期的研究中,将补充其他语言百科书籍和相关文献作为数据来源。 再次,更新数据的能力很差。 本研究的数据源Linguistic terms发表于2011年,此后一直没有纳入新的语言术语,因此数据存在滞后性。 针对这个问题,后期会加入爬虫框架,从各种语言学学术网站、会议网站、语言学家博客、百度百科、维基百科等中提取最新的语料库,并基于相关的命名实体识别和手动特征学习。楷模。

名词解释网站程序的功能-翻译学文献| 基于Neo4j的语言学术语知识图谱建立研究

参考

关于作者

王浩学(2000—),男,广西大学文学院研究生。 研究方向为实验语音学和计算语言学。 主持国家大学生创新项目1项、广西研究生创新项目1项、山东省语言资源开发应用重点项目1项。 实验室开放课题1项,发表CSSCI论文1篇。

通讯形式:wanghx@st.gxu.edu.cn

Wang Xinglong (1982—), male, associate professor of the School of Liberal Arts of Ludong University, full-time researcher of the Chinese Dictionary Research Center of the State Language Commission, and Shandong Key Laboratory of Language Resource Development and Application. The main research directions are second language learning, lexicology and lexicology. He has presided over 11 various scientific research projects, including key projects of the National Language and Character Work Committee, projects of the National Committee for Approval of Scientific and Technical Terms, projects of the Language Cooperation Center of the Ministry of Education, and social science planning projects of Shandong Province. He has published more than 20 papers in "Foreign Language Teaching and Research", "Language Application" and other journals (including CSSCI publications) and collections of essays. Won 1 Silver Award for Excellent Achievements in Humanities and Social Sciences of Shandong Provincial Universities, and edited 2 collections of papers.

Communication form:

wangxinglong100@163.com

-结尾-

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悟空资源网 网站程序 名词解释网站程序的功能-翻译学文献| 基于Neo4j的语言学术语知识图谱建立研究 https://www.wkzy.net/game/173070.html

常见问题

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务