php 中文分词-英语动词技术（英语动词原理）

bendan520 php

2023-09-02 0 8,737 百度已收录

立即下单

进入商城

进不了网站？换个网络试试！

b) 跳至步骤 2)。

(2)反向最大匹配法(ReverseMaximumMatchingMethod)一般称为RMM方法。 RMM方法的基本原理与MM方法相同。不同的是，动词切分的方向与MM法相反，但使用的动词词典也不同。反向最大匹配法从处理后的文档末尾开始，取最后2i个字符（i字串）作为匹配数组。如果匹配失败，则去掉匹配数组的顶部单词php 中文分词，继续匹配。因此，它使用的动词词典是逆序词典，其中每个条目都按降序存储。实际处理时，首先对文档进行逆序处理，生成逆序文档。之后，根据降序字典，可以通过前向最大匹配的方法来处理倒序的文档。

因为汉语的肯定结构较多，如果从后向前匹配，准确度可以适当提高。因此，反向最大匹配法的偏差小于正向最大匹配法的偏差。统计结果表明，单纯使用前向最大匹配的错误率为1/169，单纯使用反向最大匹配的错误率为1/245。例如，对“硕士学位科研与生产”这个组进行分词，正向最大匹配法的结果将是“硕士学位学生/生产”，而反向最大匹配法可以得到正确的动词结果“硕士学位/生产”。研究/生产”借助反向扫描。

事实上，最大匹配算法是一种基于动词词典的机械动词方法。它无法根据文档上下文的语义特征来切分习语。它很大程度上依赖于字典。因此，在实际使用中，难免会造成一些动词错误。为了提高系统动词的准确性，可以采用前向最大匹配法和反向最大匹配法相结合的动词方案（即单向匹配法，见（4））。

(3)最小分词法：最小化每句话的词数。

(4)单向匹配法：将前向最大匹配法和反向最大匹配法相结合。首先，根据标点符号对文档进行粗略的切分，将文档分解为若干语句。然后，使用正向最大匹配法和反向最大匹配法对此类语句进行扫描和分段。如果两种动词方法得到的匹配结果相同，则认为动词正确，否则按照最小集合处理。

3）。基于词频统计的全分词及副词方法

基于词频统计的副词法是一种全分词技术。在讨论这种方法之前，我们首先要了解全分割的相关内容。

全切

完全切分需要获取输入序列所有可接受的切分方法，而部分切分仅获取一种或几种可接受的切分方法php 中文分词，因为部分切分忽略了可能的其他切分方法，所以基于部分的副词方法无论采用何种歧义校正策略分词时，可能会错过正确的分词，从而导致动词错误或失败。基于全切分的副词方法，由于全切分得到了所有可能的切分方法，从而从根本上防止了可能的切分方法的遗漏，克服了部分切分方法的缺点。

全分割算法可以获得所有可能的分割方法。其诗句覆盖率和动词覆盖率均为100%。然而，动词全分词在文本处理中并未得到广泛应用，原因如下：

1）全分词算法只是获得正确动词的前提。由于全分词不具备歧义检查功能，因此最终动词结果的正确性和完整性取决于独立的歧义处理方法。如果评价错误，也会导致错误。的结果。

2）全切分的切分结果数量随着句子宽度的减小呈指数下降。一方面，会导致存储数据库中混杂大量无用数据；另一方面，当句子长度达到一定厚度时，由于分割方法过多，导致动词效率严重下降。

基于词频统计的动词模式：

这是一个完整的剪辑。它不依赖于字典，而是同时统计文章中任意两个单词的出现频率。频率越高，它就越有可能是一个词。它首先对与词汇表匹配的所有可能的单词进行切分，并使用统计语言模型和决策算法来确定最佳切分结果。它的优点是可以检测所有歧义并轻松提取新词。

4). 基于知识理解的动词模式。

该方法主要以复杂句子为基础，进行语法分析，结合语义分析，通过对上下文内容提供的信息进行分析来对词语进行界定。它一般包括动词子系统、句法语义子系统、总体控制部分三部分。。在主控部分的协调下，动词子系统可以获得复杂的句子以及单词、句子等语义信息，以判别动词歧义。这种方法试图让机器具有人类的理解能力，需要运用大量的语言知识和信息。由于汉语知识的广度和复杂性，不可能将各种语言信息组织成机器可以直接读取的形式。因此，目前基于知识的动词系统还处于实验阶段。

5).新的动词形式

并行动词方法：这些动词方法使用富含动词词典的管道。比较和匹配过程是逐步进行的。在每一步中，进入管道的单词可以同时与词典中的对应单词进行比较，因为同时对多个单词进行比较和匹配，因此可以大大提高动词速度。这些技术涉及多级内码理论和流水线字典数据结构。（详细算法请参考吴胜元的《并列动词模式研究》。）

常用英语动词包

1.泡丁解牛动词包，适合与Lucene集成。

跑丁英语分词库是一个使用Java开发的英语搜索引擎动词组件，可以集成到Lucene应用程序中，用于互联网和企业内网。

泡丁填补了国外英语动词开源组件的空白，旨在成为互联网网站英语动词开源组件的首选。跑丁英语动词追求动词的高效率和良好的用户体验。

庖丁的刀英语动词非常高效且可扩展。引入图像，采用完全面向对象的设计，构思先进。

高效率：在具有PIII1G显存的个人计算机上，一秒钟可确定100万个汉字的动词。

基于无限数量的词典文件对文章进行有效分词，从而实现词汇的分类和定义。

只有这样，我们才能合理地分析生词。

2. LingPipe，一个用于开源自然语言处理的Java开源工具包。 http://alias-i.com/lingpipe/

功能非常强大，最重要的是文档超级详细。每个模型甚至都列出了参考文件。除了易于使用之外，它还特别适合模型学习。

主题分类（TopClassification）、命名实体识别（NamedEntityRecognition）、词性标注（Part-ofSpeechTagging）、句子检测（SentenceDetection）、查询拼写检查（QuerySpellChecking）、有趣句子检测（IntersettingPhraseDetection）、聚类（Clustering）、字符语言建模（CharacterLanguageModeling）、医疗文档下载/解析/索引（MEDLINEDownload、ParsingandIndexing）、数据库文本挖掘（DatabaseTextMining）、中文动词（ChineseWordSegmentation）、情感分析（SentimentAnalysis）、语言识别（LanguageIdentification）等。

3.JE动词包

4.LibMMSeg

它是用C++开发的，支持Linux和Windows平台。截至当前版本（0.7.1），分裂速率约为 300K/s（PM-1.2G）。

LibMMSeg 还没有针对速率进行仔细优化，分流速率应该还有进一步提升的空间。

5.IK分析仪

IKAnalyzer基于lucene2.0版本API开发，实现了基于字典动词的正向和反向全切分算法，即LuceneAnalyzer套接字的实现。

该算法适合互联网用户的搜索习惯和企业知识库搜索。用户可以使用短语中包含的英文单词进行搜索，例如使用“people”来搜索包含“renminbi”的文章。这是大多数用户的搜索思维；

不适合知识挖掘和网络爬虫技术。全切分的方法很容易导致知识歧义，因为“人”和“人民币”在语义上是不相关的。

6.PHPCWS

PHPCWS是一个开源的PHP英文动词扩展，目前仅支持Linux/Unix系统。

PHPCWS首先使用“ICTCLAS3.0共享版英语动词算法”的API进行初始动词处理，然后使用自编译的“反向最大匹配算法”对动词和习语进行合并，并减少标点过滤功能以获得动词结果。。

ICTCLAS（计算技术研究所中文词法分析系统）是中国科技大学计算技术研究所经过多年的研究工作，基于多层隐马模型开发的中文词法分析系统。其主要功能包括英语动词；动词标记；命名实体识别；新词识别；同时支持用户词典。经过两年的精心建设，ICTCLAS已六次升级至核心。现已升级至ICTCLAS3.0，动词准确率达98.45%，压缩后各类词典数据小于3M。 ICTCLAS在国外973专家组组织的评估中获得第一名，并在国际第一家英语加工研究机构SigHan组织的评估中获得多项第一名。它是目前世界上最好的中文词法分析。设备。

ICTCLAS3.0的商业版是收费的，而ICTCLAS3.0的共享版是免费提供的，不是开源的。词汇取自人民晚报一个月的语料，很多成语并不存在。因此，我对ICTCLAS动词后面的结果采用反向最大匹配算法，并根据我添加的9万个成语的自定义词汇表（不与ICTCLAS词汇表中的单词重叠）合并ICTCLAS动词结果。输出最终的动词结果。

由于ICTCLAS3.0共享版仅支持GBK编码，为此，如果是UTF-8编码的字符串，可以先使用PHP的icons函数将其转换为GBK编码，然后使用phpcws_split函数进行动词处理，最后将其转换回 UTF-8 编码。

收藏 (0) 打赏

感谢您的支持，我会继续努力的!