php 中文分词-英语动词技术(英语动词原理)

2023-09-02 0 8,737 百度已收录

b) 跳至步骤 2)。

(2)反向最大匹配法(ReverseMaximumMatchingMethod)一般称为RMM方法。 RMM方法的基本原理与MM方法相同。 不同的是,动词切分的方向与MM法相反,但使用的动词词典也不同。 反向最大匹配法从处理后的文档末尾开始,取最后2i个字符(i字串)作为匹配数组。 如果匹配失败,则去掉匹配数组的顶部单词php 中文分词,继续匹配。 因此,它使用的动词词典是逆序词典,其中每个条目都按降序存储。 实际处理时,首先对文档进行逆序处理,生成逆序文档。 之后,根据降序字典,可以通过前向最大匹配的方法来处理倒序的文档。

因为汉语的肯定结构较多,如果从后向前匹配,准确度可以适当提高。 因此,反向最大匹配法的偏差小于正向最大匹配法的偏差。 统计结果表明,单纯使用前向最大匹配的错误率为1/169,单纯使用反向最大匹配的错误率为1/245。 例如,对“硕士学位科研与生产”这个组进行分词,正向最大匹配法的结果将是“硕士学位学生/生产”,而反向最大匹配法可以得到正确的动词结果“硕士学位/生产”。研究/生产”借助反向扫描。

事实上,最大匹配算法是一种基于动词词典的机械动词方法。 它无法根据文档上下文的语义特征来切分习语。 它很大程度上依赖于字典。 因此,在实际使用中,难免会造成一些动词错误。 为了提高系统动词的准确性,可以采用前向最大匹配法和反向最大匹配法相结合的动词方案(即单向匹配法,见(4))。

(3)最小分词法:最小化每句话的词数。

(4)单向匹配法:将前向最大匹配法和反向最大匹配法相结合。 首先,根据标点符号对文档进行粗略的切分,将文档分解为若干语句。 然后,使用正向最大匹配法和反向最大匹配法对此类语句进行扫描和分段。 如果两种动词方法得到的匹配结果相同,则认为动词正确,否则按照最小集合处理。

3)。 基于词频统计的全分词及副词方法

基于词频统计的副词法是一种全分词技术。 在讨论这种方法之前,我们首先要了解全分割的相关内容。

全切

完全切分需要获取输入序列所有可接受的切分方法,而部分切分仅获取一种或几种可接受的切分方法php 中文分词,因为部分切分忽略了可能的其他切分方法,所以基于部分的副词方法无论采用何种歧义校正策略分词时,可能会错过正确的分词,从而导致动词错误或失败。 基于全切分的副词方法,由于全切分得到了所有可能的切分方法,从而从根本上防止了可能的切分方法的遗漏,克服了部分切分方法的缺点。

全分割算法可以获得所有可能的分割方法。 其诗句覆盖率和动词覆盖率均为100%。 然而,动词全分词在文本处理中并未得到广泛应用,原因如下:

1)全分词算法只是获得正确动词的前提。 由于全分词不具备歧义检查功能,因此最终动词结果的正确性和完整性取决于独立的歧义处理方法。 如果评价错误,也会导致错误。 的结果。

2)全切分的切分结果数量随着句子宽度的减小呈指数下降。 一方面,会导致存储数据库中混杂大量无用数据; 另一方面,当句子长度达到一定厚度时,由于分割方法过多,导致动词效率严重下降。

基于词频统计的动词模式:

这是一个完整的剪辑。 它不依赖于字典,而是同时统计文章中任意两个单词的出现频率。 频率越高,它就越有可能是一个词。 它首先对与词汇表匹配的所有可能的单词进行切分,并使用统计语言模型和决策算法来确定最佳切分结果。 它的优点是可以检测所有歧义并轻松提取新词。

4). 基于知识理解的动词模式。

该方法主要以复杂句子为基础,进行语法分析,结合语义分析,通过对上下文内容提供的信息进行分析来对词语进行界定。 它一般包括动词子系统、句法语义子系统、总体控制部分三部分。 。 在主控部分的协调下,动词子系统可以获得复杂的句子以及单词、句子等语义信息,以判别动词歧义。 这种方法试图让机器具有人类的理解能力,需要运用大量的语言知识和信息。 由于汉语知识的广度和复杂性,不可能将各种语言信息组织成机器可以直接读取的形式。 因此,目前基于知识的动词系统还处于实验阶段。

5).新的动词形式

并行动词方法:这些动词方法使用富含动词词典的管道。 比较和匹配过程是逐步进行的。 在每一步中,进入管道的单词可以同时与词典中的对应单词进行比较,因为同时对多个单词进行比较和匹配,因此可以大大提高动词速度。 这些技术涉及多级内码理论和流水线字典数据结构。 (详细算法请参考吴胜元的《并列动词模式研究》。)

常用英语动词包

1.泡丁解牛动词包,适合与Lucene集成。

跑丁英语分词库是一个使用Java开发的英语搜索引擎动词组件,可以集成到Lucene应用程序中,用于互联网和企业内网。

泡丁填补了国外英语动词开源组件的空白,旨在成为互联网网站英语动词开源组件的首选。 跑丁英语动词追求动词的高效率和良好的用户体验。

庖丁的刀英语动词非常高效且可扩展。 引入图像,采用完全面向对象的设计,构思先进。

高效率:在具有PIII1G显存的个人计算机上,一秒钟可确定100万个汉字的动词。

基于无限数量的词典文件对文章进行有效分词,从而实现词汇的分类和定义。

只有这样,我们才能合理地分析生词。

2. LingPipe,一个用于开源自然语言处理的Java开源工具包。 http://alias-i.com/lingpipe/

功能非常强大,最重要的是文档超级详细。 每个模型甚至都列出了参考文件。 除了易于使用之外,它还特别适合模型学习。

主题分类(TopClassification)、命名实体识别(NamedEntityRecognition)、词性标注(Part-ofSpeechTagging)、句子检测(SentenceDetection)、查询拼写检查(QuerySpellChecking)、有趣句子检测(IntersettingPhraseDetection)、聚类(Clustering)、字符语言建模(CharacterLanguageModeling) 、医疗文档下载/解析/索引(MEDLINEDownload、ParsingandIndexing)、数据库文本挖掘(DatabaseTextMining)、中文动词(ChineseWordSegmentation)、情感分析(SentimentAnalysis)、语言识别(LanguageIdentification)等。

3.JE动词包

4.LibMMSeg

它是用C++开发的,支持Linux和Windows平台。 截至当前版本(0.7.1),分裂速率约为 300K/s(PM-1.2G)。

LibMMSeg 还没有针对速率进行仔细优化,分流速率应该还有进一步提升的空间。

5.IK分析仪

IKAnalyzer基于lucene2.0版本API开发,实现了基于字典动词的正向和反向全切分算法,即LuceneAnalyzer套接字的实现。

该算法适合互联网用户的搜索习惯和企业知识库搜索。 用户可以使用短语中包含的英文单词进行搜索,例如使用“people”来搜索包含“renminbi”的文章。 这是大多数用户的搜索思维;

不适合知识挖掘和网络爬虫技术。 全切分的方法很容易导致知识歧义,因为“人”和“人民币”在语义上是不相关的。

6.PHPCWS

PHPCWS是一个开源的PHP英文动词扩展,目前仅支持Linux/Unix系统。

PHPCWS首先使用“ICTCLAS3.0共享版英语动词算法”的API进行初始动词处理,然后使用自编译的“反向最大匹配算法”对动词和习语进行合并,并减少标点过滤功能以获得动词结果。 。

ICTCLAS(计算技术研究所中文词法分析系统)是中国科技大学计算技术研究所经过多年的研究工作,基于多层隐马模型开发的中文词法分析系统。 其主要功能包括英语动词; 动词标记; 命名实体识别; 新词识别; 同时支持用户词典。 经过两年的精心建设,ICTCLAS已六次升级至核心。 现已升级至ICTCLAS3.0,动词准确率达98.45%,压缩后各类词典数据小于3M。 ICTCLAS在国外973专家组组织的评估中获得第一名,并在国际第一家英语加工研究机构SigHan组织的评估中获得多项第一名。 它是目前世界上最好的中文词法分析。 设备。

ICTCLAS3.0的商业版是收费的,而ICTCLAS3.0的共享版是免费提供的,不是开源的。 词汇取自人民晚报一个月的语料,很多成语并不存在。 因此,我对ICTCLAS动词后面的结果采用反向最大匹配算法,并根据我添加的9万个成语的自定义词汇表(不与ICTCLAS词汇表中的单词重叠)合并ICTCLAS动词结果。 输出最终的动词结果。

由于ICTCLAS3.0共享版仅支持GBK编码,为此,如果是UTF-8编码的字符串,可以先使用PHP的icons函数将其转换为GBK编码,然后使用phpcws_split函数进行动词处理,最后将其转换回 UTF-8 编码。

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悟空资源网 php php 中文分词-英语动词技术(英语动词原理) https://www.wkzy.net/game/190975.html

常见问题

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务