PHP中文分词代码 v1.0 UTF-8-源码库

资源介绍

授权方式：开源软件
界面语言：简体中文
文件大小：2.26 MB
更新时间：2011-11-22
资源类型：国产软件
推荐等级：★★★☆☆
平台环境：PHP/
作者主页：点击查看
演示地址：点击查看

详细介绍 – [ PHP中文分词代码 v1.0 UTF-8 ]

PHP中文分词代码使用居于unicode的词库，使用反向匹配模式分词，理论上兼容编码更广泛，并且对utf-8编码尤为方便。由于PhpanAlysis是无组件的系统，因此速度会比有组件的稍慢，不过在大量分词中，由于边分词边完成词库载入，因此内容越多，反而会觉得速度越快，这是正常现象，对于支持PHP-APC的服务器，本程序支持对词典进行缓存，这样做之后理论的速度并不慢于那些带组件的分词程序了。

分词系统是基于字符串匹配的分词方法，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功（识别出一个词）。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下：

　　 1）正向最大匹配法（由左到右的方向）；
　　 2）逆向最大匹配法（由右到左的方向）；
　　 3）最少切分（使每一句中切出的词数最小）。

　　还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言信息来进一步提高切分的准确率。

　　一种方法是改进扫描方式，称为特征扫描或标志切分，优先在待分析字符串中识别和切分出一些带有明显特征的词，以这些词作为断点，可将原字符串分为较小的串再来进机械分词，从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来，利用丰富的词类信息对分词决策提供帮助，并且在标注过程中又反过来对分词结果进行检验、调整，从而极大地提高切分的准确率。

PHP中文分词代码 v1.0 UTF-8插图

猜你在找

织梦模板

1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！
2. 分享目的仅供大家学习和交流，您必须在下载后24小时内删除！
3. 不得使用于非法商业用途，不得违反国家法律。否则后果自负！
4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！
5. 如有链接无法下载、失效或广告，请联系管理员处理！
6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！

源码库 » PHP中文分词代码 v1.0 UTF-8

分享到：