本文介绍《SCWS中文分词》的安装及使用,主要用于个人记录,如有需要,请访问SCWS官方网站。

使用前准备

首先要准备Linux系统及安装编译好的php,本人使用源码编译安装的php,具体信息如下(可能有些许报错,将就着看吧)

下载安装SCWS软件

1.下载scws源码

            wget http://www.xunsearch/scws/down/scws-1.2.3.tar.bz2

2.解压压缩包并安装

         tar xvjf scws-1.2.3.tar.bz2

3.编译安装

       ./configure --prefix=安装目录 && make && make install

       注:这里和通用的 GNU 软件安装方式一样,具体选项参数执行 ./configure --help 查看。

4. 顺利的话已经编译并安装成功了,本人没有遇到编译报错。

5.调用 安装目录下的bin/scws -h命令,进行测试

表示安装成功。

6.用 wget 下载并解压词典,或从主页下载然后自行解压再将 *.xdb 放入 /usr/local/scws/etc 目录中

      具体的下载地点请查看官方网站

7.进入scws的解压目录的phpext/中,注意,这里一定不要弄错,我就是在安装目录中一顿搜索,还以为下载错了安装包呢。执行

      phpize

      ./configure --with-scws=SCWS的安装目录

      make && make install

8.修改配置文件并载入模块

      

9.测试

   

10.php调用

        函数详解 --------

       1. `mixed scws_new(void)`

                创建并返回一个 `SimpleCWS` 类操作对象。

                         **返回值** 成功返回类操作句柄,失败返回 false。

      2. `mixed scws_open(void)`

           创建并返回一个分词操作句柄。

                       **返回值** 成功返回 scws 操作句柄,失败返回 false。

      3. `bool scws_close(resource scws_handle)` `SimpleCWS::close(void)`

            关闭一个已打开的 scws 分词操作句柄。

                  **参数 scws_handle** 即之前由 scws_open 打开的返回值

                  **返回值** 始终为 true > **注意** 后面的 API 中省去介绍 scws_handle 参数,含义和本函数相同。

      4. `bool scws_set_charset(resource scws_handle, string charset)` `bool SimpleCWS::set_charset(string charset)`

           设定分词词典、规则集、欲分文本字符串的字符集

                  **参数 charset** 要新设定的字符集,目前只支持 utf8 和 gbk。(注:默认为 gbk,utf8不要写成utf-8)

                  **返回值** 始终为 true

      5. `bool scws_add_dict(resource scws_handle, string dict_path [, int mode])` `bool SimpleCWS::add_dict(string dict_path [, int mode])`

           添加分词所用的词典,新加入的优先查找。

                   **参数 dict_path** 词典的路径,可以是相对路径或完全路径。(遵循安全模式下的 open_basedir) 

                   **参数 mode** 可选,表示加载的方式。

                   **返回值** 成功返回 true 失败返回 false

       6. `bool scws_set_dict(resource scws_handle, string dict_path [, int mode])` `bool SimpleCWS::set_dict(string dict_path [, int mode])`

             设定分词所用的词典并清除已存在的词典列表。

                   **参数 dict_path** 词典的路径,可以是相对路径或完全路径。(遵循安全模式下的 open_basedir)

                   **参数 mode** 可选,表示加载的方式。参见 `scws_add_dict`

                   **返回值** 成功返回 true 失败返回 false

7. `bool scws_set_rule(resource scws_handle, string rule_path)` `bool SimpleCWS::set_rule(string rule_path)`

         设定分词所用的新词识别规则集(用于人名、地名、数字时间年代等识别)。

                 **参数 rule_path** 规则集的路径,可以是相对路径或完全路径。(遵循安全模式下的 open_basedir)

                 **参数 mode** 可选,表示加载的方式。参见 `scws_add_dict` 

                 **返回值** 成功返回 true 失败返回 false

8. `bool scws_set_ignore(resource scws_handle, bool yes)` `bool SimpleCWS::set_ignore(bool yes)`

      设定分词返回结果时是否去除一些特殊的标点符号之类。

              **参数 yes** 设定值,如果为 true 则结果中不返回标点符号,如果为 false 则会返回,缺省为 false。 

              **返回值** 始终为 true

9. `bool scws_set_multi(resource scws_handle, int mode)` `bool SimpleCWS::set_multi(bool yes)`

      设定分词返回结果时是否复式分割,如“中国人”返回“中国+人+中国人”三个词。           

        **参数 mode** 复合分词法的级别,缺省不复合分词。取值由下面几个常量异或组合(也可用 1-15 来表示): > > - SCWS_MULTI_SHORT (1)短词 > - SCWS_MULTI_DUALITY (2)二元(将相邻的2个单字组合成一个词) > - SCWS_MULTI_ZMAIN (4)重要单字 > - SCWS_MULTI_ZALL (8)全部单字

            **返回值** 始终为 true

 10. `bool scws_set_duality(resource scws_handle, bool yes)` `bool SimpleCWS::set_duality(bool yes)`

         设定是否将闲散文字自动以二字分词法聚合

                 **参数 yes** 设定值,如果为 true 则结果中多个单字会自动按二分法聚分,如果为 false 则不处理,缺省为 false。

                 **返回值** 始终为 true

11. `bool scws_send_text(resource scws_handle, string text)` `bool SimpleCWS::send_text(string text)`

       发送设定分词所要切割的文本。

                **参数 text** 要切分的文本的内容。

               **返回值** 成功返回 true 失败返回 false, **注意** 系统底层处理方式为对该文本增加一个引用,故不论多长的文本并不会造成内存浪费; > 执行本函数时,若未加载任何词典和规则集,则会自动试图在 ini 指定的缺省目录下查找缺省字符集的词典和规则集。

12. `mixed scws_get_result(resource scws_handle)` `mixed SimpleCWS::get_result()`

       根据 send_text 设定的文本内容,返回一系列切好的词汇。

                **返回值** 成功返回切好的词汇组成的数组,若无更多词汇,返回 false。返回的词汇包含的键值如下: > > - word _string_ 词本身 > - idf _float_ 逆文本词频 > - off _int_ 该词在原文本路的位置 > - attr _string_ 词性 > > **注意** 每次切词后本函数应该循环调用,直到返回 false 为止,因为程序每次返回的词数是不确定的。

13. `mixed scws_get_tops(resource scws_handle [, int limit [, string attr]])` `mixed SimpleCWS::get_tops([int limit [, string attr]])`

       根据 send_text 设定的文本内容,返回系统计算出来的最关键词汇列表。

               **参数 limit** 可选参数,返回的词的最大数量,缺省是 10

               **参数 attr** 可选参数,是一系列词性组成的字符串,各词性之间以半角的逗号隔开, > 这表示返回的词性必须在列表中,如果以~开头,则表示取反,词性必须不在列表中,缺省为NULL,返回全部词性,不过滤。 > **返回值** 成功返回统计好的的词汇组成的数组,返回 false。返回的词汇包含的键值如下: > > - word _string_ 词本身 > - times _int_ 词在文本中出现的次数 > - weight _float_ 该词计算后的权重 > - attr _string_ 词性

14. `mixed scws_get_words(resource scws_handle, string attr)` `mixed SimpleCWS::get_words(string attr)`

       根据 send_text 设定的文本内容,返回系统中词性符合要求的关键词汇。

               **参数 attr** 是一系列词性组成的字符串,各词性之间以半角的逗号隔开, > 这表示返回的词性必须在列表中,如果以~开头,则表示取反,词性必须不在列表中,若为空则返回全部词。

         **返回值** 成功返回符合要求词汇组成的数组,返回 false。返回的词汇包含的键值参见 `scws_get_result`

15. `bool scws_has_words(resource scws_handle, string attr)` `mixed SimpleCWS::has_words(string attr)`

      根据 send_text 设定的文本内容,返回系统中是否包括符合词性要求的关键词。

               **参数 attr** 是一系列词性组成的字符串,各词性之间以半角的逗号隔开, > 这表示返回的词性必须在列表中,如果以~开头,则表示取反,词性必须不在列表中,若为空则返回全部词。 

               **返回值** 如果有则返回 true,没有就返回 false。

16. `string scws_version(void)` `string SimpleCWS::version(void)`

      返回 scws 版本号名称信息(字符串)。

详细说明请见官网

说明

  1. window系统中的SCWS支持有限,目前只支持PHP5.4及以下版本,不建议使用。
  2. SCWS目前支持词汇28万词,最后更新时间为2016年2月24日,算是比较新了。(词汇数量没做测试,官网上说的)
  3. 非常感谢SCWS的开发作者,另外,如果存在侵权行为,请及时通知,收到通知后立刻删除。

更多推荐

推荐一款PHP可用的中文分词扩展