SCWS-1.0.1 安装说明

2010-08-10

简介 - SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。 这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。 SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。 SCWS-1.0.1 安装说明 以 Linux(FreeBSD) 操作系统为例 1. 取得 scws-1.0.1 的代码

wget http://www.ftphp.com/scws/down/scws-1.0.1.tar.bz2

2. 解开压缩包

[hightman@d1 ~]$ tar xvjf scws-1.0.1.tar.bz2

3. 进入目录执行配置脚本和编译

[hightman@d1 ~]$ cd scws-1.0.1
[hightman@d1 ~/scws-1.0.1]$ ./configure --prefix=/usr/local/scws ; make ; make install

注:这里和通用的 GNU 软件安装方式一样,具体选项参数执行 ./configure --help 查看。 常用的三个选项为: --prefix= --disable-mmap <这表示禁用 MMAP 来读取 xdb,在 debian, ubuntu 的部分 Linux 中建议关闭 mmap> --enable-developer <这表示以开发者模式编译,主要是用于调试编译时加入了 -g 选项及部分标准输出的信息> 4. 顺利的话已经编译并安装成功到 /usr/local/scws 中了,执行下面命令看看文件是否存在 [hightman@d1 ~/scws-1.0.1]$ ls -al /usr/local/scws/lib/libscws.la 5. 试试执行 scws-cli 文件

[hightman@d1 ~/scws-1.0.1]$ /usr/local/scws/bin/scws -h
scws (scws-cli/1.0.1)
Simple Chinese Word Segmentation - Command line usage.
Copyright (C)2007 by hightman.

... 6 用 wget 下载并解压词典,或从主页下载然后自行解压再将 *.xdb 放入 /usr/local/scws/etc 目录中

[hightman@d1 ~/scws-1.0.1]$ cd /usr/local/scws/etc
[hightman@d1 /usr/local/scws/etc]$ wget http://www.ftphp.com/scws/down/scws-dict-chs-gbk.tar.bz2
[hightman@d1 /usr/local/scws/etc]$ wget http://www.ftphp.com/scws/down/scws-dict-chs-utf8.tar.bz2
[hightman@d1 /usr/local/scws/etc]$ tar xvjf scws-dict-chs-gbk.tar.bz2
[hightman@d1 /usr/local/scws/etc]$ tar xvjf scws-dict-chs-utf8.tar.bz2

7. 如果您需要在 php 中调用分词,建议继续阅读本文安装 php 扩展,否则可跳过不看。 假设您已经将 scws 按上述步骤安装到 /usr/local/scws 中。 安装此扩展要求您的 php 和系统环境安装了相应的 autoconf automake 工具及 phpize 。 1) 进入源码目录的 phpext/ 目录 ( cd ~/scws-1.0.1 ) 2) 执行 phpize (在PHP安装目录的bin/目录下) 3) 执行 ./configure --with-scws=/usr/local/scws 若 php 安装在特殊目录 $php_prefix, 则请在 configure 后加上 --with-php-config=$php_prefix/bin/php-config 4) 执行 make 然后用 root 身份执行 make install 5) 在 php.ini 中加入以下几行

[scws]
;
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 extension = scws.so 指定绝对路径。
;
extension = scws.so
extension_dir=/usr/local/php5/lib/php/extensions/no-debug-zts-20020429/
scws.default.charset = gbk
scws.default.fpath = /usr/local/scws/etc

6) 命令行下执行 php -m 就能看到 scws 了或者在 phpinfo() 中看看关于 scws 的部分,记得要重启 web 服务器 才能使新的 php.ini 生效。 7) 这样就算安装完成了,余下的工作只是PHP代码编写问题了。 关于 PHP 扩展的使用说明请参看代码中 phpext/php_scws_manual.txt 文件或其它文档章节。 参考文档: http://www.ftphp.com/scws/docs.php