index.dict.html 2.6 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172
  1. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
  2. <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
  3. <head>
  4. <meta http-equiv="Content-Type" content="text/html; charset=gbk" />
  5. <meta name="language" content="zh-cn" />
  6. <link rel="stylesheet" type="text/css" href="../api/css/style.css" />
  7. <link rel="stylesheet" type="text/css" href="../api/css/guide.css" />
  8. <link rel="stylesheet" type="text/css" href="../api/css/highlight.css" />
  9. <title>自定义 SCWS 词库</title>
  10. </head>
  11. <body>
  12. <div id="apiPage">
  13. <div id="apiHeader">
  14. <a href="http://www.xunsearch.com" target="_blank">Xunsearch PHP-SDK</a> v1.3.2 权威指南
  15. </div><!-- end of header -->
  16. <div id="content" class="markdown">
  17. <h1 id="-scws-">自定义 SCWS 词库</h1>
  18. <p>如之前所说,我们所有的索引分词器默认为 scws,这也是我们开发的开源分词系统,
  19. 内置的词库基本上能满足绝大多数应用。但总有例外,这也就是即将说的如何自定义词库。</p>
  20. <p>严格来讲,这是 SCWS 本身就提供的功能,xunsearch 只是做了整合和规范。
  21. 涉及的相关文件如下(假设 $prefix 是您的安装目录)</p>
  22. <pre>$prefix/etc/dict_user.txt
  23. </pre>
  24. <p>打开上述文件,文件开头已经有了相关注释和说明。这个文件就是自定义词库文件,
  25. 如果您同一台机器上装有多个 xunsearch 服务端,那么每个服务端独自使用自己的自定义词典文件。</p>
  26. <p>添加删除修改自定义词库只要编辑该文件即可,以下为相关规范:</p>
  27. <ul>
  28. <li>文件为纯文本文件,编码必须是 UTF-8,可用任何编辑器修改</li>
  29. <li>每行一条记录表示一个词,每行包含 1~4 个字段,字段之间用空格或制表符(\t)分隔</li>
  30. <li>字段含义依次表示 “词语”,“词频(TF)”,“逆词频率(IDF)”,“词性(ATTR)”</li>
  31. <li>后面三个字段如果省略依次使用 scws 的默认值</li>
  32. <li>特殊词性 <code>!</code> 可用于表示删除该词</li>
  33. <li>自定义词典优先于内置词典加载和使用,以 # 开头的行为注释</li>
  34. </ul>
  35. <blockquote class="note">
  36. <p><strong>Note:</strong> 该功能自 <code>1.2.0</code> 版本起方可使用,源自网友建议。</p>
  37. </blockquote>
  38. <div class="revision">$Id$</div>
  39. <div class="clear"></div>
  40. </div><!-- end of content -->
  41. <div id="guideNav">
  42. <div class="prev"><a href="index.buffer.html">&laquo; 使用索引缓冲区</a></div>
  43. <div class="next"><a href="search.overview.html">搜索概述 &raquo;</a></div>
  44. <div class="clear"></div>
  45. </div><!-- end of nav -->
  46. <div id="apiFooter">
  47. Copyright &copy; 2008-2011 by <a href="http://www.xunsearch.com" target="_blank">杭州云圣网络科技有限公司</a><br/>
  48. All Rights Reserved.<br/>
  49. </div><!-- end of footer -->
  50. </div><!-- end of page -->
  51. <div style="display:none;">
  52. <img src="../api/css/info.gif" />
  53. <img src="../api/css/tip.gif" />
  54. <img src="../api/css/note.gif" />
  55. </div>
  56. </body>
  57. </html>