ini.guide.html 7.9 KB


  1. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
  2. <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
  3. <head>
  4. <meta http-equiv="Content-Type" content="text/html; charset=gbk" />
  5. <meta name="language" content="zh-cn" />
  6. <link rel="stylesheet" type="text/css" href="../api/css/style.css" />
  7. <link rel="stylesheet" type="text/css" href="../api/css/guide.css" />
  8. <link rel="stylesheet" type="text/css" href="../api/css/highlight.css" />
  9. <title>项目配置文件详解</title>
  10. </head>
  11. <body>
  12. <div id="apiPage">
  13. <div id="apiHeader">
  14. <a href="http://www.xunsearch.com" target="_blank">Xunsearch PHP-SDK</a> v1.3.2 权威指南
  15. </div><!-- end of header -->
  16. <div id="content" class="markdown">
  17. <div class="toc"><ol><li><a href="#ch0">基础说明</a></li><li><a href="#ch1">项目设置</a></li><li><a href="#ch2">项目字段设计</a></li><li><a href="#ch3">配置示例文件</a></li></ol></div><h1 id="-">项目配置文件详解</h1>
  18. <h2 id="ch0">1. 基础说明<a name="ch0" class="anchor">?</a></h2>
  19. <ul>
  20. <li>项目配置是一个 <code>Xunsearch</code> 项目的核心灵魂,非常重要,通常保存为 .ini 文件</li>
  21. <li>以分号开头的行表示注释,空行直接被忽略不起任何作用</li>
  22. <li>中括号包围的每个分区均为字段配置,字段个数根据项目的实际需求设定</li>
  23. <li>每个项目必须有并且只能有一个类型类 ID 的主键字段,ID 字段值的字母不区分大小写</li>
  24. </ul>
  25. <h2 id="ch1">2. 项目设置<a name="ch1" class="anchor">?</a></h2>
  26. <ol>
  27. <li><h3 id="-">项目名称</h3>
  28. <p>要求用纯小写字母和小划线组成,长度控制在 2-31 个字符,这也是 <abbr title="迅搜 - 基于 Xapian、scws 的全文检索解决方案">xunsearch</abbr>
  29. 服务器内用于保存索引数据的<em>目录名称</em>, 所以同一 <abbr title="迅搜 - 基于 Xapian、scws 的全文检索解决方案">xunsearch</abbr>
  30. 服务器内的不同项目名称不可重复。默认为不含后缀的配置文件名,
  31. 如:xyz.ini 则项目名默认为 <code>xyz</code> 。</p>
  32. <pre>project.name = AppName
  33. </pre></li>
  34. <li><h3 id="-">默认字符集</h3>
  35. <p>这里的默认字符集范围涵盖服务端交互时的输入数据、输出数据,实际使用时索引文档、
  36. 检索服务器仍可重新指定字符集</p>
  37. <pre>project.default_charset = UTF-8
  38. </pre></li>
  39. <li><h3 id="-">服务器连接参数</h3>
  40. <p>服务端连接参数的格式包含 3 种格式:</p>
  41. <ol>
  42. <li><em>端口号(数字)</em>,连接 <code>localhost</code> 的该端口号 (例:<code>8383</code>)</li>
  43. <li><em>地址:端口号</em>,冒号连接地址(域名、IP地址)和端口 (例:<code>127.0.0.1:8383</code>)</li>
  44. <li><em>文件路径</em>,本机的 <code>unix socket</code> 连接路径 (例:<code>/tmp/index.sock</code>)</li>
  45. </ol>
  46. <pre>; 索引服务端配置,默认值为 8383
  47. server.index = 8383
  48. ; 搜索服务端配置,默认值为 8384
  49. server.search = 8384
  50. </pre></li>
  51. </ol>
  52. <h2 id="ch2">3. 项目字段设计<a name="ch2" class="anchor">?</a></h2>
  53. <p>每个搜索项目均可以简单地理解为单表检索,凡是涉及关联表的,
  54. 请将关联记录转换为搜索项目的新字段并设置对应的分词规则。字段设计很重要,
  55. 请仔细根据需求创建,字段名建议和您的实际数据库字段一致。</p>
  56. <ol>
  57. <li><h3 id="-">定义字段</h3>
  58. <p>每个字段用一个区段配置来表示,中括号内的名字即为字段名。每个项目包含若干个字段,
  59. 具体由项目搜索需求决定,并不需要一味的与实际源数据库 (如 <code>MYSQL</code>) 一致,
  60. 而只需要设计搜索功能所涉及的字段即可。</p>
  61. <pre>[field_name]
  62. </pre></li>
  63. <li><h3 id="-">字段选项</h3>
  64. <p>每个字段根据实际情况指定字段选项,所有选项均有默认值,所以即便不指定任何选项而只有中括号定义的字段,
  65. 那也是一个合法的字段,字段选项包括以下几种:</p>
  66. <h4 id="type-">type 字段类型</h4>
  67. <ul>
  68. <li>string 字符型,适用多数情况,也是默认值</li>
  69. <li>numeric 数值型,包含整型和浮点数,仅当字段需用于以排序或区间检索时才设为该类型,否则请使用 string 即可</li>
  70. <li>date 日期型,形式为 YYYYmmdd 这样固定的 8 字节,如果没有区间检索或排序需求不建议使用</li>
  71. <li>id 主键型,确保每条数据具备唯一值,是索引更新和删除的凭据,每个搜索项目必须有且仅有一个 id 字段,该字段的值不区分大小写</li>
  72. <li>title 标题型,标题或名称字段,至多有一个该类型的字段</li>
  73. <li>body 内容型,主内容字段, 即本搜索项目中内容最长的字段,至多只有一个该类型字段,本字段不支持字段检索</li>
  74. </ul>
  75. <pre>type = string
  76. </pre>
  77. <h4 id="index-">index 索引方式</h4>
  78. <p><abbr title="迅搜 - 基于 Xapian、scws 的全文检索解决方案">xunsearch</abbr> 的索引有 2 种模式:其一是不标明字段的检索,称之为“混合区检索”;其二是标明特定字段的“字段检索”。
  79. 例如:搜索 <code>XXX YYY</code> 表示在混合区检索,返回的结果可能是 title 也有可能是 body 字段符合匹配;
  80. 而搜索 <code>title:XXX</code> 则表示仅检索 title 匹配 XXX 的数据。每个字段可以指定的索引方式的值如下:</p>
  81. <ul>
  82. <li>none 不做索引,所有的搜索匹配均与本字段无关,这个字段只用于排序或搜索结果展示用到。</li>
  83. <li>self 字段索引,可以在搜索时用 field:XXX 来检索本字段</li>
  84. <li>mixed 混合区索引,不标明字段的默认搜索也可以检索本字段</li>
  85. <li>both 相当于 self + mixed,两种情况均索引</li>
  86. </ul>
  87. <p>通常情况默认值为 none ,但 id 型字段默认是 self ,title 型字段是 both ,body 型字段则固定为 mixed 。</p>
  88. <pre>index = none
  89. </pre>
  90. <h4 id="tokenizer-">tokenizer 分词器</h4>
  91. <p>默认为 default 采用内置的功能强大的 scws 分词,适合绝大多数字符串字段。也可以指定自定义分词器,
  92. 格式为 name 或 name(arg) 两种形式,其中 name 是分词器名称,arg 则是传递给分词器构造函数的参数。
  93. 自定义分词器需要在 lib/ 目录下编写名为 XSTokenizerName 的分词类并实现接口 XSTokenizer,
  94. 内置支持的分词器有以下几种:</p>
  95. <ul>
  96. <li>full 表示本字段的值整体作为一个检索词,像各种 <em>ID</em> 都适合这种情况</li>
  97. <li>none 表示本字段没有任何词汇用于索引</li>
  98. <li>split([ ]) 表示根据参数分割内容,默认参数为空格,若参数以 / 开头并以 / 结尾则
  99. 内部调用 <code>preg_split(arg, ..)</code> 来分割取词,以支持正则或其它特殊字符分割</li>
  100. <li>xlen([2]) 表示根据指定参数长度分段取词,如 ABCDEF => AB + CD + EF</li>
  101. <li>xstep([2]) 表示根据指定参数步长逐段取词,如 ABCDEF => AB + ABCD + ABCDEF</li>
  102. </ul>
  103. <pre>tokenizer = default
  104. </pre>
  105. <h4 id="cutlen-">cutlen 搜索结果摘要截取长度</h4>
  106. <p>默认值为 0 表示不截取。主要是针对某些内容特别长的字段在返回结果时自动剪取包含关键词的一小段文字。
  107. 典型的是 body 型字段默认为 300 。长度单位是字节,通常 UTF-8 编码的一个汉字为 3 个字节。</p>
  108. <pre>cutlen = 0
  109. </pre>
  110. <h4 id="weight-">weight 混合区检索时的概率权重</h4>
  111. <p>在混合检索时,可以对标题和内容等不同字段进行权重计算,如果你不想该字段参与计算权重可设为 0 。
  112. 通常默认值为 1 ,但 title 型默认为 5 而 body 型则固定为 1 。</p>
  113. <pre>weight = 1
  114. </pre>
  115. <h4 id="phrase-">phrase 是否支持精确检索</h4>
  116. <p>即当给搜索语句加上引号时,则要求匹配的结果必须严格按照搜索词的顺序匹配,此外还支持用 NEAR
  117. 之类的语法来做精确检索,具体参见:<a href="SEARCH-TIPS">搜索技巧</a> 。通常默认值为 no 但是 title
  118. 和 body 型字段默认则为 yes 。值得注意的是该功能仅支持默认分词器,如非必要请勿开启此项,
  119. 因为这会增加索引数据的大小。</p>
  120. <pre>phrase = no
  121. </pre></li>
  122. </ol>
  123. <h2 id="ch3">4. 配置示例文件<a name="ch3" class="anchor">?</a></h2>
  124. <p>下面是 <abbr title="Discuz - 采用 PHP/MySQL 开发的 web 论坛软件">discuz</abbr> 搜索项目的配置示范文件,包含 12 个字段。其中可以看到 <code>tid</code> 和 <code>fid</code>
  125. 虽然从内容上讲它们都是数字型,但没有排序需求所以仍应为 <code>string</code> 类型,而 <code>dateline</code>
  126. 由于有排序需求,所以必须指定为 <code>numeric</code> 类型。</p>
  127. <pre> project.name = sample
  128. project.default_charset = GBK
  129. ;server.index = 8383
  130. ;server.search = 8384
  131. [pid]
  132. type = id
  133. [subject]
  134. type = title
  135. [message]
  136. type = body
  137. [dateline]
  138. type = numeric
  139. [author]
  140. index = both
  141. [authorid]
  142. [tid]
  143. index = self
  144. tokenizer = full
  145. [fid]
  146. index = self
  147. tokenizer = full
  148. [flag]
  149. </pre>
  150. <div class="revision">$Id$</div>
  151. <div class="clear"></div>
  152. </div><!-- end of content -->
  153. <div id="guideNav">
  154. <div class="prev"><a href="class.tokenizer.html">&laquo; XSTokenizer 分词接口</a></div>
  155. <div class="next"><a href="ini.tokenizer.html">自定义分词器 &raquo;</a></div>
  156. <div class="clear"></div>
  157. </div><!-- end of nav -->
  158. <div id="apiFooter">
  159. Copyright &copy; 2008-2011 by <a href="http://www.xunsearch.com" target="_blank">杭州云圣网络科技有限公司</a><br/>
  160. All Rights Reserved.<br/>
  161. </div><!-- end of footer -->
  162. </div><!-- end of page -->
  163. <div style="display:none;">
  164. <img src="../api/css/info.gif" />
  165. <img src="../api/css/tip.gif" />
  166. <img src="../api/css/note.gif" />
  167. </div>
  168. </body>
  169. </html>