当前位置: 首页 >> 程序设计 >> Lucene中文分词的高亮显示
 

Lucene中文分词的高亮显示

作者:      来源:     发表时间:2006-04-28     浏览次数:      字号:    

1、问题的来源

增加分词以后结果的准确度提高了,但是用户反映返回结果的速度很慢。原因是,Lucene做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作。这样降低了性能。

 

2、解决方法

Lucene1.4.3版本中的一个新功能可以解决这个问题。Term Vector现在支持保存Token.getPositionIncrement() Token.startOffset() 以及Token.endOffset() 信息。利用Lucene中新增加的Token信息的保存结果以后,就不需要为了高亮显示而在运行时解析每篇文档。通过Field方法控制是否保存该信息。修改HighlighterTest.java的代码如下:

 

//增加文档时保存Term位置信息。

       private void addDoc(IndexWriter writer, String text) throws IOException

       {

              Document d = new Document();

              //Field f = new Field(FIELD_NAME, text, true, true, true);

              Field f = new Field(FIELD_NAME, text ,

                                   Field.Store.YES, Field.Index.TOKENIZED,

                                   Field.TermVector.WITH_POSITIONS_OFFSETS);

              d.add(f);

              writer.addDocument(d);

       }

 

//利用Term位置信息节省Highlight时间。

       void doStandardHighlights() throws Exception

       {

              Highlighter highlighter =new Highlighter(this,new QueryScorer(query));

              highlighter.setTextFragmenter(new SimpleFragmenter(20));

              for (int i = 0; i < hits.length(); i++)

              {

                     String text = hits.doc(i).get(FIELD_NAME);

                     int maxNumFragmentsRequired = 2;

                     String fragmentSeparator = "...";

                     TermPositionVector tpv = (TermPositionVector)reader.getTermFreqVector(hits.id(i),FIELD_NAME);

                     //如果没有stop words去除还可以改成 TokenSources.getTokenStream(tpv,true); 进一步提速。

                     TokenStream tokenStream=TokenSources.getTokenStream(tpv);

                     //analyzer.tokenStream(FIELD_NAME,new StringReader(text));

 

                     String result =

                            highlighter.getBestFragments(

                                   tokenStream,

                                   text,

                                   maxNumFragmentsRequired,

                                   fragmentSeparator);

                     System.out.println("\t" + result);

              }

       }

 

       最后把highlight包中的一个额外的判断去掉。对于中文来说没有明显的单词界限,所以下面这个判断是错误的:

tokenGroup.isDistinct(token)

 

       这样中文分词就不会影响到查询速度了。

编辑 webmaster

 
 
 
评论更多>>
 
 
发表
 
姓名: QQ:
性别: MSN:
E-mail: 主页:
评分: 1 2 3 4 5
评论内容:
验证码:
  
  • 请遵守《互联网电子公告服务管理规定》及中华人民共和国其他各项有关法律法规。
  • 严禁发表危害国家安全、损害国家利益、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容的评论 。
  • 用户需对自己在使用本站服务过程中的行为承担法律责任(直接或间接导致的)。
  • 本站管理员有权保留或删除评论内容。
  • 评论内容只代表网友个人观点,与本网站立场无关。
  •