我现在用的是je-analysis-1.5.2.jar的分词,当我建立索引大约有几百条的时候,就出现一下异常,看看,是什么原因?谢谢了
java.lang.ArrayIndexOutOfBoundsException: 1056
at jeasy.analysis.lIIllIlIlIIIllll._$3(Unknown Source:264)
at jeasy.analysis.lIIllIlIlIIIllll._$2(Unknown Source:143)
at jeasy.analysis.lIIllIlIlIIIllll._$1(Unknown Source:58)
at jeasy.analysis.lIIllIlIlIIIllll.next(Unknown Source:38)
at org.apache.lucene.analysis.StopFilter.next(StopFilter.java:107)
at org.apache.lucene.index.DocumentWriter.invertDocument(DocumentWriter.java:219)
at org.apache.lucene.index.DocumentWriter.addDocument(DocumentWriter.java:95)
at org.apache.lucene.index.IndexWriter.buildSingleDocSegment(IndexWriter.java:1013)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1001)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:983)
at com.hotct.search.core.IndexProcesser.createIndex(IndexProcesser.java:125)
at com.hotct.search.app.cms.index.ArticleIndexProcesser.createArticleIndex(ArticleIndexProcesser.java:49)
at com.hotct.search.app.cms.index.ArticleIndexProcesser.getPageAritcle(ArticleIndexProcesser.java:74)
at com.hotct.search.app.cms.index.ArticleIndexProcesser.main(ArticleIndexProcesser.java:82)
分享到:
相关推荐
全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库
JE-Analysis1.5.1.jar JE-Analysis1.4.0.jar
中文分词很好的工具,可以自组定制
内含lucene、je、htmlparser的jar包
修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 ...
最流行、使用最方便的中文分词包,此资源为文件系统而非jar包,使用时Eclipse使用文件导入方式导入,其他编辑器视情况而定,用些编辑器支持将资源复制进工程。实在不行可以将解压后的指明路径或解压至java文件同一...
仅有1.23MB最小巧好用的小巧分词器je-analysis-1.5.3的jar包
je-analysis-1.5.3、lucene-core-2.4.1分词组件
je-analysis-1.5.1分词器, je-analysis-1.5.1分词器, je-analysis-1.5.1分词器,
修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法中第一层的过滤 增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声词典 1.2.1 —— 2006-06-10 修正中文数字...
由中科院提供的中文极易分词器。比较完善的中文分词器
中英文分词工具,可以扩展词典,使用比较方便
Lucene中文分词器中的极易分词组件,包含jeasy.analysis.MMAnalyzer,以及依赖包lucene-core-2.4.1.jar!
词频计算,分词技术je-analysis.Net版本+代码.rar
3,分享一波分词器SDK开发包及使用手册(IK分词器、imdict(ictclas)分词器、je分词器、mmseg分词器、paoding分词器、Shuzhen分词器、庖丁解羊分词器、增强版lucene分词器) 文件比较大,请耐心下载。
博文链接:https://phantom.iteye.com/blog/66068
java lucene 开源全文检索,中文分词组件之 je-analysis-1.5.3
je-analysis-1.5.1.jar 中科院的分词器,用的人很多,需要Lucene1.9-2.4版本才能使用