Lucene备忘录
时间:2007-07-30 来源:sdwsyjp
(一)Lucene秉承了开放源代码一贯的架构优良的优势,设计了一个合理而极具
扩充能力的面向对象架构,程序员可以在Lucene的基础上扩充各种功能,比如
扩充中文处理能力,从文本扩充到HTML、PDF[13]等等文本
格式的处理,编写这些扩展的功能不仅仅不复杂,而且由于Lucene恰当合理的对
系统设备做了程序上的抽象,扩展的功能也能轻易的达到跨平台的能力。
(二)lucene - CSDN tag http://tag.csdn.net/tag/lucene/1.html
文章有几个不错的开源方案: http://tag.csdn.net/Article/b771e9ae-ae0c-4d5e-a1f3-4db27cb1b7cc.html
(三)Lucene中文分词组件 je-analysis 1.5.1
(四)Heritrix
Heritrix是一个纯由Java开发的、开源的Web网络爬虫,用户可以使用它从
网络上抓取想要的资源。它来自于www.archive.org。Heritrix最出色之处在
于它的可扩展性,开发者可以扩展它的各个组件,来实现自己的抓取逻辑。
(五)Lucene常用格式的文本抽取文件
http://www.gins.cn/blog/article.asp?id=51
相关阅读 更多 +