基于javaweb的搜索引擎的实现报告模板内容摘要:

Apache Tika 利用现有的解析类库,从不同格式的文档中(例如 HTML, PDF, Doc),侦测和提取出元数据和结构化内容。 (图 42) 功能包括: 侦测文档的类型, 字符编码 ,语言,等其他现有文档的属性。 提取结构化的文字内容。 该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。 编程语言为Java. JavaBean 是一种 JAVA 语言写成的可重用组件。 为写成 JavaBean,类必须是具体 的和公共的,并且具有无参数的 构造器。 JavaBean 通过提供符合一致性 设计模式 的公共方法将内部域暴露成员属性。 众所周知,属性名称符合这种模式,其他 Java 类可以通过自身机制发现和操作这些 JavaBean 属性。 用户可以使用 JavaBean 将功能、处理、值、数据库访问和其他任何可以用 java 代码创造的对象进行打包,并且其他的开发者可以通过内部的 JSP 页面、 Servlet、其他JavaBean、 applet 程序 或者应用来使用这些对象。 用户可以认为 JavaBean 提供了一种随时随地的复制和粘贴的功能,而不用关心任何改变。 数据库 MySQL是一个 关系型数据库管理系统 ,由瑞典 MySQL AB 公司开发,目前属于 Oracle公司。 MySQL是一种关联 数据库管理系统 ,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了 灵活 性。 MySQL 的 SQL 语言是用于访问 数据库 的最常用标准化语言。 MySQL 软件采用了双授权政策(本词条 “授权政策 ”),它分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是 开放源码这一特点,一般中小型网站的开发都选择 MySQL 作为网站数据库。 由于其社区版的性能卓越,搭配 PHP 和 Apache 可组成良好的开发环境。 (图 44) MySQL 是一个开放源码的小型关联式数据库管理系统,开发者为瑞典 MySQL AB 公司。 目前 MySQL 被广泛地应用在 Inter上的中小型网站中。 由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网站为了降低网站总体拥有成本而选择了 MySQL 作为网站 数据库。 5. 详细设计 该部分文档编写负责人 该部分文档复核人 最终版本 重要部分代码展示及 说明 : public class IndexUnit { private static Directory directory = null。 static{ try { directory = (new File(E:/work/Java_web_work/Lucene/index02/))。 } catch (IOException e) { ()。 } } public static Directory getDirectory() { return directory。 } private static Document generatorDoc(File f) throws IOException { if(()) return null。 Document doc = new Document()。 Metadata metadata = new Metadata()。 (new Field(content,new Tika().parse(new FileInputStream(f),metadata),))。 (new Field(title,(()),Fi,))。 (new Field(filename,(),))。 (new Field(path,(),ED))。 (new Field(type,(()),Fi))。 int page = 0。 try { page = ((xmpTPg:NPages))。 } catch (NumberFormatException e) { } (new NumericField(page,true).setIntValue(page))。 (new NumericField(date,true).setLongValue(()))。 (new NumericField(size,true).setIntValue((int)(()/1024)))。 return doc。 } public static void index(boolean hasNew) { IndexWriter writer = null。 try { writer = new IndexWriter(directory, new IndexWriterConfig(, new MMSegAnalyzer()))。 if(hasNew==true) { ()。 ()。 } File file = new File(E:/work/Java_web_work/Lucene/Example02/)。 Document doc = null。 for(File f:()) { doc = generatorDoc(f)。 if(doc!=null) (doc)。 } } catch (CorruptIndexException e) { ()。 } catch (LockObtainFailedException e) { ()。 } catch (IOException e) { ()。 } finally { try { if(writer!=null) ()。 } catch (CorruptIndexException e) { ()。 } catch (IOException e) { ()。 } } } } : public ArrayListString searcher(String word) { ArrayListString resList = new ArrayListString()。 try { IndexSearcher searcher = new IndexSearcher((()))。 TermQuery query = new TermQuery(new Term(content,word))。 TopDocs tds = (query,260)。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。