技术标签:web,中文,信息检索,搜索引擎
产业分类:经济分类:信息传输、计算机服务和软件业
成果所属人:海南大学技术成熟度:小试阶段
是否指派:否计划转让金额:面议
合作方式:联系人:牛老师
联系电话:联系邮箱:niujj@ige-live.com
中图分类:TP393.09
学科分类:520.30
成果类别:应用技术
研究起止时间:2007-01~2008-12
评价形式:验收
本课题研究以构建高性能大型搜索引擎为目标,以指导应用为主导思想,在充分阅读相关文献资料的基础上,采用理论与实际相结合的方法展开研究,取得了如下研究成果: 1、搭建了海量Web信息检索实验系统,整个系统包括索引子系统、中文分词子系统、特征抽取子系统等部分。 2、提出了一种基于模板的网页正文内容提取方法。 3、结合KNN分类算法,对文本分类中的四种特征选择方法,即互信息、信息增益、x2统计和期望交叉熵分别进行评估,提出并讨论了互信息修正的两种方法。 4、提出了一种用于蚁群算法的熵模型,并就相关问题进行了研究。 5、对基于Web页面内容的排序算法、基于Web页面链接分析的排序算法和基于检索用户的排序算法进行了研究。 6、设计开发了海南省地区性搜索引擎、Web新闻自动采集发布系统。 7、完成专著《现代信息检索理论与技术》一书第1、2章的撰写工作,约7万字。本项目所取得的成果以论文方式发表在国内正式学术刊物上,共发表论文4篇,其中3篇标明了项目基金号。 总的说来,项目成果对于大规模中文搜索引擎特别是地区性中文搜索引擎的研发具有一定的指导意义,所开发的海南省地区搜索引擎具有一定的商用价值,经过简单修改也可用于数字图书馆、信息检索服务中心等应用部门,同时,可推广到大型门户网站用作站内搜索引擎,或者筹措资金建设独立的搜索引擎服务网站。