首页

一种基于Simhash的文本快速去重算法 12月27日

【摘要】在万维网中,大多数的网页都是重复的,然而,这些重复的网页对于搜索引擎返回的搜索结果是冗余的,搜索结果大多数不能体现用户查询意图。如果能将这些冗余的搜索结果去重,并实现返回结果按照重复率最大的网页进行排序显示给用户,无疑是一种可以满足用户查询需求的方式,那么,网页去重亟需解决的是使用什么样的技术手段判断网页内容是重复的最重要,如何能够去除相同或者相似的网页可以提高检索效率、降低存储开销。实际 […]

【论文下载 - 中国知网/万方数据/维普/读秀/超星/国研/龙源/博看等资源库】

基于JB~c-LSM的三层缓存Key/Value索引系统 11月29日

【摘要】随着互联网技术的迅猛发展,网络访问数据量呈指数级增长,提高对海量数据的管理访问能力的需求变得越来越迫切,海量数据的索引性能的提升对于互联网的诸多应用会有极大的促进作用。ATR实验室开发的JBc-LSM系统是一种为自然语言处理N-gram模型的应用而设计的新型的海量数据索引系统,这个模型为了弥补传统B树的不足,设计了基于内存操作的高密度磁盘索引结构Bc。JBc-LSM系统在建库,批量查询和更 […]