首页

正则表达式在网页数据采集的应用与研究 10月02日

【摘要】随着Internet的快速发展与普及,人们越来越习惯于通过各种终端(PC、平板、手机等)从互联网来获取信息。基于Web的信息抽取技术就是研究从这些Web网页中如何定制提取出用户需要的信息,并把这些提取出的信息结构化处理。本文的主要工作是采用基于正则表达式的相关技术,以学术谷歌网站的论文采集以及澳客彩票网站的足彩投注数据采集分析两个应用为实例,给出Web网页信息的自动提取问题解决方法。在实现 […]