只有用户提交一些关键词才能获得的Web页面_中文_免费

只有用户提交一些关键词才能获得的Web页面

Web页面按存在方式可以分为表层网页（Surface Web）和深层网页（Deep Web，也称Invisible Web Pages 或Hidden Web）。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的Web页面。Deep Web是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的Web页面。例如那些用户注册后内容才可见的网页就属于Deep Web。2000年Bright Planet指出：Deep Web中可访问信息容量是Surface Web的几百倍，是互联网上最大、发展最快的新型信息资源。

Deep Web爬虫体系结构包含六个基本功能模块（爬行控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器）和两个爬虫内部数据结构（URL列表、LVS表）。其中LVS（Label Value Set）表示标签/数值集合，用来表示填充表单的数据源。

Deep Web爬虫爬行过程中最重要部分就是表单填写，包含两种类型：

（1）基于领域知识的表单填写：此方法一般会维持一个本体库，通过语义分析来选取合适的关键词填写表单。Yiyao Lu等人提出一种获取Form表单信息的多注解方法，将数据表单按语义分配到各个组中，对每组从多方面注解，结合各种注解结果来预测一个最终的注解标签；郑冬冬等人利用一个预定义的领域本体知识库来识别Deep Web页面内容，同时利用一些来自Web站点导航模式来识别自动填写表单时所需进行的路径导航。

（2）基于网页结构分析的表单填写：此方法一般无领域知识或仅有有限的领域知识，将网页表单表示成DOM树，从中提取表单各字段值。Desouky等人提出一种LEHW方法，该方法将HTML网页表示为DOM树形式，将表单区分为单属性表单和多属性表单，分别进行处理；孙彬等人提出一种基于XQuery的搜索系统，它能够模拟表单和特殊页面标记切换，把网页关键字切换信息描述为三元组单元，按照一定规则排除无效表单，将Web文档构造成DOM树，利用XQuery将文字属性映射到表单字段。

Raghavan等人提出的HIWE系统中，爬行管理器负责管理整个爬行过程，分析下载的页面，将包含表单的页面提交表单处理器处理，表单处理器先从页面中提取表单，从预先准备好的数据集中选择数据自动填充并提交表单，由爬行控制器下载相应的结果页面。

新型

只有用户提交一些关键词才能获得的Web页面

随便看看

爱问

搜狗

SOSO搜搜

Google 搜索

雅虎搜索

百度搜索

有道

中国搜索

网站分类