语义结构和网页数据抓取规则定义工具MetaStudio
时间:2010-04-08 来源:geo898
MetaStudio是描述网页语义结构并自动生成网页数据抓取规则的工具。通常,网页数据抓取规则是手工编写的,很容易出错,需要比较麻烦的调试 和测试,而且需要使用多个样例网页进行验证,经过多次修正,最终才能获得一个合适的网页数据抓取规则。另外,由于目标网页结构会改变,届时,又得花费很多 时间修改原先定义的网页数据抓取规则。MetaStudio将上述所有这些费时且易错的工作自动化,网页数据抓取规则自动生成,并即时进行验证,如果今后 页面结构变化了,只需要使用MetaStudio的友好的图形化界面修正一下即可,而且,由于采用了专利技术FreeFormat, 锁定目标页面结构变化的能力很强,即使页面结构进行了比较大的改变,MetaStudio生成的网页数据抓取规则也能适应新结构。
MetaStudio V4.x版本进一步提高了网页数据抓取的适应性, 在自动生成网页数据抓取规则的基础上,引入了两个层面的手工自定义抓取规则:自定义XPath节点定位表达式和自定义XSLT网页语义块抓取指令,而且将 自定义的抓取规则无缝集成到自动生成的网页抓取规 则文件中,使用单一网页数据抓取规则文件即可完成特定主题页面的数据 抽取任务。
详细的版本特性参见MetaSeeker V4.x版本说明
通过阅读本手册,您可以掌握 MetaStudio 的使用方法,即
- 描述Web页面语义结构,存储于信息结构描述 文件中
- 自动生成网页数据抓取规则
- 验证网页数据抓取规则的有效性
- 对以前定义的信息结构进行维护和修改,以适用变化了的网页结构
- 维护用户帐户和语义结构数据库
通过MetaSeeker提供的友好的图形用户界面(GUI),定义一个新主题的网页数据抓取规则仅仅需要几分钟时间,接下来的章节将详细展示怎样 使用该工具。
相关阅读 更多 +