top
(README.md)
将爬虫爬取的网页进行分析,抽取出标题和正文

{
	"DownUrlDataPath": "D:/SearchEngine/down/downurldata.db",
	"ExtractWebpagePath": "D:/SearchEngine/extract/webpage/",
	"ExtractUrlDataPath": "D:/SearchEngine/extract/extracturldata.db"
}

假设网页被爬虫下载来后存的文件名为 xxx.html, 那么抽取后的标题和正文存在 ExtractWebpagePath 目录下,

那么存储标题的文件名为 xxx_title.txt, 存储正文的文件名为 xxx_body.txt 。实际上 xxx 为原网页url的md5值。

DownUrlDataPath 这个存储爬虫下载的网页信息。

ExtractUrlDataPath 这个sqlite数据库只有一个表(data), 且只有一个字段为 md5, 标记该网页已经分析过了。


-----------------------------------------------------------------------
提取后的文件的编码可能是GB2312编码格式, (在简体中文系统下,ansi 编码代表 GB2312 编码)
所以需要iconv_main.go将其转换为utf-8格式。

Imports 3 package(s)

  1. github.com/gansidui/gose/analyze/extractutil
  2. github.com/mattn/go-sqlite3
  3. code.google.com/p/mahonia