public static interface HtmlTableParserUtil.IHtmlParserCall
限定符和类型 | 字段和说明 |
---|---|
static java.lang.String |
PARAM_END_PAGE_COUNT
结束页
|
static java.lang.String |
PARAM_FORMAT_PAGE_URL
(必须设置或实现接口)格式化每页地址,用{0}替换页面
|
static java.lang.String |
PARAM_HOME_URL
(必须设置)爬虫主页
|
static java.lang.String |
PARAM_MANUAL_TASK_URLS
是否自定义获取任务urls,默认自动获取false,通过getFixedBatchList设置task,否则手动获取:true 此设置后不用设置PARAM_HOME_URL,PARAM_FORMAT_PAGE_URL,PARAM_XPATH_PAGE_COUNT,PARAM_START_PAGE_COUNT,PARAM_END_PAGE_COUNT
|
static java.lang.String |
PARAM_MAX_PAGE_COUNT
处理最多总页数
|
static java.lang.String |
PARAM_MAX_THREAD_COUNT
最大线程数
|
static java.lang.String |
PARAM_RECORD_COUNT
最多抽取记录数
|
static java.lang.String |
PARAM_RETURN
添加返回值键值对
|
static java.lang.String |
PARAM_START_PAGE_COUNT
开始页
|
static java.lang.String |
PARAM_XPATH_CONTENT
(必须设置)文章查xpath路径,默认精确到下拉获取
|
static java.lang.String |
PARAM_XPATH_PAGE_COUNT
(必须设置)总页数xpath路径,默认精确到总页数上面一层
|
static java.lang.String |
PARAM_XPATH_TITLES
(必须设置)标题列表xpath路径,默认精确到a链接
|
static java.lang.String |
RETURN_CONTENT
标题内容
|
static java.lang.String |
RETURN_PATH
地址
|
static java.lang.String |
RETURN_TITLE
标题
|
static java.lang.String |
RETURN_TITLE_HREF
标题链接
|
限定符和类型 | 方法和说明 |
---|---|
java.lang.String |
content(com.gargoylesoftware.htmlunit.html.HtmlPage page,
java.lang.String xpathContent)
获取内容
|
java.util.List<java.lang.String> |
getTasks()
获取任务url
|
int |
pageCount(com.gargoylesoftware.htmlunit.html.DomElement element)
获取页面总页数
|
java.lang.String |
pageUrl(java.lang.String url,
int page)
获取分页地址
|
java.lang.String |
title(com.gargoylesoftware.htmlunit.html.DomElement element)
获取标题的名称
|
com.gargoylesoftware.htmlunit.html.DomElement |
titleDomElement(com.gargoylesoftware.htmlunit.html.DomElement element)
获取标题的DomElement
|
java.lang.String |
titleHref(com.gargoylesoftware.htmlunit.html.DomElement element)
获取标题的链接
|
static final java.lang.String PARAM_HOME_URL
static final java.lang.String PARAM_XPATH_PAGE_COUNT
static final java.lang.String PARAM_START_PAGE_COUNT
static final java.lang.String PARAM_END_PAGE_COUNT
static final java.lang.String PARAM_MAX_PAGE_COUNT
static final java.lang.String PARAM_FORMAT_PAGE_URL
static final java.lang.String PARAM_MAX_THREAD_COUNT
static final java.lang.String PARAM_XPATH_TITLES
static final java.lang.String PARAM_XPATH_CONTENT
static final java.lang.String PARAM_RECORD_COUNT
static final java.lang.String PARAM_MANUAL_TASK_URLS
static final java.lang.String PARAM_RETURN
static final java.lang.String RETURN_TITLE
static final java.lang.String RETURN_TITLE_HREF
static final java.lang.String RETURN_CONTENT
static final java.lang.String RETURN_PATH
int pageCount(com.gargoylesoftware.htmlunit.html.DomElement element)
element
- 当前节点对象java.lang.String pageUrl(java.lang.String url, int page)
url
- 替换的urlelement
- 当前页面(从1开始)com.gargoylesoftware.htmlunit.html.DomElement titleDomElement(com.gargoylesoftware.htmlunit.html.DomElement element)
element
- 当前节点对象java.lang.String title(com.gargoylesoftware.htmlunit.html.DomElement element)
element
- 当前节点对象java.lang.String titleHref(com.gargoylesoftware.htmlunit.html.DomElement element)
element
- 当前节点对象java.lang.String content(com.gargoylesoftware.htmlunit.html.HtmlPage page, java.lang.String xpathContent)
page
- 当前节点对象xpathContent
- 内容路径java.util.List<java.lang.String> getTasks()