把网站内容变成可维护的全文 RSS
粘贴首页、栏目或文章列表页,先发现文章入口,再抽取正文并发布订阅地址。
从一个 URL 开始,后续再确认入口和正文规则。
填写首页、栏目或文章列表页。
选择会持续发现新文章的页面。
检查标题、全文、图片和 RSS 输出。
在运营台检测本地与公开地址。
运行总览
先看健康、待处理和发布队列,再决定是否抓取或排障。
—
创建全文 RSS
按“输入网站、确认入口、试抽取、预览、发布”完成;默认无需手写配置。
1. 输入网站或栏目
可以填首页、栏目页或文章列表页。系统会先识别入口和文章样本,再让你确认。
2. 发现内容
标记为「这是入口」的页面会作为爬取起点;发布后系统会持续从这些入口发现新文章链接并自动抓取(按你设定的更新频率)。
3. 试抽取正文
先用自动规则试抽取一篇文章。能拿到标题、正文和图片就直接预览;只有结果不对时再展开手动规则。
已确认文章样本(来自第 2 步)
样本用于判断不同页面模板。通常选一篇作为试抽取即可。
手动规则与 CSS 排障
全局移除(清洗用)
默认会去掉 svg、按钮、导航等噪音。每行一条即可。
文章必须 CSS(判定用)
只有页面同时命中这些 CSS(每行一条)才会当作文章抓取;未命中会继续发掘链接。
4. 预览 Feed
左侧是源页面,中间是清洗后的正文,右侧是 RSS 输出。勾选下方内容块决定最终保留。
点选正文块(勾选保留)
5. 发布 Feed
高级选项(可选)
多入口、URL 规则、CSS 等可在发布后在「高级设置 → 配置」中编辑。
Feed 已发布
名称:
Feed 运营台
每行只保留一个主动作;检测、抓取、暂停、清空等低频操作收进操作菜单。
订阅地址规则
公开订阅默认展示近 24h 内容。时间窗口预览仅本机 localhost 有效;英文订阅地址为 /feed/{slug}/en.xml。
请选择左侧日期或 24h 快览
—
—
运行与排障
用于查看调度、日志和异常处理;日常订阅与抓取请优先使用「运营」。
后台调度
抽取规则与预览
只有默认抽取不理想时再编辑这里。先选择站点、读取配置、粘贴文章 URL 预览,确认后保存。
文章样本(配置辅助)
核心正文匹配
多类文章规则 contentProfiles(可选)
元数据、封面与语言
正文清洗、截断与替换
正文保留与移除
段落移除筛选器(命中即删除)。对象选「元素」且运算符为「包含/匹配」时,按 CSS 选择器在段落内查找(如 a[href*="cointelegraph"] em strong);regex 等仍对 HTML 字符串匹配。行内“+且/+或”追加组内条件;“+组且/+组或”追加新组。
条件语法与「高级筛选器」相同(文本/链接/元素/属性等)。每条规则可:替换文本、删除元素、去掉链接保留文本、删除或设置属性(如 img 的 src、alt)。可选 elementSelector 缩小扫描范围(默认 a, img, p, span…)。
URL 范围、调度与抓取参数
URL 抓取范围
自动调度
主动抓取
文章自动保留
正文块预览(支持复制)
文章与队列
先看已入库文章;需要排查时再切到发现队列和错误状态。
已入库文章
按当前筛选显示最近文章。
发现队列
查看发现、跳过和错误链接。