RSS 订阅台

本地抓取、清洗正文,并发布全文 RSS

快速状态 完整诊断
RG
本地 RSS全文发布

运行总览

本地抓取、清洗正文,并发布全文 RSS

把网站内容变成可维护的全文 RSS

粘贴首页、栏目或文章列表页,先发现文章入口,再抽取正文并发布订阅地址。

本地抓取入口与正文 清洗全文标题、图片、正文块 发布 RSS复制即可订阅
1 输入网站 2 预览正文 3 发布订阅

从一个 URL 开始,后续再确认入口和正文规则。

1输入网站

填写首页、栏目或文章列表页。

2确认入口

选择会持续发现新文章的页面。

3预览正文

检查标题、全文、图片和 RSS 输出。

4复制订阅

在运营台检测本地与公开地址。

运行总览

先看健康、待处理和发布队列,再决定是否抓取或排障。

创建全文 RSS

按“输入网站、确认入口、试抽取、预览、发布”完成;默认无需手写配置。

1. 输入网站或栏目

可以填首页、栏目页或文章列表页。系统会先识别入口和文章样本,再让你确认。

默认流程 自动发现入口 自动推荐正文规则 先试抽取,再发布

2. 发现内容

标记为「这是入口」的页面会作为爬取起点;发布后系统会持续从这些入口发现新文章链接并自动抓取(按你设定的更新频率)。

3. 试抽取正文

先用自动规则试抽取一篇文章。能拿到标题、正文和图片就直接预览;只有结果不对时再展开手动规则。

选择一篇文章后点击“试抽取”。

已确认文章样本(来自第 2 步)

样本用于判断不同页面模板。通常选一篇作为试抽取即可。

手动规则与 CSS 排障

全局移除(清洗用)

默认会去掉 svg、按钮、导航等噪音。每行一条即可。

文章必须 CSS(判定用)

只有页面同时命中这些 CSS(每行一条)才会当作文章抓取;未命中会继续发掘链接。

4. 预览 Feed

左侧是源页面,中间是清洗后的正文,右侧是 RSS 输出。勾选下方内容块决定最终保留。

点选正文块(勾选保留)

5. 发布 Feed

高级选项(可选)

多入口、URL 规则、CSS 等可在发布后在「高级设置 → 配置」中编辑。

Feed 运营台

每行只保留一个主动作;检测、抓取、暂停、清空等低频操作收进操作菜单。

订阅地址规则

公开订阅默认展示近 24h 内容。时间窗口预览仅本机 localhost 有效;英文订阅地址为 /feed/{slug}/en.xml

每日资讯综述

本机聚合已发布 RSS 可见文章,自动归纳每日重点话题;点击引用编号预览来源。

请选择左侧日期或 24h 快览

实体趋势

从每日 RSS 文章抽取人物、公司、地点,观察近 N 天提及变化(与「资讯」话题趋势分开)。

加载中…

运行与排障

用于查看调度、日志和异常处理;日常订阅与抓取请优先使用「运营」。

后台调度

加载中…

抽取规则与预览

只有默认抽取不理想时再编辑这里。先选择站点、读取配置、粘贴文章 URL 预览,确认后保存。

文章样本(配置辅助)

从已发现队列与已抓文章汇总 URL,按路径/规则类分组,便于配置多类正文规则与 urlAllowPatterns。先执行「发现链接」后样本更全。

选择站点并点击「读取配置」或「刷新样本」

核心正文匹配

日常只需要确认标题、正文容器和最小长度。多类规则和 requiredCss 仍可按需展开。

多类文章规则 contentProfiles(可选)
元数据、封面与语言

元数据(不进正文块)

用于 RSS 字段:作者、发布时间、封面。?

正文清洗、截断与替换

正文保留与移除

URL 范围、调度与抓取参数

URL 抓取范围

自动调度

对应「我的 Feed」里的「每 N 分钟」。后台调度会按此间隔自动执行入口发现 + 抓取(需站点为正常运行且启用调度)。

主动抓取

控制每轮从入口遍历多少页面、最多跟几层链接。保存后写入 config JSON,下次「发现并抓取」生效。

文章自动保留

保留最近 N 天:有发布时间的文章按 publishedAt;没有发布时间的按最后抓取/更新的 updatedAt。更早的文章会从 RSS 输出中隐藏。

正文块预览(支持复制)

文章与队列

先看已入库文章;需要排查时再切到发现队列和错误状态。

已入库文章

按当前筛选显示最近文章。