mirror of
https://gitee.com/houhuan/TrendRadar.git
synced 2025-12-21 17:47:17 +08:00
305 lines
12 KiB
Markdown
305 lines
12 KiB
Markdown
# TrendRadar - 多平台热点资讯监控分析系统
|
||
|
||
TrendRadar 是一款多平台热点资讯监控工具,可自动追踪主流媒体平台的热门话题,实时分析热点走势,根据自定义关键词进行筛选,并通过精美报表或飞书机器人实时推送到手机上。无论你是媒体从业者、市场分析师、还是信息爱好者,TrendRadar 都能帮你第一时间捕捉全网热点脉搏。
|
||
|
||
或者像我一样通过这个工具来反向减少对各种 APP 的使用依赖的。
|
||
|
||
> 如果这个项目对你有帮助,请通过 **点击 Star ⭐** 支持我一下!
|
||
|
||
## ✨ 核心功能
|
||
|
||
- **多平台覆盖** - 一次监控 11 个主流平台(今日头条、百度热搜、微博、抖音、知乎、B 站等)
|
||
- **实时推送** - 支持飞书机器人通知,重要热点即时知晓
|
||
- **智能分析** - 自定义频率词和过滤词,精准捕捉你关心的热点
|
||
- **数据可视化** - 生成美观的 HTML 统计报告,热点一目了然
|
||
- **全自动化** - 基于 GitHub Actions,定时运行无需服务器
|
||
|
||
### 飞书消息显示效果优化(2025/5/26 更新)
|
||
|
||
<table>
|
||
<tr>
|
||
<td align="center">
|
||
优化前<br>
|
||
<img src="_image/before.jpg" alt="飞书消息界面 - 优化前" width="400"/>
|
||
</td>
|
||
<td align="center">
|
||
优化后<br>
|
||
<img src="_image/after.jpg" alt="飞书消息界面 - 优化后" width="400"/>
|
||
</td>
|
||
</tr>
|
||
</table>
|
||
|
||
已 fork 的同学只要复制 main.py 的所有代码到你的 github 直接覆盖即可(github 在线编辑)
|
||
|
||
## 🔍 支持的平台
|
||
|
||
目前已支持以下 11 个热门平台:
|
||
|
||
- 今日头条
|
||
- 百度热搜
|
||
- 华尔街见闻
|
||
- 澎湃新闻
|
||
- bilibili 热搜
|
||
- 财联社热门
|
||
- 凤凰网
|
||
- 贴吧
|
||
- 微博
|
||
- 抖音
|
||
- 知乎
|
||
|
||
## 🚀 使用方式
|
||
|
||
1. **Fork 本项目**到你的 GitHub 账户
|
||
|
||
- 点击本页面右上角的"Fork"按钮
|
||
|
||
2. **设置 GitHub Secrets**:
|
||
|
||
- 在你 Fork 后的仓库中,进入`Settings` > `Secrets and variables` > `Actions`
|
||
- 点击"New repository secret"
|
||
- 名称填写`FEISHU_WEBHOOK_URL`
|
||
- 值填写你的飞书机器人 Webhook 地址(webhook 获取,请直接跳转到下方的 "🤖 飞书机器人设置")
|
||
- 点击"Add secret"保存
|
||
|
||
3. **自定义关键词**:
|
||
|
||
- 修改`frequency_words.txt`文件,添加你需要监控的频率词和过滤词
|
||
|
||
4. **自动运行**:
|
||
|
||
- 项目已包含`.github/workflows/crawler.yml`配置文件,默认每 50 分钟自动运行一次
|
||
- 你也可以在 GitHub 仓库的 Actions 页面手动触发运行
|
||
|
||
5. **查看结果**:
|
||
- 运行结果将自动保存在仓库的`output`目录中
|
||
- 同时通过飞书机器人发送通知到你的群组
|
||
|
||
## ⚙️ 配置说明
|
||
|
||
### 全局配置项
|
||
|
||
代码顶部的`CONFIG`字典包含了所有可配置的选项:
|
||
|
||
```python
|
||
CONFIG = {
|
||
"FEISHU_SEPARATOR": "━━━━━━━━━━━━━━━━━━━", # 飞书消息中,每个频率词之间的分割线
|
||
"REQUEST_INTERVAL": 1000, # 请求间隔(毫秒)
|
||
"FEISHU_REPORT_TYPE": "daily", # 可选: "current", "daily", "both"
|
||
"RANK_THRESHOLD": 5, # 排名阈值,前5名使用红色加粗显示
|
||
"USE_PROXY": True, # 是否启用本地代理
|
||
"DEFAULT_PROXY": "http://127.0.0.1:10086", # 默认代理地址
|
||
"CONTINUE_WITHOUT_FEISHU": True, # 控制是否在没有飞书webhook URL时继续执行爬虫
|
||
"FEISHU_WEBHOOK_URL": "", # 飞书机器人的webhook URL,默认为空,推荐通过GitHub Secrets设置
|
||
}
|
||
```
|
||
|
||
主要配置项说明:
|
||
|
||
- **REQUEST_INTERVAL**: 控制爬取不同平台之间的时间间隔,避免请求过于频繁
|
||
- **FEISHU_REPORT_TYPE**: 控制发送到飞书的报告类型
|
||
- `current`: 只发送当前爬取结果
|
||
- `daily`: 只发送当日汇总
|
||
- `both`: 两者都发送
|
||
- **RANK_THRESHOLD**: 排名显示阈值,小于等于此值的排名使用红色加粗【】显示,大于此值使用普通[]显示
|
||
- **USE_PROXY**: 是否在本地运行时使用代理(GitHub Actions 环境会自动禁用)
|
||
- **DEFAULT_PROXY**: 本地代理地址
|
||
- **CONTINUE_WITHOUT_FEISHU**: 如果为`True`,即使没有飞书 webhook URL 也会执行爬虫;如果为`False`,则程序会退出
|
||
- **FEISHU_WEBHOOK_URL**: 飞书机器人的 webhook URL,可以直接在此设置,但更推荐使用 GitHub Secrets
|
||
- **FEISHU_SEPARATOR**: 飞书消息中不同频率词组之间的分割线样式
|
||
|
||
### 频率词和过滤词
|
||
|
||
在`frequency_words.txt`文件中配置监控的频率词和过滤词:
|
||
|
||
- 每组相关的频率词用换行分隔,不同组之间用空行分隔
|
||
- 以`!`开头的词为过滤词
|
||
- 如果一个标题既包含频率词又包含过滤词,则该标题不会被统计
|
||
- 每个标题只会被第一个匹配的词组统计,避免重复计算
|
||
|
||
示例:
|
||
|
||
```
|
||
人工智能
|
||
AI
|
||
GPT
|
||
大模型
|
||
!AI绘画
|
||
|
||
芯片
|
||
半导体
|
||
!芯片股
|
||
```
|
||
|
||
上述配置表示:
|
||
|
||
- 监控包含"人工智能"、"AI"、"GPT"或"大模型"的标题,但若同时包含"AI 绘画"则排除
|
||
- 监控包含"芯片"或"半导体"的标题,但若同时包含"芯片股"则排除
|
||
|
||
## 📊 输出示例
|
||
|
||
程序会生成两种报告:
|
||
|
||
1. **单次爬取报告**:每次爬取后生成的报告,包含当次爬取的热点数据
|
||
2. **当日汇总报告**:汇总当天所有爬取的数据,去重并统计出现频率和时间范围
|
||
|
||
### HTML 报告示例:
|
||
|
||
| 排名 | 频率词 | 出现次数 | 占比 | 相关标题 |
|
||
| ---- | ----------- | -------- | ----- | ----------------------------------------------------------------------------------------------------------------------------------------- |
|
||
| 1 | 人工智能 AI | 12 | 24.5% | [百度热搜] 科技巨头发布新 AI 模型 [**1**] - 12 时 30 分 (4 次)<br>[今日头条] AI 技术最新突破 [**2**] - [13 时 15 分 ~ 14 时 30 分] (2 次) |
|
||
| 2 | 芯片 半导体 | 8 | 16.3% | [华尔街见闻] 半导体行业最新动态 [**3**] - 12 时 45 分 (3 次)<br>[财联社] 芯片设计新技术 [7] - 14 时 00 分 (1 次) |
|
||
|
||
### 飞书通知示例:
|
||
|
||
```
|
||
📊 热点词汇统计
|
||
|
||
🔥 人工智能 AI : 12 条
|
||
|
||
1. [百度热搜] 科技巨头发布新AI模型 [1] - 12时30分 (4次)
|
||
|
||
2. [今日头条] AI技术最新突破 [2] - [13时15分 ~ 14时30分] (2次)
|
||
|
||
━━━━━━━━━━━━━━━━━━━
|
||
|
||
📈 芯片 半导体 : 8 条
|
||
|
||
1. [华尔街见闻] 半导体行业最新动态 [3] - 12时45分 (3次)
|
||
|
||
2. [财联社] 芯片设计新技术 [7] - 14时00分 (1次)
|
||
|
||
更新时间:2025-05-26 15:30:00
|
||
```
|
||
|
||
### 飞书消息格式说明
|
||
|
||
| 格式元素 | 示例 | 含义 | 说明 |
|
||
| ------------- | --------------------------- | ------------ | --------------------------------------- |
|
||
| **关键词** | **人工智能 AI** | 频率词组 | 表示本组匹配的关键词 |
|
||
| : N 条 | : 12 条 | 匹配数量 | 该关键词组匹配的标题总数 |
|
||
| [平台名] | [百度热搜] | 来源平台 | 标题所属的平台名称 |
|
||
| [**数字**] | [**1**] | 高排名标记 | 排名 ≤ 阈值(默认 5)的热搜,红色加粗显示 |
|
||
| [数字] | [7] | 普通排名标记 | 排名>阈值的热搜,普通显示 |
|
||
| - 时间 | - 12 时 30 分 | 首次发现时间 | 标题首次被发现的时间 |
|
||
| [时间 ~ 时间] | [12 时 30 分 ~ 14 时 00 分] | 时间范围 | 标题出现的时间范围(首次~最后) |
|
||
| (N 次) | (4 次) | 出现次数 | 标题在监控期间出现的总次数 |
|
||
| 🔥📈📌 | 🔥 | 热度图标 | 根据出现次数显示不同热度等级 |
|
||
|
||
### 热度等级说明
|
||
|
||
- 🔥 **高频热词** (≥10 次): 使用红色显示,表示非常热门的话题
|
||
- 📈 **中频词汇** (5-9 次): 使用橙色显示,表示有一定热度的话题
|
||
- 📌 **低频词汇** (1-4 次): 使用默认颜色,表示新兴或小众话题
|
||
|
||
## 🤖 飞书机器人设置
|
||
|
||
1. 电脑浏览器打开 https://botbuilder.feishu.cn/home/my-app
|
||
|
||
2. 点击"新建机器人应用"
|
||
|
||
3. 进入创建的应用后,点击"流程涉及" > "创建流程" > "选择触发器"
|
||
|
||
4. 往下滑动,点击"Webhook 触发"
|
||
|
||
5. 此时你会看到"Webhook 地址",把这个链接先复制到本地记事本暂存,继续接下来的操作
|
||
|
||
6. "参数"里面放上下面的内容,然后点击"完成"
|
||
|
||
```json
|
||
{
|
||
"message_type": "text",
|
||
"content": {
|
||
"total_titles": "{{内容}}",
|
||
"timestamp": "{{内容}}",
|
||
"report_type": "{{内容}}",
|
||
"text": "{{内容}}"
|
||
}
|
||
}
|
||
```
|
||
|
||
7. 点击"选择操作" > "发送飞书消息" ,勾选 "群消息", 然后点击下面的输入框,点击"我管理的群组"(如果没有群组,你可以在飞书 app 上创建群组)
|
||
|
||
8. 消息标题填写"TrendRadar 热点监控"
|
||
|
||
9. 最关键的部分来了,点击 + 按钮,选择"Webhook 触发",然后按照下面的图片摆放
|
||
|
||

|
||
|
||
10. 到这里就配置完了,你可以等待手机接收消息(等几十分钟),也可以在 Actions 页面手动触发一次 workflow(等待几十秒就行,不懂的可以问 ai)
|
||
|
||
11. 另外,output 目录下,有每天的 **当日统计.html**
|
||
比如:https://github.com/sansan0/TrendRadar/tree/master/output/2025年05月05日/html ,你可以看到每天汇总的要点新闻,同时在根目录也会生成 `index.html` 方便直接访问
|
||
|
||
## 🔧 高级用法
|
||
|
||
### 自定义监控平台
|
||
|
||
如果想支持更多平台或者不想看某些平台,可以访问 newsnow 的源代码:https://github.com/ourongxing/newsnow/tree/main/server/sources ,根据里面的文件名自己来修改 main.py 中的下面代码:
|
||
|
||
```python
|
||
ids = [
|
||
("toutiao", "今日头条"),
|
||
("baidu", "百度热搜"),
|
||
("wallstreetcn-hot", "华尔街见闻"),
|
||
("thepaper", "澎湃新闻"),
|
||
("bilibili-hot-search", "bilibili 热搜"),
|
||
("cls-hot", "财联社热门"),
|
||
("ifeng", "凤凰网"),
|
||
"tieba",
|
||
"weibo",
|
||
"douyin",
|
||
"zhihu",
|
||
]
|
||
```
|
||
|
||
## ❓ 常见问题
|
||
|
||
1. **GitHub Actions 不执行怎么办?**
|
||
|
||
- 检查`.github/workflows/crawler.yml`文件是否存在
|
||
- 在 Actions 页面手动触发一次 workflow
|
||
- 确认你有足够的 GitHub Actions 免费分钟数
|
||
|
||
2. **本地运行失败怎么办?**
|
||
|
||
- 检查网络连接
|
||
- 尝试修改`CONFIG`中的`USE_PROXY`和`DEFAULT_PROXY`设置
|
||
- 检查依赖是否正确安装:`requests`、`pytz`
|
||
|
||
3. **没有收到飞书通知怎么办?**
|
||
|
||
- 检查`FEISHU_WEBHOOK_URL`是否正确设置(环境变量或 CONFIG 中)
|
||
- 检查飞书机器人是否仍在群内且启用
|
||
- 查看程序输出中是否有发送失败的错误信息
|
||
- 确认飞书流程配置中的参数结构正确
|
||
|
||
4. **想要停止爬虫行为但保留仓库怎么办?**
|
||
|
||
- 将`CONTINUE_WITHOUT_FEISHU`设置为`False`并删除`FEISHU_WEBHOOK_URL`secret
|
||
- 或修改 GitHub Actions workflow 文件禁用自动执行
|
||
|
||
5. **如何处理 API 限制或访问问题?**
|
||
|
||
- 适当增加`REQUEST_INTERVAL`值,避免频繁请求
|
||
- 程序已内置重试机制,一般的网络波动会自动处理
|
||
- 本地运行时可尝试启用或更换代理
|
||
|
||
6. **频率词匹配不准确怎么办?**
|
||
|
||
- 确保相关词组间用空行分隔
|
||
- 合理使用过滤词(以!开头)排除不需要的内容
|
||
- 词汇匹配是大小写不敏感的
|
||
|
||
7. **为什么某些标题没有被统计?**
|
||
- 检查标题是否包含过滤词
|
||
- 确认频率词配置是否正确
|
||
- 每个标题只会被第一个匹配的词组统计
|
||
|
||
## 🙏 致谢
|
||
|
||
本项目使用了 [newsnow](https://github.com/ourongxing/newsnow) 提供的 API 服务,感谢其提供的数据支持。
|
||
|
||
## 📄 许可证
|
||
|
||
MIT License
|