TrendRadar/readme.md
2025-06-02 16:50:01 +08:00

320 lines
12 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# TrendRadar - 多平台热点资讯监控分析系统
> 如果这个项目对你有帮助,请通过 **点击 Star ⭐** 支持我一下!
## ✨ 核心功能
- **全网热点聚合** - 一站式监控 11 个主流平台今日头条、百度热搜、微博、抖音、知乎、B 站、财联社等),统一获取多源热点信息,提升信息获取效率
- **多维度热点分析** - 智能识别话题生命周期,追踪热点从爆发到消退的完整走势,为**媒体从业者**、**市场分析师**和**信息爱好者**提供舆情变化洞察
- 或者像我一样通过这个工具来**反向减少对各种 APP** 的使用依赖的。
- **智能内容筛选** - 支持自定义频率词和过滤词配置,精准定位关注话题,有效过滤无关信息噪音
- **多渠道实时推送** - 通过**飞书机器人**推送重要资讯,一键跳转新闻详情,实现移动端便捷访问
- **可视化数据报表** - 自动生成 HTML 统计报告,包含热点词频分析、时间轴追踪和排名变化趋势,提供直观的数据洞察
- **云端全自动化** - 基于 GitHub Actions 的 CI/CD 流水线,支持定时任务和 Webhook 触发,实现无服务器的持续监控
- **开箱即用部署** - 一键 Fork 即可部署,支持 GitHub Secrets 环境变量配置,简化部署流程和技术门槛
## 更新日志
### 2025/6/02
1. **网页**和**飞书消息**支持手机直接跳转详情新闻
2. 优化显示效果 + 1
### 2025/5/26
1. 飞书消息显示效果优化
<table>
<tr>
<td align="center">
优化前<br>
<img src="_image/before.jpg" alt="飞书消息界面 - 优化前" width="400"/>
</td>
<td align="center">
优化后<br>
<img src="_image/after.jpg" alt="飞书消息界面 - 优化后" width="400"/>
</td>
</tr>
</table>
已 fork 的同学只要复制 main.py 的所有代码到你的 github 直接覆盖即可(github 在线编辑)
## 🔍 支持的平台
目前已支持以下 11 个热门平台:
- 今日头条
- 百度热搜
- 华尔街见闻
- 澎湃新闻
- bilibili 热搜
- 财联社热门
- 凤凰网
- 贴吧
- 微博
- 抖音
- 知乎
## 🚀 使用方式
1. **Fork 本项目**到你的 GitHub 账户
- 点击本页面右上角的"Fork"按钮
2. **设置 GitHub Secrets**:
- 在你 Fork 后的仓库中,进入`Settings` > `Secrets and variables` > `Actions`
- 点击"New repository secret"
- 名称填写`FEISHU_WEBHOOK_URL`
- 值填写你的飞书机器人 Webhook 地址(webhook 获取,请直接跳转到下方的 "🤖 飞书机器人设置")
- 点击"Add secret"保存
3. **自定义关键词**:
- 修改`frequency_words.txt`文件,添加你需要监控的频率词和过滤词
4. **自动运行**:
- 项目已包含`.github/workflows/crawler.yml`配置文件,默认每 50 分钟自动运行一次
- 你也可以在 GitHub 仓库的 Actions 页面手动触发运行
5. **查看结果**:
- 运行结果将自动保存在仓库的`output`目录中
- 同时通过飞书机器人发送通知到你的群组
## ⚙️ 配置说明
### 全局配置项
代码顶部的`CONFIG`字典包含了所有可配置的选项:
```python
CONFIG = {
"FEISHU_SEPARATOR": "━━━━━━━━━━━━━━━━━━━", # 飞书消息中,每个频率词之间的分割线
"REQUEST_INTERVAL": 1000, # 请求间隔(毫秒)
"FEISHU_REPORT_TYPE": "daily", # 可选: "current", "daily", "both"
"RANK_THRESHOLD": 5, # 排名阈值前5名使用红色加粗显示
"USE_PROXY": True, # 是否启用本地代理
"DEFAULT_PROXY": "http://127.0.0.1:10086", # 默认代理地址
"CONTINUE_WITHOUT_FEISHU": True, # 控制是否在没有飞书webhook URL时继续执行爬虫
"FEISHU_WEBHOOK_URL": "", # 飞书机器人的webhook URL默认为空推荐通过GitHub Secrets设置
}
```
主要配置项说明:
- **REQUEST_INTERVAL**: 控制爬取不同平台之间的时间间隔,避免请求过于频繁
- **FEISHU_REPORT_TYPE**: 控制发送到飞书的报告类型
- `current`: 只发送当前爬取结果
- `daily`: 只发送当日汇总
- `both`: 两者都发送
- **RANK_THRESHOLD**: 排名显示阈值,小于等于此值的排名使用红色加粗【】显示,大于此值使用普通[]显示
- **USE_PROXY**: 是否在本地运行时使用代理GitHub Actions 环境会自动禁用)
- **DEFAULT_PROXY**: 本地代理地址
- **CONTINUE_WITHOUT_FEISHU**: 如果为`True`,即使没有飞书 webhook URL 也会执行爬虫;如果为`False`,则程序会退出
- **FEISHU_WEBHOOK_URL**: 飞书机器人的 webhook URL可以直接在此设置但更推荐使用 GitHub Secrets
- **FEISHU_SEPARATOR**: 飞书消息中不同频率词组之间的分割线样式
### 频率词和过滤词
在`frequency_words.txt`文件中配置监控的频率词和过滤词:
- 每组相关的频率词用换行分隔,不同组之间用空行分隔
- 以`!`开头的词为过滤词
- 如果一个标题既包含频率词又包含过滤词,则该标题不会被统计
- 每个标题只会被第一个匹配的词组统计,避免重复计算
示例:
```
人工智能
AI
GPT
大模型
!AI绘画
芯片
半导体
!芯片股
```
上述配置表示:
- 监控包含"人工智能"、"AI"、"GPT"或"大模型"的标题,但若同时包含"AI 绘画"则排除
- 监控包含"芯片"或"半导体"的标题,但若同时包含"芯片股"则排除
## 📊 输出示例
程序会生成两种报告:
1. **单次爬取报告**:每次爬取后生成的报告,包含当次爬取的热点数据
2. **当日汇总报告**:汇总当天所有爬取的数据,去重并统计出现频率和时间范围
### HTML 报告示例:
| 排名 | 频率词 | 出现次数 | 占比 | 相关标题 |
| ---- | ----------- | -------- | ----- | ----------------------------------------------------------------------------------------------------------------------------------------- |
| 1 | 人工智能 AI | 12 | 24.5% | [百度热搜] 科技巨头发布新 AI 模型 [**1**] - 12 时 30 分 (4 次)<br>[今日头条] AI 技术最新突破 [**2**] - [13 时 15 分 ~ 14 时 30 分] (2 次) |
| 2 | 芯片 半导体 | 8 | 16.3% | [华尔街见闻] 半导体行业最新动态 [**3**] - 12 时 45 分 (3 次)<br>[财联社] 芯片设计新技术 [7] - 14 时 00 分 (1 次) |
### 飞书通知示例:
```
📊 热点词汇统计
🔥 人工智能 AI : 12 条
1. [百度热搜] 科技巨头发布新AI模型 [1] - 12时30分 (4次)
2. [今日头条] AI技术最新突破 [2] - [13时15分 ~ 14时30分] (2次)
━━━━━━━━━━━━━━━━━━━
📈 芯片 半导体 : 8 条
1. [华尔街见闻] 半导体行业最新动态 [3] - 12时45分 (3次)
2. [财联社] 芯片设计新技术 [7] - 14时00分 (1次)
更新时间2025-05-26 15:30:00
```
### 飞书消息格式说明
| 格式元素 | 示例 | 含义 | 说明 |
| ------------- | --------------------------- | ------------ | --------------------------------------- |
| **关键词** | **人工智能 AI** | 频率词组 | 表示本组匹配的关键词 |
| : N 条 | : 12 条 | 匹配数量 | 该关键词组匹配的标题总数 |
| [平台名] | [百度热搜] | 来源平台 | 标题所属的平台名称 |
| [**数字**] | [**1**] | 高排名标记 | 排名 ≤ 阈值(默认 5)的热搜,红色加粗显示 |
| [数字] | [7] | 普通排名标记 | 排名>阈值的热搜,普通显示 |
| - 时间 | - 12 时 30 分 | 首次发现时间 | 标题首次被发现的时间 |
| [时间 ~ 时间] | [12 时 30 分 ~ 14 时 00 分] | 时间范围 | 标题出现的时间范围(首次~最后) |
| (N 次) | (4 次) | 出现次数 | 标题在监控期间出现的总次数 |
| 🔥📈📌 | 🔥 | 热度图标 | 根据出现次数显示不同热度等级 |
### 热度等级说明
- 🔥 **高频热词** (≥10 次): 使用红色显示,表示非常热门的话题
- 📈 **中频词汇** (5-9 次): 使用橙色显示,表示有一定热度的话题
- 📌 **低频词汇** (1-4 次): 使用默认颜色,表示新兴或小众话题
## 🤖 飞书机器人设置
1. 电脑浏览器打开 https://botbuilder.feishu.cn/home/my-app
2. 点击"新建机器人应用"
3. 进入创建的应用后,点击"流程涉及" > "创建流程" > "选择触发器"
4. 往下滑动,点击"Webhook 触发"
5. 此时你会看到"Webhook 地址",把这个链接先复制到本地记事本暂存,继续接下来的操作
6. "参数"里面放上下面的内容,然后点击"完成"
```json
{
"message_type": "text",
"content": {
"total_titles": "{{内容}}",
"timestamp": "{{内容}}",
"report_type": "{{内容}}",
"text": "{{内容}}"
}
}
```
7. 点击"选择操作" > "发送飞书消息" ,勾选 "群消息", 然后点击下面的输入框,点击"我管理的群组"(如果没有群组,你可以在飞书 app 上创建群组)
8. 消息标题填写"TrendRadar 热点监控"
9. 最关键的部分来了,点击 + 按钮,选择"Webhook 触发",然后按照下面的图片摆放
![飞书机器人配置示例](_image/image.png)
10. 到这里就配置完了,你可以等待手机接收消息(等几十分钟),也可以在 Actions 页面手动触发一次 workflow(等待几十秒就行,不懂的可以问 ai)
11. 另外output 目录下,有每天的 **当日统计.html**
比如https://github.com/sansan0/TrendRadar/tree/master/output/2025年05月05日/html ,你可以看到每天汇总的要点新闻,同时在根目录也会生成 `index.html` 方便直接访问
## 🔧 高级用法
### 自定义监控平台
如果想支持更多平台或者不想看某些平台,可以访问 newsnow 的源代码https://github.com/ourongxing/newsnow/tree/main/server/sources ,根据里面的文件名自己来修改 main.py 中的下面代码:
```python
ids = [
("toutiao", "今日头条"),
("baidu", "百度热搜"),
("wallstreetcn-hot", "华尔街见闻"),
("thepaper", "澎湃新闻"),
("bilibili-hot-search", "bilibili 热搜"),
("cls-hot", "财联社热门"),
("ifeng", "凤凰网"),
"tieba",
"weibo",
"douyin",
"zhihu",
]
```
## ❓ 常见问题
1. **GitHub Actions 不执行怎么办?**
- 检查`.github/workflows/crawler.yml`文件是否存在
- 在 Actions 页面手动触发一次 workflow
- 确认你有足够的 GitHub Actions 免费分钟数
2. **本地运行失败怎么办?**
- 检查网络连接
- 尝试修改`CONFIG`中的`USE_PROXY`和`DEFAULT_PROXY`设置
- 检查依赖是否正确安装:`requests`、`pytz`
3. **没有收到飞书通知怎么办?**
- 检查`FEISHU_WEBHOOK_URL`是否正确设置(环境变量或 CONFIG 中)
- 检查飞书机器人是否仍在群内且启用
- 查看程序输出中是否有发送失败的错误信息
- 确认飞书流程配置中的参数结构正确
4. **想要停止爬虫行为但保留仓库怎么办?**
- 将`CONTINUE_WITHOUT_FEISHU`设置为`False`并删除`FEISHU_WEBHOOK_URL`secret
- 或修改 GitHub Actions workflow 文件禁用自动执行
5. **如何处理 API 限制或访问问题?**
- 适当增加`REQUEST_INTERVAL`值,避免频繁请求
- 程序已内置重试机制,一般的网络波动会自动处理
- 本地运行时可尝试启用或更换代理
6. **频率词匹配不准确怎么办?**
- 确保相关词组间用空行分隔
- 合理使用过滤词(以!开头)排除不需要的内容
- 词汇匹配是大小写不敏感的
7. **为什么某些标题没有被统计?**
- 检查标题是否包含过滤词
- 确认频率词配置是否正确
- 每个标题只会被第一个匹配的词组统计
## 🙏 致谢
本项目使用了 [newsnow](https://github.com/ourongxing/newsnow) 提供的 API 服务,感谢其提供的数据支持。
## 📄 许可证
MIT License