TrendRadar/readme.md

# TrendRadar - 多平台热点资讯监控分析系统

> 如果这个项目对你有帮助，请通过 **点击 Star ⭐** 支持我一下！

## ✨ 核心功能

- **全网热点聚合** - 一站式监控 11 个主流平台（今日头条、百度热搜、微博、抖音、知乎、B 站、财联社等），统一获取多源热点信息，提升信息获取效率

- **多维度热点分析** - 智能识别话题生命周期，追踪热点从爆发到消退的完整走势，为**媒体从业者**、**市场分析师**和**信息爱好者**提供舆情变化洞察

- 或者像我一样通过这个工具来**反向减少对各种 APP** 的使用依赖的。

- **智能内容筛选** - 支持自定义频率词和过滤词配置，精准定位关注话题，有效过滤无关信息噪音

- **多渠道实时推送** - 通过**飞书机器人**推送重要资讯，一键跳转新闻详情，实现移动端便捷访问

- **可视化数据报表** - 自动生成 HTML 统计报告，包含热点词频分析、时间轴追踪和排名变化趋势，提供直观的数据洞察

- **云端全自动化** - 基于 GitHub Actions 的 CI/CD 流水线，支持定时任务和 Webhook 触发，实现无服务器的持续监控

- **开箱即用部署** - 一键 Fork 即可部署，支持 GitHub Secrets 环境变量配置，简化部署流程和技术门槛

## 更新日志

### 2025/6/02

1. **网页**和**飞书消息**支持手机直接跳转详情新闻
2. 优化显示效果 + 1

### 2025/5/26

1. 飞书消息显示效果优化

<table>
<tr>
<td align="center">
优化前<br>
<img src="_image/before.jpg" alt="飞书消息界面 - 优化前" width="400"/>
</td>
<td align="center">
优化后<br>
<img src="_image/after.jpg" alt="飞书消息界面 - 优化后" width="400"/>
</td>
</tr>
</table>

已 fork 的同学只要复制 main.py 的所有代码到你的 github 直接覆盖即可(github 在线编辑)

## 🔍 支持的平台

目前已支持以下 11 个热门平台:

- 今日头条
- 百度热搜
- 华尔街见闻
- 澎湃新闻
- bilibili 热搜
- 财联社热门
- 凤凰网
- 贴吧
- 微博
- 抖音
- 知乎

## 🚀 使用方式

1. **Fork 本项目**到你的 GitHub 账户

   - 点击本页面右上角的"Fork"按钮

2. **设置 GitHub Secrets**:

   - 在你 Fork 后的仓库中，进入`Settings` > `Secrets and variables` > `Actions`
   - 点击"New repository secret"
   - 名称填写`FEISHU_WEBHOOK_URL`
   - 值填写你的飞书机器人 Webhook 地址(webhook 获取，请直接跳转到下方的 "🤖 飞书机器人设置")
   - 点击"Add secret"保存

3. **自定义关键词**:

   - 修改`frequency_words.txt`文件，添加你需要监控的频率词和过滤词

4. **自动运行**:

   - 项目已包含`.github/workflows/crawler.yml`配置文件，默认每 50 分钟自动运行一次
   - 你也可以在 GitHub 仓库的 Actions 页面手动触发运行

5. **查看结果**:
   - 运行结果将自动保存在仓库的`output`目录中
   - 同时通过飞书机器人发送通知到你的群组

## ⚙️ 配置说明

### 全局配置项

代码顶部的`CONFIG`字典包含了所有可配置的选项：

```python
CONFIG = {
    "FEISHU_SEPARATOR": "━━━━━━━━━━━━━━━━━━━",  # 飞书消息中，每个频率词之间的分割线
    "REQUEST_INTERVAL": 1000,  # 请求间隔(毫秒)
    "FEISHU_REPORT_TYPE": "daily",  # 可选: "current", "daily", "both"
    "RANK_THRESHOLD": 5,  # 排名阈值，前5名使用红色加粗显示
    "USE_PROXY": True,  # 是否启用本地代理
    "DEFAULT_PROXY": "http://127.0.0.1:10086",  # 默认代理地址
    "CONTINUE_WITHOUT_FEISHU": True,  # 控制是否在没有飞书webhook URL时继续执行爬虫
    "FEISHU_WEBHOOK_URL": "",  # 飞书机器人的webhook URL，默认为空，推荐通过GitHub Secrets设置
}
```

主要配置项说明：

- **REQUEST_INTERVAL**: 控制爬取不同平台之间的时间间隔，避免请求过于频繁
- **FEISHU_REPORT_TYPE**: 控制发送到飞书的报告类型
  - `current`: 只发送当前爬取结果
  - `daily`: 只发送当日汇总
  - `both`: 两者都发送
- **RANK_THRESHOLD**: 排名显示阈值，小于等于此值的排名使用红色加粗【】显示，大于此值使用普通[]显示
- **USE_PROXY**: 是否在本地运行时使用代理（GitHub Actions 环境会自动禁用）
- **DEFAULT_PROXY**: 本地代理地址
- **CONTINUE_WITHOUT_FEISHU**: 如果为`True`，即使没有飞书 webhook URL 也会执行爬虫；如果为`False`，则程序会退出
- **FEISHU_WEBHOOK_URL**: 飞书机器人的 webhook URL，可以直接在此设置，但更推荐使用 GitHub Secrets
- **FEISHU_SEPARATOR**: 飞书消息中不同频率词组之间的分割线样式

### 频率词和过滤词

在`frequency_words.txt`文件中配置监控的频率词和过滤词：

- 每组相关的频率词用换行分隔，不同组之间用空行分隔
- 以`!`开头的词为过滤词
- 如果一个标题既包含频率词又包含过滤词，则该标题不会被统计
- 每个标题只会被第一个匹配的词组统计，避免重复计算

示例：

```
人工智能
AI
GPT
大模型
!AI绘画

芯片
半导体
!芯片股
```

上述配置表示：

- 监控包含"人工智能"、"AI"、"GPT"或"大模型"的标题，但若同时包含"AI 绘画"则排除
- 监控包含"芯片"或"半导体"的标题，但若同时包含"芯片股"则排除

## 📊 输出示例

程序会生成两种报告：

1. **单次爬取报告**：每次爬取后生成的报告，包含当次爬取的热点数据
2. **当日汇总报告**：汇总当天所有爬取的数据，去重并统计出现频率和时间范围

### HTML 报告示例：

| 排名 | 频率词      | 出现次数 | 占比  | 相关标题                                                                                                                                  |
| ---- | ----------- | -------- | ----- | ----------------------------------------------------------------------------------------------------------------------------------------- |
| 1    | 人工智能 AI | 12       | 24.5% | [百度热搜] 科技巨头发布新 AI 模型 [**1**] - 12 时 30 分 (4 次)<br>[今日头条] AI 技术最新突破 [**2**] - [13 时 15 分 ~ 14 时 30 分] (2 次) |
| 2    | 芯片 半导体 | 8        | 16.3% | [华尔街见闻] 半导体行业最新动态 [**3**] - 12 时 45 分 (3 次)<br>[财联社] 芯片设计新技术 [7] - 14 时 00 分 (1 次)                          |

### 飞书通知示例：

```
📊 热点词汇统计

🔥 人工智能 AI : 12 条

  1. [百度热搜] 科技巨头发布新AI模型 [1] - 12时30分 (4次)

  2. [今日头条] AI技术最新突破 [2] - [13时15分 ~ 14时30分] (2次)

━━━━━━━━━━━━━━━━━━━

📈 芯片 半导体 : 8 条

  1. [华尔街见闻] 半导体行业最新动态 [3] - 12时45分 (3次)

  2. [财联社] 芯片设计新技术 [7] - 14时00分 (1次)

更新时间：2025-05-26 15:30:00
```

### 飞书消息格式说明

| 格式元素      | 示例                        | 含义         | 说明                                    |
| ------------- | --------------------------- | ------------ | --------------------------------------- |
| **关键词**    | **人工智能 AI**             | 频率词组     | 表示本组匹配的关键词                    |
| : N 条        | : 12 条                     | 匹配数量     | 该关键词组匹配的标题总数                |
| [平台名]      | [百度热搜]                  | 来源平台     | 标题所属的平台名称                      |
| [**数字**]    | [**1**]                     | 高排名标记   | 排名 ≤ 阈值(默认 5)的热搜，红色加粗显示 |
| [数字]        | [7]                         | 普通排名标记 | 排名>阈值的热搜，普通显示               |
| - 时间        | - 12 时 30 分               | 首次发现时间 | 标题首次被发现的时间                    |
| [时间 ~ 时间] | [12 时 30 分 ~ 14 时 00 分] | 时间范围     | 标题出现的时间范围(首次~最后)           |
| (N 次)        | (4 次)                      | 出现次数     | 标题在监控期间出现的总次数              |
| 🔥📈📌        | 🔥                          | 热度图标     | 根据出现次数显示不同热度等级            |

### 热度等级说明

- 🔥 **高频热词** (≥10 次): 使用红色显示，表示非常热门的话题
- 📈 **中频词汇** (5-9 次): 使用橙色显示，表示有一定热度的话题
- 📌 **低频词汇** (1-4 次): 使用默认颜色，表示新兴或小众话题

## 🤖 飞书机器人设置

1. 电脑浏览器打开 https://botbuilder.feishu.cn/home/my-app

2. 点击"新建机器人应用"

3. 进入创建的应用后，点击"流程涉及" > "创建流程" > "选择触发器"

4. 往下滑动，点击"Webhook 触发"

5. 此时你会看到"Webhook 地址",把这个链接先复制到本地记事本暂存，继续接下来的操作

6. "参数"里面放上下面的内容，然后点击"完成"

```json
{
  "message_type": "text",
  "content": {
    "total_titles": "{{内容}}",
    "timestamp": "{{内容}}",
    "report_type": "{{内容}}",
    "text": "{{内容}}"
  }
}
```

7. 点击"选择操作" > "发送飞书消息" ，勾选 "群消息", 然后点击下面的输入框，点击"我管理的群组"(如果没有群组，你可以在飞书 app 上创建群组)

8. 消息标题填写"TrendRadar 热点监控"

9. 最关键的部分来了，点击 + 按钮，选择"Webhook 触发"，然后按照下面的图片摆放

![飞书机器人配置示例](_image/image.png)

10. 到这里就配置完了，你可以等待手机接收消息(等几十分钟)，也可以在 Actions 页面手动触发一次 workflow(等待几十秒就行，不懂的可以问 ai)

11. 另外，output 目录下，有每天的 **当日统计.html**
    比如：https://github.com/sansan0/TrendRadar/tree/master/output/2025年05月05日/html ，你可以看到每天汇总的要点新闻，同时在根目录也会生成 `index.html` 方便直接访问

## 🔧 高级用法

### 自定义监控平台

如果想支持更多平台或者不想看某些平台，可以访问 newsnow 的源代码：https://github.com/ourongxing/newsnow/tree/main/server/sources ，根据里面的文件名自己来修改 main.py 中的下面代码：

```python
ids = [
    ("toutiao", "今日头条"),
    ("baidu", "百度热搜"),
    ("wallstreetcn-hot", "华尔街见闻"),
    ("thepaper", "澎湃新闻"),
    ("bilibili-hot-search", "bilibili 热搜"),
    ("cls-hot", "财联社热门"),
    ("ifeng", "凤凰网"),
    "tieba",
    "weibo",
    "douyin",
    "zhihu",
]
```

## ❓ 常见问题

1. **GitHub Actions 不执行怎么办？**

   - 检查`.github/workflows/crawler.yml`文件是否存在
   - 在 Actions 页面手动触发一次 workflow
   - 确认你有足够的 GitHub Actions 免费分钟数

2. **本地运行失败怎么办？**

   - 检查网络连接
   - 尝试修改`CONFIG`中的`USE_PROXY`和`DEFAULT_PROXY`设置
   - 检查依赖是否正确安装：`requests`、`pytz`

3. **没有收到飞书通知怎么办？**

   - 检查`FEISHU_WEBHOOK_URL`是否正确设置（环境变量或 CONFIG 中）
   - 检查飞书机器人是否仍在群内且启用
   - 查看程序输出中是否有发送失败的错误信息
   - 确认飞书流程配置中的参数结构正确

4. **想要停止爬虫行为但保留仓库怎么办？**

   - 将`CONTINUE_WITHOUT_FEISHU`设置为`False`并删除`FEISHU_WEBHOOK_URL`secret
   - 或修改 GitHub Actions workflow 文件禁用自动执行

5. **如何处理 API 限制或访问问题？**

   - 适当增加`REQUEST_INTERVAL`值，避免频繁请求
   - 程序已内置重试机制，一般的网络波动会自动处理
   - 本地运行时可尝试启用或更换代理

6. **频率词匹配不准确怎么办？**

   - 确保相关词组间用空行分隔
   - 合理使用过滤词（以!开头）排除不需要的内容
   - 词汇匹配是大小写不敏感的

7. **为什么某些标题没有被统计？**
   - 检查标题是否包含过滤词
   - 确认频率词配置是否正确
   - 每个标题只会被第一个匹配的词组统计

## 🙏 致谢

本项目使用了 [newsnow](https://github.com/ourongxing/newsnow) 提供的 API 服务，感谢其提供的数据支持。

## 📄 许可证

MIT License