mirror of
https://gitee.com/houhuan/TrendRadar.git
synced 2025-12-21 14:27:15 +08:00
Update readme.md
This commit is contained in:
parent
72954d0fa8
commit
3521a74307
146
readme.md
146
readme.md
@ -1,4 +1,4 @@
|
||||
# TrendRadar - 多平台热点资讯监控分析系统
|
||||
# TrendRadar-多平台热点资讯监控分析系统
|
||||
|
||||
> 如果这个项目对你有帮助,请通过 **点击 Star ⭐** 支持我一下!
|
||||
|
||||
@ -8,9 +8,9 @@
|
||||
|
||||
- **多维度热点分析** - 智能识别话题生命周期,追踪热点从爆发到消退的完整走势,为**媒体从业者**、**市场分析师**和**信息爱好者**提供舆情变化洞察
|
||||
|
||||
- 或者像我一样通过这个工具来**反向减少对各种 APP** 的使用依赖的。
|
||||
- 或者像我一样通过这个工具来**反向减少对各种 APP** 的使用依赖的
|
||||
|
||||
- **智能内容筛选** - 支持自定义频率词和过滤词配置,精准定位关注话题,有效过滤无关信息噪音
|
||||
- **智能内容筛选** - 支持自定义频率词,过滤词和必须词的配置,精准定位关注话题,有效过滤无关信息噪音
|
||||
|
||||
- **多渠道实时推送** - 通过**飞书机器人**推送重要资讯,一键跳转新闻详情,实现移动端便捷访问
|
||||
|
||||
@ -22,12 +22,41 @@
|
||||
|
||||
## 更新日志
|
||||
|
||||
### 2025/6/02
|
||||
### 2025/06/09
|
||||
|
||||
**100 star⭐** 了,写个小功能给大伙儿助助兴
|
||||
frequency_words.txt 文件增加了一个【必须词】功能,使用 + 号
|
||||
|
||||
1. 默认的频率词语法如下:
|
||||
唐僧或者猪八戒在标题中出现一个就可以被记录到推送
|
||||
|
||||
```
|
||||
唐僧
|
||||
猪八戒
|
||||
```
|
||||
|
||||
2. 必须词语法如下:
|
||||
唐僧或者猪八戒必须在标题里同时出现
|
||||
|
||||
```
|
||||
+唐僧
|
||||
+猪八戒
|
||||
```
|
||||
|
||||
3. 过滤词的优先级更高:
|
||||
如果标题中匹配到唐僧念经,那么即使必须词里有唐僧,也不显示
|
||||
|
||||
```
|
||||
+唐僧
|
||||
!唐僧念经
|
||||
```
|
||||
|
||||
### 2025/06/02
|
||||
|
||||
1. **网页**和**飞书消息**支持手机直接跳转详情新闻
|
||||
2. 优化显示效果 + 1
|
||||
|
||||
### 2025/5/26
|
||||
### 2025/05/26
|
||||
|
||||
1. 飞书消息显示效果优化
|
||||
|
||||
@ -44,7 +73,7 @@
|
||||
</tr>
|
||||
</table>
|
||||
|
||||
已 fork 的同学只要复制 main.py 的所有代码到你的 github 直接覆盖即可(github 在线编辑)
|
||||
**不定期更新**,已 **fork** 的同学只需要复制本项目 **main.py** 的所有代码到你的 github 直接覆盖即可(github 在线编辑)
|
||||
|
||||
## 🔍 支持的平台
|
||||
|
||||
@ -91,37 +120,6 @@
|
||||
|
||||
## ⚙️ 配置说明
|
||||
|
||||
### 全局配置项
|
||||
|
||||
代码顶部的`CONFIG`字典包含了所有可配置的选项:
|
||||
|
||||
```python
|
||||
CONFIG = {
|
||||
"FEISHU_SEPARATOR": "━━━━━━━━━━━━━━━━━━━", # 飞书消息中,每个频率词之间的分割线
|
||||
"REQUEST_INTERVAL": 1000, # 请求间隔(毫秒)
|
||||
"FEISHU_REPORT_TYPE": "daily", # 可选: "current", "daily", "both"
|
||||
"RANK_THRESHOLD": 5, # 排名阈值,前5名使用红色加粗显示
|
||||
"USE_PROXY": True, # 是否启用本地代理
|
||||
"DEFAULT_PROXY": "http://127.0.0.1:10086", # 默认代理地址
|
||||
"CONTINUE_WITHOUT_FEISHU": True, # 控制是否在没有飞书webhook URL时继续执行爬虫
|
||||
"FEISHU_WEBHOOK_URL": "", # 飞书机器人的webhook URL,默认为空,推荐通过GitHub Secrets设置
|
||||
}
|
||||
```
|
||||
|
||||
主要配置项说明:
|
||||
|
||||
- **REQUEST_INTERVAL**: 控制爬取不同平台之间的时间间隔,避免请求过于频繁
|
||||
- **FEISHU_REPORT_TYPE**: 控制发送到飞书的报告类型
|
||||
- `current`: 只发送当前爬取结果
|
||||
- `daily`: 只发送当日汇总
|
||||
- `both`: 两者都发送
|
||||
- **RANK_THRESHOLD**: 排名显示阈值,小于等于此值的排名使用红色加粗【】显示,大于此值使用普通[]显示
|
||||
- **USE_PROXY**: 是否在本地运行时使用代理(GitHub Actions 环境会自动禁用)
|
||||
- **DEFAULT_PROXY**: 本地代理地址
|
||||
- **CONTINUE_WITHOUT_FEISHU**: 如果为`True`,即使没有飞书 webhook URL 也会执行爬虫;如果为`False`,则程序会退出
|
||||
- **FEISHU_WEBHOOK_URL**: 飞书机器人的 webhook URL,可以直接在此设置,但更推荐使用 GitHub Secrets
|
||||
- **FEISHU_SEPARATOR**: 飞书消息中不同频率词组之间的分割线样式
|
||||
|
||||
### 频率词和过滤词
|
||||
|
||||
在`frequency_words.txt`文件中配置监控的频率词和过滤词:
|
||||
@ -139,31 +137,14 @@ AI
|
||||
GPT
|
||||
大模型
|
||||
!AI绘画
|
||||
|
||||
芯片
|
||||
半导体
|
||||
!芯片股
|
||||
```
|
||||
|
||||
上述配置表示:
|
||||
|
||||
- 监控包含"人工智能"、"AI"、"GPT"或"大模型"的标题,但若同时包含"AI 绘画"则排除
|
||||
- 监控包含"芯片"或"半导体"的标题,但若同时包含"芯片股"则排除
|
||||
|
||||
## 📊 输出示例
|
||||
|
||||
程序会生成两种报告:
|
||||
|
||||
1. **单次爬取报告**:每次爬取后生成的报告,包含当次爬取的热点数据
|
||||
2. **当日汇总报告**:汇总当天所有爬取的数据,去重并统计出现频率和时间范围
|
||||
|
||||
### HTML 报告示例:
|
||||
|
||||
| 排名 | 频率词 | 出现次数 | 占比 | 相关标题 |
|
||||
| ---- | ----------- | -------- | ----- | ----------------------------------------------------------------------------------------------------------------------------------------- |
|
||||
| 1 | 人工智能 AI | 12 | 24.5% | [百度热搜] 科技巨头发布新 AI 模型 [**1**] - 12 时 30 分 (4 次)<br>[今日头条] AI 技术最新突破 [**2**] - [13 时 15 分 ~ 14 时 30 分] (2 次) |
|
||||
| 2 | 芯片 半导体 | 8 | 16.3% | [华尔街见闻] 半导体行业最新动态 [**3**] - 12 时 45 分 (3 次)<br>[财联社] 芯片设计新技术 [7] - 14 时 00 分 (1 次) |
|
||||
|
||||
### 飞书通知示例:
|
||||
|
||||
```
|
||||
@ -175,15 +156,6 @@ GPT
|
||||
|
||||
2. [今日头条] AI技术最新突破 [2] - [13时15分 ~ 14时30分] (2次)
|
||||
|
||||
━━━━━━━━━━━━━━━━━━━
|
||||
|
||||
📈 芯片 半导体 : 8 条
|
||||
|
||||
1. [华尔街见闻] 半导体行业最新动态 [3] - 12时45分 (3次)
|
||||
|
||||
2. [财联社] 芯片设计新技术 [7] - 14时00分 (1次)
|
||||
|
||||
更新时间:2025-05-26 15:30:00
|
||||
```
|
||||
|
||||
### 飞书消息格式说明
|
||||
@ -198,15 +170,8 @@ GPT
|
||||
| - 时间 | - 12 时 30 分 | 首次发现时间 | 标题首次被发现的时间 |
|
||||
| [时间 ~ 时间] | [12 时 30 分 ~ 14 时 00 分] | 时间范围 | 标题出现的时间范围(首次~最后) |
|
||||
| (N 次) | (4 次) | 出现次数 | 标题在监控期间出现的总次数 |
|
||||
| 🔥📈📌 | 🔥 | 热度图标 | 根据出现次数显示不同热度等级 |
|
||||
|
||||
### 热度等级说明
|
||||
|
||||
- 🔥 **高频热词** (≥10 次): 使用红色显示,表示非常热门的话题
|
||||
- 📈 **中频词汇** (5-9 次): 使用橙色显示,表示有一定热度的话题
|
||||
- 📌 **低频词汇** (1-4 次): 使用默认颜色,表示新兴或小众话题
|
||||
|
||||
> 如果不想麻烦的进行飞书消息推送设置,可以 GitHub 自带的设置页面, 保存一个 url, 这样有浏览器的地方就能看新闻热点归纳了, 比如我这里[https://sansan0.github.io/TrendRadar/](https://sansan0.github.io/TrendRadar/)
|
||||
> 如果不想麻烦的进行飞书消息推送设置,可以用 GitHub 自带的设置页面, 配置一下,保存一个网页链接即可,放手机浏览器里随时可看, 比如我这里[https://sansan0.github.io/TrendRadar/](https://sansan0.github.io/TrendRadar/)
|
||||
|
||||
## 🤖 飞书机器人设置
|
||||
|
||||
@ -277,40 +242,29 @@ ids = [
|
||||
- 在 Actions 页面手动触发一次 workflow
|
||||
- 确认你有足够的 GitHub Actions 免费分钟数
|
||||
|
||||
2. **本地运行失败怎么办?**
|
||||
|
||||
- 检查网络连接
|
||||
- 尝试修改`CONFIG`中的`USE_PROXY`和`DEFAULT_PROXY`设置
|
||||
- 检查依赖是否正确安装:`requests`、`pytz`
|
||||
|
||||
3. **没有收到飞书通知怎么办?**
|
||||
2. **没有收到飞书通知怎么办?**
|
||||
|
||||
- 检查`FEISHU_WEBHOOK_URL`是否正确设置(环境变量或 CONFIG 中)
|
||||
- 检查飞书机器人是否仍在群内且启用
|
||||
- 查看程序输出中是否有发送失败的错误信息
|
||||
- 确认飞书流程配置中的参数结构正确
|
||||
|
||||
4. **想要停止爬虫行为但保留仓库怎么办?**
|
||||
3. **想要停止爬虫行为但保留仓库怎么办?**
|
||||
|
||||
- 将`CONTINUE_WITHOUT_FEISHU`设置为`False`并删除`FEISHU_WEBHOOK_URL`secret
|
||||
- 或修改 GitHub Actions workflow 文件禁用自动执行
|
||||
|
||||
5. **如何处理 API 限制或访问问题?**
|
||||
## 📧 学习交流
|
||||
|
||||
- 适当增加`REQUEST_INTERVAL`值,避免频繁请求
|
||||
- 程序已内置重试机制,一般的网络波动会自动处理
|
||||
- 本地运行时可尝试启用或更换代理
|
||||
扫码关注微信公众号,里面有文章是讲我写的这些项目的,咳如果对你有了点帮助,献上【点赞,转发,推荐】三连,就算支持了俺这个作者的开发了,顺便也可以反馈使用问题:
|
||||
|
||||
6. **频率词匹配不准确怎么办?**
|
||||
<div align="center">
|
||||
|
||||
- 确保相关词组间用空行分隔
|
||||
- 合理使用过滤词(以!开头)排除不需要的内容
|
||||
- 词汇匹配是大小写不敏感的
|
||||

|
||||
|
||||
7. **为什么某些标题没有被统计?**
|
||||
- 检查标题是否包含过滤词
|
||||
- 确认频率词配置是否正确
|
||||
- 每个标题只会被第一个匹配的词组统计
|
||||
</div>
|
||||
|
||||

|
||||
|
||||
## 🙏 致谢
|
||||
|
||||
@ -319,3 +273,13 @@ ids = [
|
||||
## 📄 许可证
|
||||
|
||||
MIT License
|
||||
|
||||
---
|
||||
|
||||
<div align="center">
|
||||
|
||||
**⭐ 如果这个工具对你有帮助,请给项目点个 Star 支持开发!**
|
||||
|
||||
[🔝 回到顶部](#TrendRadar-多平台热点资讯监控分析系统)
|
||||
|
||||
</div>
|
||||
|
||||
Loading…
Reference in New Issue
Block a user