关于
归档
友链
猫咪
RSS
后台
切换模式
返回顶部
首页
说说
日常
开发
游戏
资源
虚拟货币
首页
说说
日常
开发
游戏
资源
虚拟货币
关于
归档
友链
猫咪
RSS
后台
TeleMediaSpider - Telegram 频道资源爬虫
开发
·
06-08
LiesAuer
### 声明 ***仅限个人用途使用。*** ### 介绍 [TeleMediaSpider](https://github.com/liesauer/TeleMediaSpider) 是一个开源的用于抓取 Telegram 频道资源的个人爬虫,支持抓取 `图片` `视频` `音频` `文件`,支持多频道同时下载,支持断点续抓。 ![screenshot.jpg](https://storage.liesauer.net/2024/07/3037476710.jpg) 仓库地址:https://github.com/liesauer/TeleMediaSpider ### 使用说明 ### 0. 下载 已打包好的TeleSpider可在这里下载:[https://github.com/liesauer/TeleMediaSpider/releases](https://github.com/liesauer/TeleMediaSpider/releases),包含 `Windows x64` `Linux x64` 多个版本,如需其他版本,请自行打包。 ### 1. 首次运行 第一次运行时,会自动生成 `data/config.toml` 配置文件,需要配置以下内容: `account.apiId`(参考文档) `account.apiHash`(参考文档) `account.account`(Telegram账号) ~~`account.session`~~(这个不需要填) 参考: [Authentication | GramJS](https://gram.js.org/getting-started/authorization#getting-api-id-and-api-hash) ### 2. 获取频道列表 ```bash TeleMediaSpider --list ``` 列举出你账号加入的所有频道,复制频道ID,并打开 `data/config.toml` 配置文件,配置以下内容: `spider.channels` 示例: ```toml [spider] channels = [ "频道id1", "频道id2" ] ``` 如何抓取自己的已保存信息? 使用固定的频道id:`me` 即可,其他不变。 默认抓取频道的`图片` `视频` `音频` `文件`,如果你想特定的频道只抓取特定的数据,也可自由配置,有效值:`photo` `video` `audio` `file`。 将以下配置 ```toml [spider.medias] _ = "photo,video,audio,file" ``` 修改为 ```toml [spider.medias] 频道id1 = "photo" 频道id2 = "photo,video,audio,file" ``` ### 3. 正式抓取 直接运行 `TeleMediaSpider`,爬虫将会自动抓取频道信息,自动获取新消息,支持断点续爬,可任意时刻随意关闭软件。 ### 4. 并发下载 **注意:这并不是传统意义上的并发下载,而是指多频道同时下载,单一频道只能一条一条信息从前往后解析下载。** 将以下配置 ```toml [spider] concurrency = 5 ``` 修改为你想要的多频道同时下载数,默认为5个频道同时下载。 ### 5. 大小过滤 默认抓取大小不超过10GB的文件,如有需求,可按全局配置或按频道配置文件大小过滤。 格式:`下限-上限` 单位:`字节` 进制:`1024` 示例:`102400-10485760` 解释:抓取文件大小在 `100KB ~ 10MB` 之间的文件(含) 优先级:`频道配置 > 全局配置` #### 5.1. 全局配置 修改以下配置即可 ```toml [filter.default] photo = "0-10737418240" video = "0-10737418240" audio = "0-10737418240" file = "0-10737418240" ``` #### 5.2. 频道配置 修改以下配置即可 ```toml [filter.photo] 频道id1 = "102400-999999999" [filter.video] 频道id1 = "102400-999999999" [filter.audio] 频道id1 = "102400-999999999" [filter.file] 频道id1 = "102400-999999999" ``` ### 代理设置 参考: [Using MTProxies and Socks5 Proxies](https://gram.js.org/getting-started/authorization#using-mtproxies-and-socks5-proxies) ### 配置说明 **配置文件中所有的 `_` 配置项都是占位,用来当成示例配置供参考填写的,删除无实际影响。** ### 数据保存 所有数据都保存在 `data/{频道id}` 文件夹下,文件名格式:`{频道id}_{消息id}[_{原文件名}]`。
TeleSpider
Telegram
spider
gramjs
downloader
爬虫
纸飞机
取消回复
提交评论
夸克网盘资源
06-08
回复
马克一下,感觉正好需要这个爬虫。哈哈
瞅一瞅叭
空空如也
服务器推荐
RackNerd 2C2G $20.98/年(美国 隐藏款)
狗云 1C0.75G ¥150/年(香港 BGP)
最新评论
奶油烤鸡翅: 谢谢
Liudon: 问一下,你现在用的web3网关是哪个呀?
it备忘录: Cloudflare 用多了就发现挺好用的,我的博客就是托管在 ...
it备忘录: 我直接使用了中文url,目前看效果不错。
刘郎: Cloudflare虽然免费实用 但还是有很多地方受限的 现...
夸克网盘资源: 太先进了,我想实现,不知道怎么弄
左来: 是不是也可以跟wordpress似的汉语转拼音
关于站长
广东 佛山
liesauer#liesauer.net
LiesAuer
CC BY-NC-SA 4.0
粤ICP备16094588号-1
萌ICP备20245567号
Theme
Jasmine
by
Kent Liao
马克一下,感觉正好需要这个爬虫。哈哈