
MediaCrawler:自媒体爬虫
免费

MediaCrawler 是一款自媒体爬虫,旨在从各种社交媒体平台提取数据。它提供基于关键词或特定 ID 搜索帖子和评论的功能。该工具支持多种平台和数据库选项(SQLite 和 MySQL)。它需要 Python 3.11 和 Node.js(针对某些平台)。用户可以配置设置,如评论提取和数据库选择。文档包括设置说明、项目架构详细信息和故障排除指南。它还提供了捐赠和开发者支持选项。该项目使用 uv 进行依赖管理,并使用 Playwright 进行浏览器自动化。
从各种社交媒体平台抓取数据。
允许使用关键词或特定 ID 搜索帖子和评论。
支持 SQLite 和 MySQL 用于数据存储。
使用 `uv` 进行一致的 Python 依赖管理。
采用 Playwright 进行浏览器交互。
在 `config/base_config.py` 中提供可自定义的选项。
安装 Python 3.11 和 Node.js(版本 >= 16.0.0)。使用 uv sync 管理 Python 依赖项。安装 Playwright 浏览器驱动程序:playwright install。在 config/base_config.py 中配置设置(例如,启用评论提取)。使用类似 python main.py --platform --lt qrcode --type search 的命令运行爬虫。
跟踪和分析与特定关键词或主题相关的内容。
从多个平台收集帖子和评论,用于研究或分析。
收集数据用于情感分析、趋势识别和其他分析目的。
用于收集和分析社交媒体数据,用于研究项目。
用于收集和处理社交媒体数据,用于商业智能。
用于使用和自定义爬虫,以满足特定的数据提取需求。
MediaCrawler 是一个开源项目,可免费使用。