
MediaCrawler: Trình thu thập dữ liệu MXH
Miễn phí

MediaCrawler là trình thu thập dữ liệu tự động được thiết kế để trích xuất dữ liệu từ nhiều nền tảng mạng xã hội khác nhau. Nó cung cấp các chức năng như tìm kiếm bài đăng và bình luận dựa trên từ khóa hoặc ID cụ thể. Công cụ này hỗ trợ nhiều nền tảng và các tùy chọn cơ sở dữ liệu (SQLite và MySQL). Nó yêu cầu Python 3.11 và Node.js (cho một số nền tảng). Người dùng có thể cấu hình các cài đặt như trích xuất bình luận và lựa chọn cơ sở dữ liệu. Tài liệu bao gồm hướng dẫn thiết lập, chi tiết kiến trúc dự án và hướng dẫn khắc phục sự cố. Nó cũng cung cấp các tùy chọn quyên góp và hỗ trợ nhà phát triển. Dự án sử dụng uv để quản lý phụ thuộc và Playwright để tự động hóa trình duyệt.
Thu thập dữ liệu từ nhiều nền tảng mạng xã hội.
Cho phép tìm kiếm bài đăng và bình luận bằng từ khóa hoặc ID cụ thể.
Hỗ trợ SQLite và MySQL để lưu trữ dữ liệu.
Sử dụng `uv` để quản lý phụ thuộc Python nhất quán.
Sử dụng Playwright để tương tác với trình duyệt.
Cung cấp các tùy chọn tùy chỉnh trong `config/base_config.py`.
Cài đặt Python 3.11 và Node.js (phiên bản >= 16.0.0). Sử dụng uv sync để quản lý các phụ thuộc Python. Cài đặt trình điều khiển trình duyệt Playwright: playwright install. Cấu hình cài đặt trong config/base_config.py (ví dụ: bật trích xuất bình luận). Chạy trình thu thập dữ liệu bằng các lệnh như python main.py --platform --lt qrcode --type search.
Theo dõi và phân tích nội dung liên quan đến từ khóa hoặc chủ đề cụ thể.
Thu thập bài đăng và bình luận từ nhiều nền tảng để nghiên cứu hoặc phân tích.
Thu thập dữ liệu để phân tích tình cảm, xác định xu hướng và các mục đích phân tích khác.
Để thu thập và phân tích dữ liệu mạng xã hội cho các dự án nghiên cứu.
Để thu thập và xử lý dữ liệu mạng xã hội cho trí tuệ doanh nghiệp.
Để sử dụng và tùy chỉnh trình thu thập dữ liệu cho các nhu cầu trích xuất dữ liệu cụ thể.
MediaCrawler là một dự án mã nguồn mở và có sẵn miễn phí.