Сегодня я познакомлю вас с однимПрактические проекты по поиску сканера Python,MediaCrawler。
Он может использовать сканер Xiaohongshu, сканер Douyin, сканер Kuaishou, сканер B-станции и сканер Weibo.
В настоящее время он может захватывать видео, изображения, комментарии, лайки, репосты и другую информацию от Xiaohongshu, Douyin, Kuaishou, Bilibili и Weibo.
Адрес проекта:
https://github.com/NanmiCoder/MediaCrawler
Принцип: используйте драматург для построения моста, сохраняйте контекстную среду браузера после успешного входа в систему и получайте некоторые параметры шифрования, выполняя выражения JS. Используя этот метод, нет необходимости воспроизводить основной код JS шифрования, а также нет трудностей с обратным ходом. инженерное дело значительно сокращается.
Далее Сяо Ф расскажет, как им пользоваться~
Сначала используйте conda для создания виртуальной среды Python версии 3.9.
После активации среды установите соответствующие зависимости.
# Создать среду Конды
conda create --name MediaCrawler python=3.9
# активировать среду
conda activate MediaCrawler
# Установите связанные зависимости
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
# Установить драйвер браузера драматурга
playwright install
Среди них Playwright — инструмент автоматического тестирования, выпущенный Microsoft и созданный специально для удовлетворения потребностей сквозного тестирования.
Наконец, вам необходимо установить nodejs, версия v16.20.2, иначе при запуске будет сообщено об ошибке.
Существует три способа сохранения данных: база данных, CSV и JSON.
Адрес базы данных можно настроить в файле db_config.py.
Поддержка Redis, MySQL, sqlite3.
Весь код проекта имеет открытый исходный код, а структура кода проекта следующая.
Вы можете взглянуть на некоторые распространенные вопросы.
После настройки среды вы можете выполнить код~
# Прочитайте ключевые слова из файла конфигурации для поиска соответствующих сообщений и сканирования информации о сообщениях и комментариев.
python main.py --platform xhs --lt qrcode --type search
# Прочтите указанный список идентификаторов сообщений из файла конфигурации, чтобы получить информацию и комментарии к указанному сообщению.
python main.py --platform xhs --lt qrcode --type detail
# Другие примеры использования рептилий платформы, Выполните следующую команду, чтобы просмотреть
python main.py --help
Конкретную конфигурацию можно изменить в файле base_config.py.
Здесь мы возьмем Сяохуншу в качестве примера для эксперимента.
Запустите код в командной строке, и результаты будут следующими.
Данные CSV были успешно сохранены, включая информацию о публикациях и комментариях.
Следующий шаг — анализ и обработка данных. Вы можете изучить и использовать их самостоятельно.
Исходный код проекта,Официальный ответ серверной части аккаунта:「MediaCrawler」,Вы можете получить это.
Сканирование заметок, видеокомментариев и комментариев к публикациям с этих платформ (Xiaohongshu, Douyin, Kuaishou, Bilibili, Weibo) может принести пользу во многих областях. Вот несколько примеров:
① Исследование рынка и понимание потребителей
Анализируя эти данные, компании могут получить представление о потребительских предпочтениях, интересах, отзывах и поведенческих тенденциях. Это обеспечивает поддержку данных для разработки продуктов, позиционирования на рынке и оптимизации маркетинговых стратегий.
② Мониторинг общественного мнения о бренде
Компании могут отслеживать и анализировать изменения в общественном восприятии и настроениях в отношении своих брендов, продуктов или услуг в режиме реального времени. Это помогает быстро реагировать на возможное негативное общественное мнение и поддерживать имидж бренда.
③ Анализ конкурентов
Сравнивая и анализируя деятельность конкурентов на вышеуказанных платформах, компании могут понять рыночные стратегии своих конкурентов, отзывы клиентов, а также их сильные и слабые стороны, тем самым корректируя свои собственные стратегии для поддержания конкурентного преимущества.
④ Оптимизация контент-стратегии
Понимание того, какие темы или типы видео наиболее популярны, может помочь создателям контента, маркетологам и медиа-компаниям разработать контент-стратегии, которые в большей степени соответствуют потребностям и предпочтениям пользователей.
⑤ Анализ тенденций в социальных сетях
Анализ данных комментариев может выявить текущие тенденции в социальных сетях, актуальные темы и вирусный контент, вдохновляя на инновации в контенте.
⑥Обслуживание клиентов и отзывы о продукции
Извлечение вопросов и отзывов непосредственно из отзывов пользователей позволяет компаниям быстро улучшать продукты и услуги и повышать удовлетворенность клиентов.
Примечание. При использовании этих данных особое внимание необходимо уделять соблюдению соответствующих законов и правил (например, законов о защите данных), соблюдению конфиденциальности пользователей и обеспечению законного и соответствующего требованиям получения и использования данных. Ненадлежащее использование данных может не только нарушить закон, но и нанести ущерб корпоративной репутации и доверию пользователей.
Любовь всегда есть в тысячах рек и гор, пожалуйста, нажмите 👍.