Адрес проекта:
https://github.com/NanmiCoder/MediaCrawler
cd MediaCrawler
python -m venv venv
# macos & linux Активировать виртуальную среду
source venv/bin/activate
# windows Активировать виртуальную среду
venv\Scripts\activate
pip install -r requirements.txt
Установить драйвер браузера драматурга
playwright install
Читать подробности comments 12 ноября 2024 г. значение содержимого каждого json в массиве списка в json используется в качестве данных облака слов.
import json
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# Чтение файла JSON
with open('detail_comments_2024-11-12.json', 'r', encoding='utf-8') as file:
data = json.load(file)
# Извлечь весь контент комментариев
comments = [item['content'] for item in data]
# Объединить все комментарии в одну строку
text = ' '.join(comments)
# Используйте jieba для сегментации китайских слов
words = jieba.cut(text)
# Определите конкретные слова, которые нужно удалить
stopwords = ['Я', 'ты', «Ле», «The», «Да», «Вверх», «Вниз», «Одна секунда». :','одна секунда',':']
# stopwords = []
# Отфильтровать определенные слова
filtered_words = [word for word in words if word not in stopwords]
# Преобразование отфильтрованных результатов сегментации слов в строки
words_str = ' '.join(filtered_words)
# Создайте объект облака слов
wordcloud = WordCloud(font_path='simhei.ttf', # Установите путь к шрифту для поддержки китайского дисплея.
width=1600,
height=800,
background_color='white').generate(words_str)
# Показать облако слов
plt.figure(figsize=(20, 10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off') # Не показывать оси
plt.show()