Внутренний набор данных веб-сайт_данные веб-сайта
Внутренний набор данных веб-сайт_данные веб-сайта

Если вы новичок,Ваши способности будут значительно улучшаться каждый раз, когда вы завершаете новый проект.,если тыдаопытныйданныенаучный эксперт,Вы уже знаете ценность здесь。 В этой статье вам будет предоставлен список веб-сайтов/ресурсов, данные из которых вы можете использовать для реализации своих собственных проектов по работе с данными или даже для создания собственных продуктов.

1. Как использовать эти ресурсы?

Нет никаких ограничений на то, как вы можете использовать эти источники данных, применение и использование ограничены только вашим творчеством и практическим применением. Самый простой способ их использования — создать проекты данных и опубликовать их на своем веб-сайте. Это не только улучшит ваши навыки обработки данных и визуализации, но и улучшит ваше структурированное мышление. С другой стороны, если вы рассматриваете продукт на основе данных или работаете над ним, эти наборы данных могут повысить функциональность вашего продукта за счет предоставления дополнительных/новых входных данных. Итак, продолжайте работать над этими проектами и делитесь ими со всем миром, чтобы продемонстрировать свои возможности обработки данных. Мы разделили эти источники данных на разные разделы, чтобы помочь вам классифицировать источники данных в соответствии с вашим приложением. Мы начинаем с простых, общих и удобных для обработки наборов данных, а затем переходим к большим/отраслевым наборам данных. Затем мы предоставляем ссылки на наборы данных для конкретных целей — интеллектуальный анализ текста, классификация изображений, системы рекомендаций и т. д. Это даст вам полный список ресурсов данных. Если вы можете придумать какие-либо приложения для этих наборов данных или знаете какие-либо популярные ресурсы, которые мы пропустили, поделитесь ими с нами в комментариях ниже. (Некоторым, возможно, придется обойти стену)

2. Начните с простого и общего набора данных.

1.data.gov( https://www.data.gov/ ) Сайт содержит общедоступные данные правительства США и содержит более 190 000 точек данных. Эти наборы данных отличаются от данных по климату, образованию, энергетике, финансам и многим другим областям.

2.data.gov.in( https://data.gov.in/ ) Здесь хранятся общедоступные данные правительства Индии, и вы можете найти здесь вдохновение, ища данные по различным отраслям, климату, здравоохранению и т. д. В зависимости от страны, в которой вы живете, вы также можете просматривать похожие сайты с ряда других сайтов.

3.Всемирный банк(http://data.worldbank.org/) Открытые данные Всемирного банка. Платформа предоставляет несколько инструментов, таких как Каталог открытых данных, Индекс мирового развития, Индекс образования и т. д.

4.RBI(https://rbi.org.in/Scripts/Statistics.aspx) Данные предоставлены Резервным банком Индии. Сюда входят несколько показателей операций денежного рынка, платежного баланса, использования банков и некоторых продуктов.

5. Пять наборов данных ThirtyEight (https://github.com/fivethirtyeight/data) Five Thirty Eight, также известный как 538, — это блог, посвященный анализу опросов, политике, экономике и спорту. Этот набор данных используется в Five ThirtyEight Datasets. Каждый набор данных включает данные, словарь для интерпретации данных и ссылку на статью Five ThirtyEight. Если вы хотите научиться создавать истории данных, не ищите дальше этого.

3. Большие наборы данных

1.Наборы данных Amazon WebServices Amazon предоставляет несколько больших наборов данных, которые можно использовать на их платформе или на вашем локальном компьютере. Вы также можете использовать EC2 и Hadoop через EMR для анализа данных в облаке. Популярные наборы данных на Amazon включают полный набор данных электронной почты Enron, Google Booksn-gram, набор данных NASA NEX, набор данных Million Songs и т. д.

2.Наборы данных Google (https://cloud.google.com/bigquery/public-data/) Google предоставляет некоторые наборы данных как часть своего инструмента Big Query. Включает данные из общедоступных репозиториев GitHub, все истории и комментарии Hacker News.

3. Набор видеоданных с маркировкой YouTube. (https://research.google.com/youtube8m/) Несколько месяцев назад исследовательская группа Google опубликовала на YouTube «набор данных», который состоит из 8 миллионов идентификаторов видео YouTube и связанных с ними тегов для 4800 визуальных объектов. Он основан на заранее рассчитанных современных визуальных функциях из миллиардов кадров.

4. Наборы данных прогнозного моделирования и машинного обучения.

1.Репозиторий машинного обучения UCI. (https://archive.ics.uci.edu/ml/datasets.html) Библиотека машинного обучения UCI, очевидно, является самым известным хранилищем данных. Если вы ищете наборы данных, связанные с репозиториями машинного обучения, обычно это первое место, куда следует обратиться. Эти наборы данных включают в себя широкий спектр наборов данных: от популярных наборов данных, таких как Iris и Titanic, до более поздних данных, таких как качество воздуха и траектории GPS. Репозиторий содержит более 350 наборов данных, подобных доменным именам (классификация/регрессия). Вы можете использовать эти фильтры, чтобы определить необходимый набор данных.

2.Каггл (https://www.kaggle.com/datasets) Kaggle предлагает платформу, на которой люди могут публиковать наборы данных, а другие члены сообщества могут голосовать и запускать ядра/скрипты. Всего у них более 350 наборов данных, из них более 200 наборов данных объектов. Хотя некоторые исходные наборы данных обычно появляются где-то еще, я видел, как некоторые интересные наборы данных появляются на платформе, а не где-то еще. Помимо нового набора данных, еще одним преимуществом интерфейса является то, что вы можете видеть сценарии и вопросы от членов сообщества в одном и том же интерфейсе.

3. Аналитика Видхья (https://datahack.analyticsvidhya.com/contest/all/) Вы можете принять участие и загрузить наборы данных из наших практических вопросов и вопросов хакатона. Наборы проблемных данных основаны на реальных проблемах отрасли и относительно невелики, поскольку рассчитаны на 2–7-дневные хакатоны.

4.Квандл (https://www.quandl.com/) Quandl предоставляет финансовые, экономические и альтернативные данные из разных источников через свой веб-сайт, API или прямую интеграцию с некоторыми инструментами. Их датасеты делятся на открытые и платные. Все открытые наборы данных бесплатны, но наборы данных премиум-класса требуют оплаты. Качественные наборы данных по-прежнему можно найти на платформе с помощью поиска. Например, данные фондовой биржи Индии бесплатны.

5. Прошлые турниры KDDCups ( http://www.kdd.org/kdd-cup ) KDD Cup — это ежегодное соревнование по интеллектуальному анализу данных и открытию знаний, организуемое специальной группой ACM.

6. Управляемые данные (https://www.drivendata.org/) Driven Data выявляет реальные проблемы, которые применяют науку о данных для создания положительного социального воздействия. Затем они организуют онлайн-соревнования по моделированию для специалистов по обработке данных, чтобы разработать лучшие модели для решения этих проблем.

5. Набор данных классификации изображений.

1. База данных MNIST. (http://yann.lecun.com/exdb/mnist/) Самый популярный набор данных для распознавания изображений с использованием рукописных цифр. Он включает тестовый набор из 60 000 примеров и 10 000 примеров. Обычно это первый набор данных, используемый для распознавания изображений.

2.Чарс74К (http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/) Вот следующий этап эволюции, если вы когда-нибудь обходились рукописными цифрами. Этот набор данных включает распознавание символов в естественных изображениях. Набор данных содержит 74 000 изображений, отсюда и название набора данных.

3.Frontal FaceImages (http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html ) Если вы завершили первые два проекта и способны распознавать цифры и символы, это следующий сложный уровень распознавания изображений — изображения лиц в лоб. Эти изображения любезно предоставлены CMU. & Собрано MIT и разложено по четырем папкам.

4.ImageNet (http://image-net.org/) Теперь пришло время построить что-то универсальное. База данных изображений, организованная в соответствии с иерархией WordNet (в настоящее время только существительные). Каждый узел иерархии описывается сотнями изображений. В настоящее время коллекция насчитывает в среднем более 500 изображений на узел (и эта цифра продолжает расти).

6. Набор данных классификации текста

1.Спам – неспам (http://www.esp.uem.es/jmgomez/smsspamcorpus/) Определить, является ли текстовое сообщение спамом или нет, представляет собой интересную задачу. Вам нужно создать классификатор для классификации текстовых сообщений.

2. Анализ настроений в Твиттере (http://thinknook.com/twitter-sentiment-anaанализ-training-corpus-dataset-2012-09-22/) Набор данных содержит 1 578 627 классифицированных твитов, каждая строка которых помечена цифрой 1 для положительного настроения и 0 для отрицательного настроения. Данные, в свою очередь, основаны на соревнованиях Kaggle и анализе Ника Сандерса.

3.Данные обзора фильма (http://www.cs.cornell.edu/People/pabo/movie-review-data/) На этом сайте представлена ​​коллекция файлов обзоров фильмов, помеченных их общей полярностью настроений (положительный или отрицательный) или субъективной оценкой (например, «Две с половиной звезды»), а также их статусом субъективности (субъективный или объективный) или меткой полярности.

7. Набор данных механизма рекомендаций

1.Кинообъектив (https://grouplens.org/) MovieLens — это веб-сайт, который помогает людям находить фильмы. У него тысячи зарегистрированных пользователей. Они проводят онлайн-эксперименты, такие как автоматические рекомендации контента, интерфейс рекомендаций, страница рекомендаций на основе тегов и т. д. Эти наборы данных доступны для скачивания и могут использоваться для создания собственных рекомендательных систем.

2.Шут (http://www.ieor.berkeley.edu/~goldberg/jester-data/) Система онлайн-рекомендаций шуток.

8. Веб-сайты с наборами данных из различных источников

1.KDNuggets (http://www.kdnuggets.com/datasets/index.html) Страница набора данных KDNuggets была справочной информацией для людей, ищущих наборы данных. Список является исчерпывающим, но наборы данных из некоторых источников больше недоступны. Поэтому наборы данных и источники необходимо выбирать тщательно.

2. Потрясающие наборы публичных данных (https://github.com/caesar0301/awesome-public-datasets) Репозиторий GitHub, содержащий полный список наборов данных, сгруппированных по доменам. Наборы данных аккуратно распределены по различным доменам, что очень полезно. Однако в самом репозитории нет описания набора данных, что могло бы сделать его очень полезным.

3. Субреддит RedditDatasets (https://www.reddit.com/r/datasets/) Поскольку это форум, управляемый сообществом, на нем могут возникнуть некоторые проблемы (по сравнению с двумя предыдущими источниками). Однако вы можете отсортировать наборы данных по популярности/голосованию, чтобы увидеть самые популярные. Кроме того, здесь есть несколько интересных наборов данных и дискуссий.

9. Заключительные слова

Мы надеемся, что этот список ресурсов будет полезен тем, кто думает о проектах. Это настоящая золотая жила, воспользуйтесь ею!

Источник статьи:Инженер полного стека алгоритмов машинного обучения

Твит другого публичного аккаунта:https://mp.weixin.qq.com/s/kLu4p51wbij9R2Jjqu23zQ

Заявление об авторских правах: Содержание этой статьи добровольно предоставлено пользователями Интернета, а мнения, выраженные в этой статье, представляют собой только точку зрения автора. Данный сайт лишь предоставляет услуги по хранению информации, не имеет никаких прав собственности и не несет соответствующей юридической ответственности. Если вы обнаружите на этом сайте какое-либо подозрительное нарушение авторских прав/незаконный контент, отправьте электронное письмо, чтобы сообщить. После проверки этот сайт будет немедленно удален.

Издатель: Лидер стека программистов полного стека, укажите источник для перепечатки: https://javaforall.cn/181272.html Исходная ссылка: https://javaforall.cn

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose