Большие данные: относятся к набору данных, которые невозможно собрать, управлять и обработать в течение определенного периода времени с помощью традиционных программных инструментов. Это огромный объем данных, который требует новых моделей обработки, чтобы иметь более сильные возможности принятия решений и аналитические открытия. и возможности оптимизации процессов, высокие темпы роста и диверсифицированные информационные активы.
В основном он решает проблемы хранения больших объемов данных, а также их анализа и расчета.
Единицы хранения данных указаны в следующем порядке: бит, байт, КБ, МБ, ГБ, ТБ, PB, EB, ZB, YB, BB, NB, DB. 1Байт = 8бит 1К = 1024Байт 1МБ = 1024К 1Г = 1024М 1Т = 1024Г 1П = 1024Т
1. Объем: на данный момент объем данных всех печатных материалов, созданных людьми, составляет 200 ПБ, тогда как общий объем данных всех людей в истории составляет около 5 ЭБ. В настоящее время емкость жесткого диска типичного персонального компьютера составляет порядка ТБ, а объем данных некоторых крупных предприятий близок к уровню ЭБ. 2. Характеристики больших данных
2. Скорость (высокая скорость). Это наиболее важная особенность, отличающая большие данные от традиционного интеллектуального анализа данных. Согласно отчету IDC «Цифровая вселенная», ожидается, что к 2020 году глобальное использование данных достигнет 35,2 ЗБ. Перед лицом таких огромных данных эффективность обработки данных — это жизнь предприятия. Tmall Double Eleven: За 3 минуты и 01 секунду в 2017 году объем транзакций Tmall превысил 10 миллиардов
3. Разнообразие. Этот тип разнообразия также позволяет разделить данные на структурированные и неструктурированные. По сравнению со структурированными данными, которые в прошлом представляли собой в основном базу данных/текст и которые было легко хранить, сейчас появляется все больше и больше неструктурированных данных, включая веб-журналы, аудио, видео, изображения, информацию о географическом местоположении и т. д. Обработка этих различных типов данных требует Способность выдвигает более высокие требования.
4. Значение (низкая плотность значений). Плотность значений обратно пропорциональна общему объему данных. Например, в видео наблюдения за один день нас волнует только та минута, когда Учитель Сун работал ночью в постели. Как быстро «очистить» ценные данные, стало сложной проблемой, которую необходимо решить в современном контексте больших данных.
1. O2O: Платформа Baidu Big Data+ помогает продавцам совершенствовать операции и увеличивать продажи благодаря передовым технологиям онлайн- и офлайн-интеграции и возможностям анализа потоков клиентов.
2. Розничная торговля: изучайте ценность для пользователей и предоставляйте персонализированные сервисные решения, реализуйте онлайн- и физическую розничную торговлю и работайте вместе, чтобы создать максимальный опыт. Классический чехол, подгузник + пиво.
3. Туризм: Глубоко объединить возможности больших данных с потребностями индустрии туризма, чтобы совместно построить будущее интеллектуального управления, интеллектуальных услуг и умного маркетинга в туристической индустрии.
4. Рекомендация по рекламе продукта: порекомендуйте типы рекламы продукта, которую посещали пользователи.
5. Страхование. Масштабный анализ данных и прогнозирование рисков помогают страховой отрасли осуществлять точный маркетинг и улучшать возможности уточнения ценообразования.
6. Финансы. Отражайте характеристики пользователей в различных измерениях, помогайте финансовым учреждениям рекомендовать высококачественных клиентов и предотвращайте риски мошенничества.
7. Недвижимость. Большие данные всесторонне помогают индустрии недвижимости создавать точные инвестиционные стратегии и маркетинг, выбирать более подходящие земли, строить более подходящие здания и продавать их более подходящим людям.
8. Искусственный интеллект:
1) Hadoop — это распределенная системная инфраструктура, разработанная Apache Foundation.
2)В основном он решает проблемы хранения больших объемов данных, а также их анализа и расчета.
3) Вообще говоря, HADOOP обычно относится к более широкому понятию — экосистеме HADOOP.
1) Lucene — программное обеспечение с открытым исходным кодом, созданное Дугом Каттингом. Оно использует Java для написания кода для реализации функций полнотекстового поиска, аналогичных Google. Оно обеспечивает архитектуру полнотекстовой поисковой системы, включая полноценную систему запросов и систему индексирования.
2) Стал подпроектом Apache Foundation в конце 2001 г.
3) При большом количестве сценариев Lucene сталкивается с теми же трудностями, что и Google.
4) Изучите и подражайте решению этих проблем от Google: микроверсия Nutch.
5) Можно сказать, что Google является источником идей для Hadoop (три статьи Google о больших данных).
GFS --->HDFS
Map-Reduce --->MR
BigTable --->Hbase
6) С 2003 по 2004 год Google раскрыл некоторые подробности идей GFS и Mapreduce. Основываясь на этом, Дуг Каттинг и другие потратили 2 года в свободное время на реализацию механизмов DFS и Mapreduce, что резко увеличило производительность Nutch.
7) В 2005 году Hadoop был официально представлен Apache Foundation как часть Nutch, подпроекта Lucene. В марте 2006 года Map-Reduce и распределенная файловая система Nutch (NDFS) были включены в проект под названием Hadoop.
8) Назван в честь игрушечного слона сына Дуга Каттинга.
9) Hadoop родился и быстро развивался, ознаменовав наступление эры облачных вычислений.
Существует три основных версии Hadoop: Apache, Cloudera и Hortonworks.
Самая оригинальная (самая базовая) версия Apache, лучше всего подходит для вводного обучения.
Cloudera широко используется в крупных интернет-компаниях.
Документация Hortonworks лучше.
1) Высокая надежность. Поскольку Hadoop предполагает, что вычислительные элементы и хранилище выйдут из строя, поскольку он поддерживает несколько копий рабочих данных, обработка может быть перераспределена на вышедший из строя узел в случае сбоя.
2) Высокая масштабируемость: распределение данных задач между кластерами позволяет легко расширить тысячи узлов.
3) Эффективность. Согласно идее MapReduce, Hadoop работает параллельно, чтобы ускорить обработку задач.
4) Высокая отказоустойчивость: автоматическое сохранение нескольких копий данных и автоматическое перераспределение невыполненных задач.
1) Hadoop HDFS: высоконадежная распределенная файловая система с высокой пропускной способностью.
2) Hadoop MapReduce: среда распределенных автономных параллельных вычислений.
3) Hadoop YARN: платформа для планирования заданий и управления ресурсами кластера.
4) Hadoop Common: инструментальные модули, поддерживающие другие модули (конфигурация, RPC, механизм сериализации, операции журнала).
1) NameNode (nn): хранит метаданные файла, такие как имя файла, структура каталогов файлов, атрибуты файла (время создания, количество копий, права доступа к файлу), а также список блоков каждого файла и DataNode, где находится блок и т.д.
2) DataNode(dn): хранит данные блока файлов в локальной файловой системе, а также контрольную сумму данных блока.
3) Secondary NameNode(2nn): вспомогательная фоновая программа, используемая для мониторинга состояния HDFS и получения снимков метаданных HDFS через регулярные промежутки времени.
1) ResourceManager(rm): обрабатывает клиентские запросы, запускает/отслеживает ApplicationMaster, контролирует NodeManager, распределение и планирование ресурсов;
2) NodeManager (nm): управление ресурсами на одном узле, обработка команд из ResourceManager и обработка команд из ApplicationMaster;
3) ApplicationMaster: сегментация данных, применение ресурсов приложения и распределение внутренних задач, мониторинг задач и отказоустойчивость.
4) Контейнер: абстракция среды выполнения задачи, инкапсулирующая многомерные ресурсы, такие как ЦП и память, а также информацию, связанную с выполнением задачи, такую как переменные среды и команды запуска.
MapReduce делит процесс вычислений на два этапа: Map и уменьшить.
1) Этап Map параллельно обрабатывает входные данные.
2) Этап сокращения обобщает результаты карты.
Приведенный выше рисунок просто иллюстрирует два процесса или функции: «Map» и «Reduc». Хотя он и недостаточно строг, его достаточно, чтобы дать примерное представление. Процесс «Map» — это подготовка овощей перед их превращением в пищу. материалы, а затем процесс приготовления еды.
Технические термины, представленные на рисунке, поясняются следующим образом:
1) Sqoop: sqoop — это инструмент с открытым исходным кодом, который в основном используется для передачи данных между Hadoop (Hive) и традиционными базами данных (mysql). Он может передавать данные в реляционную базу данных (например, MySQL, Oracle и т. д.) Импортировать в Hadoop. HDFS и данные HDFS также можно импортировать в реляционную базу данных.
2) Flume: Flume — это высокодоступная, высоконадежная распределенная система массового сбора, агрегирования и передачи журналов, предоставляемая Cloudera. Flume поддерживает настройку различных отправителей данных в системе журналов для одновременного сбора данных. Flume предоставляет возможность; просто обрабатывать данные и записывать их различным получателям данных (настраиваемые).
3) Kafka: Kafka — это распределенная система обмена сообщениями с высокой пропускной способностью, имеющая следующие характеристики:
4) Storm: Storm предоставляет набор общих примитивов для распределенных вычислений в реальном времени, которые можно использовать в «потоковой обработке» для обработки сообщений и обновления базы данных в реальном времени. Это еще один способ управления очередями и рабочими кластерами. Storm также можно использовать для «непрерывных вычислений» для выполнения непрерывных запросов к потоку данных и вывода результатов пользователю в виде потока во время вычислений.
5) Spark. В настоящее время Spark является самой популярной платформой для вычислений в памяти больших данных с открытым исходным кодом. Вычисления могут выполняться на основе больших данных, хранящихся в Hadoop.
6) Oozie: Oozie — это система управления планированием рабочих процессов, которая управляет заданиями Hdoop. Задача координации Oozie — запустить текущий рабочий процесс Oozie с помощью времени (частоты) и достоверных данных.
7) Hbase: HBase — это распределенная, ориентированная на столбцы база данных с открытым исходным кодом. HBase отличается от обычных реляционных баз данных. Это база данных, подходящая для хранения неструктурированных данных.
8) Hive: Hive — это инструмент хранилища данных, основанный на Hadoop. Он может отображать файлы структурированных данных в таблицу базы данных и предоставлять простые функции SQL-запросов. Он может преобразовывать операторы SQL в задачи MapReduce для запуска. Его преимущество заключается в низкой стоимости обучения, простой статистике MapReduce можно быстро реализовать с помощью SQL-подобных операторов, и нет необходимости разрабатывать специальные приложения MapReduce. Он очень подходит для статистического анализа хранилищ данных. 9) Язык R: R — это язык и операционная среда для статистического анализа и графики. R — бесплатное программное обеспечение с открытым исходным кодом, принадлежащее системе GNU. Это отличный инструмент для статистических вычислений и статистической графики.
10)Mahout: Apache Mahout В настоящее время это масштабируемая библиотека машинного обучения и интеллектуального анализа данных. Mahout Поддержите главного 4 личное использование Пример: Анализ рекомендаций: собирайте действия пользователей и используйте их, чтобы рекомендовать то, что может понравиться пользователю. Агрегация: сбор файлов и группировка связанных файлов. Классификация: изучение существующих классифицированных документов, поиск схожих характеристик в документах и исправление немаркированных документов. классификация. Анализ часто встречающихся наборов элементов: группирование набора элементов и определение того, какие отдельные элементы часто появляются вместе.
11) ZooKeeper: Zookeeper — это реализация Google Chubby с открытым исходным кодом. Это надежная система координации для крупномасштабных распределенных систем. Она предоставляет такие функции, как обслуживание конфигурации, служба имен, распределенная синхронизация, групповое обслуживание и т. д. Цель ZooKeeper — инкапсулировать сложные и подверженные ошибкам ключевые сервисы и предоставить пользователям простые и удобные в использовании интерфейсы, а также систему с эффективной производительностью и стабильными функциями.