“ Запустите на своем компьютере мощный помощник с искусственным интеллектом. Он не только обладает превосходными возможностями, но и скрывает все секреты на вашем жестком диске. Интересно, как это достигается? Двигайте руками, и вы сможете выполнить излокальное LLaMA-3 за три минуты. развертывание!”
01、LLaMA-3
Недавно я экспериментировал с проектом улучшенной генерации (RAG). Я хотел попробовать перейти на более мощную модель, чтобы посмотреть, улучшится ли эффект. Я попробовал построить большую частную модель локально в качестве базовой модели. На этот раз я попробую LLama3. В следующий раз возьмем модель Qwen2 от Alibaba Tongyi Qianwen.
Еще в апреле Meta выпустила с открытым исходным кодом LLaMA-3 (Large Language Model Meta AI 3), которая превзошла передовые аналогичные модели в отрасли в нескольких ключевых тестах производительности. Она достигла общего лидерства в таких задачах, как генерация кода, и была способна выполнять сложные задачи. рассуждение, способность лучше следовать инструкциям, способность визуализировать идеи и решать многие тонкие проблемы.
Основные моменты:
02. Установите Олламу
Ollama Это инструмент с открытым исходным кодом для запуска и управления большими языковыми моделями (LLM) в локальной среде. Он предоставляет разработчикам, исследователям и энтузиастам эффективную и простую в использовании платформу для быстрого экспериментирования, управления и развертывания новейших больших языковых моделей.
Технические особенности и преимущества:
Среда установки: Обычный настольный компьютер Lenovo, без графического процессора. Процесс установки не требует научного доступа в Интернет.
Официальный адрес загрузки Ollama: https://ollama.com/download. Выбирайте разные версии в зависимости от вашей операционной системы.
На Github также есть версия Docker: https://github.com/ollama/ollama.
После завершения установки проверьте версию и убедитесь, что установка прошла успешно.
ollama -v
03. Загрузите модель
После завершения установки вы можете напрямую загрузить многие встроенные модели с открытым исходным кодом. Ниже приведены названия некоторых встроенных моделей.
Требования к памяти: не менее 8 ГБ доступной памяти для работы модели 7B, 16 ГБ для работы модели 13B и 32 ГБ для работы модели 33B.
Загрузите llama3:8b. Перед двоеточием указано название модели, а модель после двоеточия — это также размер параметра модели.
ollama pull llama3:8b
Запустите модель:
ollama run llam3
Поскольку иностранные модели по умолчанию отвечают на английском языке, вы можете указать модель, которая будет отвечать на китайском языке.
Очевидно, неудобно использовать командную строку. Мы используем Docker, чтобы предоставить большой модели диалоговый веб-интерфейс. Используйте следующую команду для запуска Open WebUI. Будьте осторожны, изменяя локальный путь к open-webui-data. Предварительное условие: служба Docker сначала устанавливается локально.
docker run -p 8080:8080 -e OLLAMA_BASE_URL=http://host.docker.internal:11434 --name open-webui --restart always -v open-webui-data:/DATA/ ghcr.io/open-webui/open-webui:main
После долгого процесса получения образа отображается интерфейс запуска.
Введите http://127.0.0.1:8080 в адресную строку браузера. При первом посещении необходимо зарегистрироваться. После входа в систему вы увидите интерфейс чата, аналогичный Chat-GPT. тот, который мы только что скачали, находится в верхнем левом углу. llama3:latest.
Задание одного и того же вопроса на китайском языке через веб-интерфейс избавляет от необходимости указывать большую модель для ответа на китайском языке, например взаимодействие с командной строкой.
Предоставляет услуги API для создания разговоров.
Целью создания локальной модели является использование в проекте, поэтому нам также нужен API, созданный с помощью диалога, аналогичного OpenAI. Перед его использованием нажмите «Настройки» — «Учетная запись», чтобы сгенерировать ключ API. Вы можете использовать этот ключ для вызова API.
Команда проверки скручивания из командной строки:
$ curl -X POST -H "Авторизация: ключ API носителя" -H "Тип контента: application/json" http://localhost:8080/ollama/api/generate -d '{"model":"llama3-cn :latest","stream":false,"prompt":"Кто ты? Что ты умеешь"}'
Скорость создания диалогов немного медленнее. Во время самого теста вы можете видеть, как слова появляются одно за другим. Чтобы начать отвечать на приведенные выше вопросы, требуется около 1–2 секунд, и, по оценкам, это займет около 10 секунд. завершить ответ.
На данный момент у нас есть большая модель, которая не требует аппаратных ресурсов графического процессора. Содержимое разговора, данные документа и т. д. хранятся локально и принадлежат нашей частной модели.
---
Ранее рекомендовалось:
Инструкции по использованию большой модели посевов в холодном районе Бэйдахуан
Vector | График: первый график Ant с открытым исходным кодом Интерпретация проекта структуры RAG
Рекомендуйте FinGLM, проект крупной модели с открытым исходным кодом для финансового анализа.