
Полная версия
Multimodal Магия: Пишем с ИИ, который «видит» и «слышит»
Google AI Studio / Vertex AI (Gemini):
1. Создание учетной записи Google Cloud Platform (GCP): Перейдите на сайт Google AI Studio: ai.google.dev или на сайт Google Cloud Platform: cloud.google.com. Войдите с помощью своей учетной записи Google. Если у вас нет учетной записи GCP, вам потребуется создать ее. Вам может потребоваться подтвердить свой номер телефона.
2. Включение Google AI Studio (или Vertex AI): В Google Cloud Console (cloud.google.com), найдите и включите Google AI Studio API (или Vertex AI API, если вы планируете использовать Vertex AI). Для этого может потребоваться создание проекта GCP и включение биллинга для этого проекта.
3. Получение API-ключа: В Google AI Studio, в разделе “API keys”, создайте новый API-ключ. Внимание! Относитесь к ключу с осторожностью.
4. Использование Google AI Studio Playground: Google AI Studio предоставляет интерактивный Playground, где вы можете экспериментировать с моделями Gemini без написания кода. Загрузите изображение (или укажите URL), введите текстовый промпт и выберите модель Gemini Pro Vision (или другую доступную мультимодальную модель). Совет: Google AI Studio позволяет быстро оценивать разные модели Gemini и настраивать параметры генерации.
5. Программный доступ к API (Python): Для интеграции Gemini в ваши приложения, вам потребуется использовать клиентскую библиотеку Google Cloud для Python. Установка библиотеки Google Cloud AI Platform:bashpip install google-cloud-aiplatform Пример кода Python (Vertex AI):pythonfrom google.cloud import aiplatform import base64 # Функция для кодирования изображения в Base64 def encode_image(image_path): with open(image_path, "rb") as image_file: return base64.b64encode(image_file.read()).decode('utf-8') # Параметры проекта PROJECT_ID = "YOUR_GCP_PROJECT_ID" # Замените на ID вашего проекта GCP LOCATION = "us-central1" # Регион # Инициализируем клиент Vertex AI aiplatform.init(project=PROJECT_ID, location=LOCATION) # Модель Gemini Pro Vision MODEL_NAME = "gemini-pro-vision" # Путь к изображению image_path = "path/to/your/image.jpg" # Кодируем изображение image_base64 = encode_image(image_path) # Формируем запрос instances = [ { "image": { "mime_type": "image/jpeg", "data": image_base64 }, "prompt": "Опиши это изображение в стиле научной фантастики." } ] # Параметры генерации parameters = { "temperature": 0.2, # Меньше = более предсказуемо "maxOutputTokens": 800, # Лимит токенов "topP": 0.8, "topK": 40 } # Вызываем модель endpoint = aiplatform.Endpoint( endpoint_name=f"projects/{PROJECT_ID}/locations/{LOCATION}/endpoints/{MODEL_NAME}" ) response = endpoint.predict(instances=instances, parameters=parameters) # Выводим результат for prediction in response.predictions: print(prediction['content']) Разъяснение кода: Импортируются библиотеки google.cloud и base64. Замените "YOUR_GCP_PROJECT_ID" на ID вашего проекта Google Cloud Platform. Укажите регион (LOCATION), где доступна модель Gemini Pro Vision. Кодируем изображение в Base64. Формируем запрос с указанием типа содержимого, данных изображения и промпта. Определяем параметры генерации (температура, лимит токенов и т.д.). Вызывается модель Gemini Pro Vision. Выводится сгенерированный текст. Важно: Вам потребуется настроить аутентификацию для Google Cloud Platform. Самый простой способ – использовать учетные данные по умолчанию приложения (Application Default Credentials). Подробности смотрите в документации Google Cloud.
2.2. Оптимальные промпты для мультимодальных моделей: Искусство убеждения ИИ
Создание эффективных промптов – это ключевой навык для работы с мультимодальными моделями. Промпт – это ваша инструкция для ИИ, и чем более четкой и конкретной она будет, тем лучше будет результат.
Основные принципы:
Ясность и цель: Определите цель: Чего вы хотите достичь? Какую информацию вы хотите получить от ИИ? Будьте конкретны: Избегайте общих фраз. Вместо “Опиши картинку”, используйте “Опиши атмосферу этого пейзажа, делая акцент на цвете, освещении и текстуре.” Разбивайте сложные задачи: Если вам нужно несколько видов информации, лучше разбить задачу на несколько отдельных промптов.
Контекст и роль: Задайте роль: Укажите, в качестве кого должен выступать ИИ. “Ты – искусствовед, опиши эту картину.” “Ты – сценарист, придумай сцену на основе этого изображения.” Предоставьте контекст: Дайте ИИ дополнительную информацию, которая поможет ему лучше понять задачу. Например, укажите жанр, целевую аудиторию или желаемый стиль. Пример: “Ты – автор детской сказки. Напиши короткую историю про двух котят, играющих в саду, изображенных на этой картинке. История должна быть доброй и поучительной.”
Конец ознакомительного фрагмента.
Текст предоставлен ООО «Литрес».
Прочитайте эту книгу целиком, купив полную легальную версию на Литрес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.