Slait commited on
Commit
3ddc42e
·
verified ·
1 Parent(s): 5015c25

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +168 -156
README.md CHANGED
@@ -1,156 +1,168 @@
1
- # 🖼️ Генератор описаний изображений Qwen VL
2
-
3
- Приложение для автоматической генерации описаний изображений с использованием моделей Qwen Vision Language (VL). Идеально подходит для создания описаний товаров для интернет-магазинов, каталогов и маркетплейсов.
4
-
5
- ## ✨ Возможности
6
-
7
- - **Одиночная обработка**: Загрузите одно изображение и получите описание
8
- - **Пакетная обработка**: Обработайте несколько изображений одновременно
9
- - **Выбор моделей**: Поддержка моделей Qwen2-VL различных размеров
10
- - **Расширенные параметры**:
11
- - Макс. количество новых токенов (1-4096)
12
- - Температура (0.1-2.0)
13
- - Top-p nucleus sampling (0.05-1.0)
14
- - Top-k (1-1000)
15
- - Seed для воспроизводимости результатов
16
- - **Современный UI**: Интуитивный веб-интерфейс на базе Gradio
17
-
18
- ## 📋 Требования
19
-
20
- - Python 3.8 или выше
21
- - CUDA-совместимая GPU (рекомендуется, но не обязательно)
22
- - Минимум 8GB RAM (16GB+ рекомендуется для больших моделей)
23
-
24
- ## 🚀 Установка
25
-
26
- 1. **Клонируйте репозиторий или создайте директорию проекта**:
27
- ```bash
28
- mkdir qwen-vl-app
29
- cd qwen-vl-app
30
- ```
31
-
32
- 2. **Создайте виртуальное окружение**:
33
- ```bash
34
- python -m venv venv
35
- ```
36
-
37
- 3. **Активируйте виртуальное окружение**:
38
- - Windows:
39
- ```bash
40
- venv\Scripts\activate
41
- ```
42
- - Linux/Mac:
43
- ```bash
44
- source venv/bin/activate
45
- ```
46
-
47
- 4. **Установите зависимости**:
48
- ```bash
49
- pip install -r requirements.txt
50
- ```
51
-
52
- ## 💻 Использование
53
-
54
- ### Запуск приложения
55
-
56
- ```bash
57
- python app.py
58
- ```
59
-
60
- Приложение запустится на `http://localhost:7860`
61
-
62
- ### Одиночная обработка
63
-
64
- 1. Перейдите на вкладку "📄 Одиночная обработка"
65
- 2. Загрузите изображение
66
- 3. Введите промт (например: "Создать описание тарелки арт:123 для онлайн магазина")
67
- 4. При необходимости настройте расширенные параметры
68
- 5. Нажмите "🚀 Генерировать описание"
69
-
70
- ### Пакетная обработка
71
-
72
- 1. Перейдите на вкладку "📚 Пакетная обработка"
73
- 2. Загрузите несколько изображений
74
- 3. Введите промты:
75
- - **Один промт для всех**: Введите один промт, он будет применен ко всем изображениям
76
- - **Индивидуальные промты**: Введите по одному промту на строку для каждого изображения
77
- 4. Нажмите "🚀 Обработать пакет"
78
-
79
- ## 🎯 Примеры промтов
80
-
81
- - "Создать описание тарелки арт:123 для онлайн магазина"
82
- - "Описать блюдо для меню ресторана с указанием ингредиентов"
83
- - "Создать привлекательное описание продукта для маркетплейса"
84
- - "Детально описать изображение для каталога товаров"
85
- - "Написать SEO-оптимизированное описание товара"
86
-
87
- ## ⚙️ Параметры генерации
88
-
89
- ### Макс. количество токенов (1-4096)
90
- Определяет максимальную длину генерируемого текста. Больше токенов = более длинное описание.
91
-
92
- ### Температура (0.1-2.0)
93
- Контролирует "креативность" модели:
94
- - **Низкая (0.1-0.5)**: Более предсказуемые и консервативные ответы
95
- - **Средняя (0.6-0.8)**: Баланс между креативностью и точностью
96
- - **Высокая (0.9-2.0)**: Более креативные и разнообразные ответы
97
-
98
- ### Top-p (0.05-1.0)
99
- Nucleus sampling - ограничивает выбор токенов по кумулятивной вероятности.
100
-
101
- ### Top-k (1-1000)
102
- Ограничивает выбор только k наиболее вероятными токенами.
103
-
104
- ### Seed
105
- Для воспроизводимости результатов. Используйте одинаковый seed для получения идентичных результатов.
106
-
107
- ## 🤖 Доступные модели
108
-
109
- - **Qwen/Qwen2-VL-2B-Instruct**: Легкая модель, быстрая генерация
110
- - **Qwen/Qwen2-VL-8B-Instruct**: Более мощная модель с лучшим качеством
111
-
112
- ## 🔧 Логика работы с моделями
113
-
114
- Приложение использует умную систему управления моделями:
115
- - Модель загружается только один раз при первом использовании
116
- - При переключении модели старая модель выгружается из памяти
117
- - Одновременно в памяти находится только одна модель
118
- - Это оптимизирует использование GPU/RAM
119
-
120
- ## 📝 Структура проекта
121
-
122
- ```
123
- qwen-vl-app/
124
- ├── app.py # Основной файл приложения
125
- ├── requirements.txt # Зависимости Python
126
- └── README.md # Документация
127
- ```
128
-
129
- ## 🐛 Устранение неполадок
130
-
131
- ### Ошибка CUDA out of memory
132
- - Используйте модель меньшего размера (2B вместо 7B)
133
- - Уменьшите max_new_tokens
134
- - Закройте другие приложения, использующие GPU
135
-
136
- ### Медленная генерация
137
- - Убедитесь, что используется GPU (проверьте вывод при запуске)
138
- - Используйте модель меньшего размера
139
- - Уменьшите разрешение изображений
140
-
141
- ### Модель не загружается
142
- - Проверьте подключение к интернету (модели загружаются из HuggingFace)
143
- - Убедитесь, что достаточно места на диске
144
- - Проверьте, что установлены все зависимости
145
-
146
- ## 📄 Лицензия
147
-
148
- Этот проект использует модели Qwen, которые распространяются под лицензией Apache 2.0.
149
-
150
- ## 🤝 Поддержка
151
-
152
- При возникновении проблем или вопросов создайте issue в репозитории проекта.
153
-
154
- ---
155
-
156
- **Примечание**: Первый запуск может занять время, так как модели будут загружены из HuggingFace Hub.
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ title: Qwen VL Image Description Generator
3
+ emoji: 🏆
4
+ colorFrom: blue
5
+ colorTo: gray
6
+ sdk: gradio
7
+ sdk_version: '4.50.0'
8
+ app_file: app.py
9
+ pinned: false
10
+ license: apache-2.0
11
+ ---
12
+
13
+ # 🖼️ Генератор описаний изображений Qwen VL
14
+
15
+ Приложение для автоматической генерации описаний изображений с использованием моделей Qwen Vision Language (VL). Идеально подходит для создания описаний товаров для интернет-магазинов, каталогов и маркетплейсов.
16
+
17
+ ## ✨ Возможности
18
+
19
+ - **Одиночная обработка**: Загрузите одно изображение и получите описание
20
+ - **Пакетная обработка**: Обработайте несколько изображений одновременно
21
+ - **Выбор моделей**: Поддержка моделей Qwen2-VL различных размеров
22
+ - **Расширенные параметры**:
23
+ - Макс. количество новых токенов (1-4096)
24
+ - Температура (0.1-2.0)
25
+ - Top-p nucleus sampling (0.05-1.0)
26
+ - Top-k (1-1000)
27
+ - Seed для воспроизводимости результатов
28
+ - **Современный UI**: Интуитивный веб-интерфейс на базе Gradio
29
+
30
+ ## 📋 Требования
31
+
32
+ - Python 3.8 или выше
33
+ - CUDA-совместимая GPU (рекомендуется, но не обязательно)
34
+ - Минимум 8GB RAM (16GB+ рекомендуется для больших моделей)
35
+
36
+ ## 🚀 Установка
37
+
38
+ 1. **Клонируйте репозиторий или создайте директорию проекта**:
39
+ ```bash
40
+ mkdir qwen-vl-app
41
+ cd qwen-vl-app
42
+ ```
43
+
44
+ 2. **Создайте виртуальное окружение**:
45
+ ```bash
46
+ python -m venv venv
47
+ ```
48
+
49
+ 3. **Активируйте виртуальное окружение**:
50
+ - Windows:
51
+ ```bash
52
+ venv\Scripts\activate
53
+ ```
54
+ - Linux/Mac:
55
+ ```bash
56
+ source venv/bin/activate
57
+ ```
58
+
59
+ 4. **Установите зависимости**:
60
+ ```bash
61
+ pip install -r requirements.txt
62
+ ```
63
+
64
+ ## 💻 Использование
65
+
66
+ ### Запуск приложения
67
+
68
+ ```bash
69
+ python app.py
70
+ ```
71
+
72
+ Приложение запустится на `http://localhost:7860`
73
+
74
+ ### Одиночная обработка
75
+
76
+ 1. Перейдите на вкладку "📄 Одиночная обработка"
77
+ 2. Загрузите изображение
78
+ 3. Введите промт (например: "Создать описание тарелки арт:123 для онлайн магазина")
79
+ 4. При необходимости настройте расширенные параметры
80
+ 5. Нажмите "🚀 Генерировать описание"
81
+
82
+ ### Пакетная обработка
83
+
84
+ 1. Перейдите на вкладку "📚 Пакетная обработка"
85
+ 2. Загрузите несколько изображений
86
+ 3. Введите промты:
87
+ - **Один промт для всех**: Введите один промт, он будет применен ко всем изображениям
88
+ - **Индивидуальные промты**: Введите по одному промту на строку для каждого изображения
89
+ 4. Нажмите "🚀 Обработать пакет"
90
+
91
+ ## 🎯 Примеры промтов
92
+
93
+ - "Создать описание тарелки арт:123 для онлайн магазина"
94
+ - "Описать блюдо для меню ресторана с указанием ингредиентов"
95
+ - "Создать привлекательное описание продукта для маркетплейса"
96
+ - "Детально описать изображение для каталога товаров"
97
+ - "Написать SEO-оптимизированное описание товара"
98
+
99
+ ## ⚙️ Параметры генерации
100
+
101
+ ### Макс. количество токенов (1-4096)
102
+ Определяет максимальную длину генерируемого текста. Больше токенов = более длинное описание.
103
+
104
+ ### Температура (0.1-2.0)
105
+ Контролирует "креативность" модели:
106
+ - **Низкая (0.1-0.5)**: Более предсказуемые и консервативные ответы
107
+ - **Средняя (0.6-0.8)**: Баланс между креативностью и точностью
108
+ - **Высокая (0.9-2.0)**: Более креативные и разнообразные ответы
109
+
110
+ ### Top-p (0.05-1.0)
111
+ Nucleus sampling - ограничивает выбор токенов по кумулятивной вероятности.
112
+
113
+ ### Top-k (1-1000)
114
+ Ограничивает выбор только k наиболее вероятными токенами.
115
+
116
+ ### Seed
117
+ Для воспроизводимости результатов. Используйте одинаковый seed для получения идентичных результатов.
118
+
119
+ ## 🤖 Доступные модели
120
+
121
+ - **Qwen/Qwen2-VL-2B-Instruct**: Легкая модель, быстрая генерация
122
+ - **Qwen/Qwen2-VL-8B-Instruct**: Более мощная модель с лучшим качеством
123
+
124
+ ## 🔧 Логика работы с моделями
125
+
126
+ Приложение использует умную систему управления моделями:
127
+ - Модель загружается только один раз при первом использовании
128
+ - При переключении модели старая модель выгружается из памяти
129
+ - Одновременно в памяти находится только одна модель
130
+ - Это оптимизирует использование GPU/RAM
131
+
132
+ ## 📝 Структура проекта
133
+
134
+ ```
135
+ qwen-vl-app/
136
+ ├── app.py # Основной файл приложения
137
+ ├── requirements.txt # Зависимости Python
138
+ └── README.md # Документация
139
+ ```
140
+
141
+ ## 🐛 Устранение неполадок
142
+
143
+ ### Ошибка CUDA out of memory
144
+ - Используйте модель меньшего размера (2B вместо 7B)
145
+ - Уменьшите max_new_tokens
146
+ - Закройте другие приложения, использующие GPU
147
+
148
+ ### Медленная генерация
149
+ - Убедитесь, что используется GPU (проверьте вывод при запуске)
150
+ - Используйте модель меньшего размера
151
+ - Уменьшите разрешение изображений
152
+
153
+ ### Модель не загружается
154
+ - Проверьте подключение к интернету (модели загружаются из HuggingFace)
155
+ - Убедитесь, что достаточно места на диске
156
+ - Проверьте, что установлены все зависимости
157
+
158
+ ## 📄 Лицензия
159
+
160
+ Этот проект использу��т модели Qwen, которые распространяются под лицензией Apache 2.0.
161
+
162
+ ## 🤝 Поддержка
163
+
164
+ При возникновении проблем или вопросов создайте issue в репозитории проекта.
165
+
166
+ ---
167
+
168
+ **Примечание**: Первый запуск может занять время, так как модели будут загружены из HuggingFace Hub.