Código de Python - Transferencia de Estilo, redes CNN.

Transferencia de Estilo, redes CNN.

Python

Publicado el 9 de Enero del 2024 por Hilario (122 códigos)

314 visualizaciones desde el 9 de Enero del 2024

---------------------------------------------------------------------------------------------------------------------

Exponemos aquí un ejemplo de redes neuronales convolucionales CNN,
basadas en transferencia de estilo. Partiendo de una imagen original, y otra imagen que dará
la forma del estilo(en nuestro caso, un cuadro de Picaso), construiremos otra, basada en las dos anteriores.

El programa que citamos aquí está basado en en un ejemplo
del blog RUBENJROMO
https://rubenjromo.com/
Modificados algunos parámetros.
Editado y ejecutado en GoogleColab.
Archivos de muestra, alojados en DRIVE.
https://drive.google.com/

Modelo vgg19-dcbb9e9d.pth bajado de:
"https://download.pytorch.org/models/vgg19-dcbb9e9d.pth

*****************************************************************************

Las redes neuronales convolucionales (CNN) y la transferencia de estilo son conceptos distintos en el campo del aprendizaje profundo, pero a veces se combinan para lograr resultados interesantes en el procesamiento de imágenes. Aquí hay una breve descripción de cada uno:

Redes Neuronales Convolucionales (CNN):

Las CNN son un tipo de arquitectura de red neuronal diseñada específicamente para procesar datos de rejilla, como imágenes. Utilizan capas de convolución para extraer características relevantes de la imagen de entrada.
La convolución implica el uso de filtros o kernels que se deslizan sobre la imagen para realizar operaciones locales, lo que permite detectar patrones específicos, como bordes, texturas o formas.
Están compuestas por capas convolucionales, capas de activación (como la ReLU), capas de agrupación (pooling) y capas completamente conectadas.
Transferencia de Estilo:

La transferencia de estilo es una técnica que utiliza redes neuronales para combinar el contenido de una imagen con el estilo de otra imagen de manera creativa.
Se basa en la idea de separar el contenido y el estilo de una imagen. La información de contenido se extrae de una imagen de referencia, mientras que el estilo se toma de otra imagen.
La red neuronal intenta generar una nueva imagen que conserve el contenido de una imagen de entrada pero adopte el estilo de otra imagen de referencia.
Cuando se combinan estas dos ideas, se puede aplicar la transferencia de estilo utilizando una CNN. La idea es utilizar una red preentrenada, como VGG16 o VGG19, para extraer tanto el contenido como el estilo de las imágenes. Luego, se optimiza una nueva imagen para que coincida con el contenido de una imagen de entrada y el estilo de otra imagen de referencia. Este proceso permite crear imágenes que fusionan el contenido de una imagen con el estilo artístico de otra.

En resumen, las CNN son arquitecturas de redes neuronales diseñadas para el procesamiento de imágenes, mientras que la transferencia de estilo es una técnica que utiliza redes neuronales para combinar el contenido y el estilo de diferentes imágenes. Al aplicar la transferencia de estilo con una CNN, se pueden lograr resultados visualmente atractivos y creativos.

Requerimientos

Editado y ejecutado en GoogleColab.
Archivos de muestra, alojados en DRIVE.
https://drive.google.com/

Modelo vgg19-dcbb9e9d.pth bajado de:
"https://download.pytorch.org/models/vgg19-dcbb9e9d.pth

V-0.

Publicado el 9 de Enero del 2024

gráfica de visualizaciones de la versión: V-0.

315 visualizaciones desde el 9 de Enero del 2024

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

"""

Basado en un ejemplo

del blog RUBENJROMO

https://rubenjromo.com/

Modificados algunos parámetros.

Editado y ejecutado en GoogleColab.

Archivos de muestra, alojados en DRIVE.

https://drive.google.com/

Modelo vgg19-dcbb9e9d.pth bajado de:

"https://download.pytorch.org/models/vgg19-dcbb9e9d.pth

"""

# importando los recursos

%matplotlib inline

from PIL import Image

from io import BytesIO

import matplotlib.pyplot as plt

import numpy as np

import torch

import torch.optim as optim

import requests

from torchvision import transforms, models

# obtiene la porción "features" de VGG19

vgg = models.vgg19(pretrained=True).features

# congelamos todos los parámetros VGG dado que solo estamos optimizando la imagen objetivo

for param in vgg.parameters():

    param.requires_grad_(False)

# mover el modelo a GPU si está disponible

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

vgg.to(device)

def load_image(img_path, max_size=400, shape=None):

    ''' Load in and transform an image, making sure the image

       is <= 400 pixels in the x-y dims.'''

    if "http" in img_path:

        response = requests.get(img_path)

        image = Image.open(BytesIO(response.content)).convert('RGB')

    else:

        image = Image.open(img_path).convert('RGB')

    # large images will slow down processing

    if max(image.size) > max_size:

        size = max_size

    else:

        size = max(image.size)

    if shape is not None:

        size = shape

    in_transform = transforms.Compose([

                        transforms.Resize(size),

                        transforms.ToTensor(),

                        transforms.Normalize((0.485, 0.456, 0.406),

                                             (0.229, 0.224, 0.225))])

    # discard the transparent, alpha channel (that's the :3) and add the batch dimension

    image = in_transform(image)[:3,:,:].unsqueeze(0)

    return image

# cargando las imágenes content y style

content = load_image('/content/drive/MyDrive/druida/flores/flores1/image_00010.jpg').to(device)

# Redimensionar style para emparejar al content, hace más facil el trabajo

style = load_image('/content/drive/MyDrive/druida/picaso.jpg', shape=content.shape[-2:]).to(device)

# función para desnormalizar una imagen

# y convertirla de una imagen Tensor a una imagen NumPy para su visualización

def im_convert(tensor):

    """ Muestra un tensor como una imagen. """

    image = tensor.to("cpu").clone().detach()

    image = image.numpy().squeeze()

    image = image.transpose(1,2,0)

    image = image * np.array((0.229, 0.224, 0.225)) + np.array((0.485, 0.456, 0.406))

    image = image.clip(0, 1)

    return image

# muestra la imagen

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 15))

# content y style lado a lado

plt.axis('off')

ax1.axes.get_xaxis().set_visible(False)

ax1.axes.get_yaxis().set_visible(False)

ax1.imshow(im_convert(content))

ax2.axes.get_xaxis().set_visible(False)

ax2.axes.get_yaxis().set_visible(False)

ax2.imshow(im_convert(style))

def get_features(image, model, layers=None):

    """ Correr una imagen hacia adelante a través de un modelo y obtener las características para

        un conjunto de capas. Las capas predeterminadas son para VGGNet que coincida con Gatys et al (2016)

"""

    if layers is None:

        layers = {'0': 'conv1_1',

                  '5': 'conv2_1',

                  '10': 'conv3_1',

                  '19': 'conv4_1',

                  '21': 'conv4_2',

                  '28': 'conv5_1',

                  '35': 'conv6_1'}

    features = {}

    x = image

    # model._modules es un diccionario que contiene cada módule en el modelo

    for name, layer in model._modules.items():

        x = layer(x)

        if name in layers:

            features[layers[name]] = x

    return features

def gram_matrix(tensor):

    # obtiene el batch_size, profundidad, alto y ancho del Tensor

    _, d, h, w = tensor.size()

    # redimensiona para poder multiplicar los features para cada canal

    tensor = tensor.view(d, h * w)

    # calcula la gram matrix

    gram = torch.mm(tensor, tensor.t())

    return gram

# obtiene los features de content y style features  una sola vez antes de entrenar

content_features = get_features(content, vgg)

style_features = get_features(style, vgg)

# calcula las matrices Gram para cada capa de nuestra representación de estilo

style_grams = {layer: gram_matrix(style_features[layer]) for layer in style_features}

# crea una tercera imagen, nuestra imagen objetivo/target, y la prepara para que cambie

target = content.clone().requires_grad_(True).to(device)

# weights para cada capa de estilo

# note que excluimos `conv4_2` de nuestra representación de contenido

style_weights = {'conv1_1': 1.,

                 'conv2_1': 0.75,

                 'conv3_1': 0.2,

                 'conv4_1': 0.2,

                 'conv5_1': 0.2,

                 'conv5_1': 0.2}

content_weight = 1  # alpha

style_weight = 1e6  # beta

#content_loss = torch.mean((target_features['conv4_2'] - content_features['conv4_2'])**2)

# cada cuantos pasos se mostrará un avance

show_every = 250

# hyperparametros de iteración

optimizer = optim.Adam([target], lr=0.03)

steps = 100  # cuantas iteraciónes tomará la imagen

for ii in range(1, steps+1):

    # obtiene los features de la imagen objetivo/target

    target_features = get_features(target, vgg)

    # la perdida de contenido

    content_loss = torch.mean((target_features['conv4_2'] - content_features['conv4_2'])**2)

    # la perdida de estilo

    # inicializa en 0

    style_loss = 0

    # luego se suma cada pérdida de capa de matriz Gram

    for layer in style_weights:

        # obtiene la representación de estilo de la imagen objetivo para la capa

        target_feature = target_features[layer]

        target_gram = gram_matrix(target_feature)

        _, d, h, w = target_feature.shape

        # obtiene la representación de estilo

        style_gram = style_grams[layer]

        # la pérdida de estilo para una capa multiplicada por su beta

        layer_style_loss = style_weights[layer] * torch.mean((target_gram - style_gram)**2)

        # suma las pérdidas de estilo

        style_loss += layer_style_loss / (d * h * w)

    # calcula la pérdida total

    total_loss = content_weight * content_loss + style_weight * style_loss

    # actualiza la imagen objetivo

    optimizer.zero_grad()

    total_loss.backward()

    optimizer.step()

    # muestra las imágenes intermedias e imprime la pérdida y el número de iteración

    if  ii % show_every == 0:

        print('Pérdida total / Total loss: ', total_loss.item())

        print('Iteración # ', ii)

        plt.imshow(im_convert(target))

        plt.axis('off')

        plt.show()

# Muestra la imagen original (content) y la imagen final (target)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 15))

ax1.axes.get_xaxis().set_visible(False)

ax1.axes.get_yaxis().set_visible(False)

ax1.imshow(im_convert(content))

ax2.axes.get_xaxis().set_visible(False)

ax2.axes.get_yaxis().set_visible(False)

ax2.imshow(im_convert(target))

Comentarios sobre la versión: V-0. (0)

No hay comentarios

Comentar la versión: V-0.

http://lwp-l.com/s7480

Imagenes, ficheros tipo:.npy

Reproductor de música (nueva versión).

Código de Python - Transferencia de Estilo, redes CNN.

Requerimientos

V-0.

Comentarios sobre la versión: V-0. (0)

Comentar la versión: V-0.

Tienes que ser un usuario registrado para poder insertar imágenes, archivos y/o videos.