Spaces:

CrucibleAI
/

ControlNetMediaPipeFaceSD21

Runtime error

App Files Files Community

Joseph Catrambone commited on Apr 3, 2023

Commit

3dbb2cf

1 Parent(s): b5ecd5f

Prevent models from forcing tensors to CUDA. Increase the default max_faces from 1 to 5.

Browse files

Files changed (6) hide show

app.py +1 -1
cldm/ddim_hacked.py +4 -3
ldm/models/diffusion/ddim.py +4 -3
ldm/models/diffusion/dpm_solver/sampler.py +4 -3
ldm/models/diffusion/plms.py +4 -3
ldm/modules/encoders/modules.py +18 -5

app.py CHANGED Viewed

@@ -86,7 +86,7 @@ with block:
             run_button = gr.Button(label="Run")
             with gr.Accordion("Advanced options", open=False):
                 num_samples = gr.Slider(label="Images", minimum=1, maximum=12, value=1, step=1)
-                max_faces = gr.Slider(label="Max Faces", minimum=1, maximum=5, value=1, step=1)
                 min_confidence = gr.Slider(label="Min Confidence", minimum=0.01, maximum=1.0, value=0.5, step=0.01)
                 strength = gr.Slider(label="Control Strength", minimum=0.0, maximum=2.0, value=1.0, step=0.01)
                 guess_mode = gr.Checkbox(label='Guess Mode', value=False)

             run_button = gr.Button(label="Run")
             with gr.Accordion("Advanced options", open=False):
                 num_samples = gr.Slider(label="Images", minimum=1, maximum=12, value=1, step=1)
+                max_faces = gr.Slider(label="Max Faces", minimum=1, maximum=10, value=5, step=1)
                 min_confidence = gr.Slider(label="Min Confidence", minimum=0.01, maximum=1.0, value=0.5, step=0.01)
                 strength = gr.Slider(label="Control Strength", minimum=0.0, maximum=2.0, value=1.0, step=0.01)
                 guess_mode = gr.Checkbox(label='Guess Mode', value=False)

cldm/ddim_hacked.py CHANGED Viewed

@@ -15,9 +15,10 @@ class DDIMSampler(object):
         self.schedule = schedule
     def register_buffer(self, name, attr):
-        if type(attr) == torch.Tensor:
-            if attr.device != torch.device("cuda"):
-                attr = attr.to(torch.device("cuda"))
         setattr(self, name, attr)
     def make_schedule(self, ddim_num_steps, ddim_discretize="uniform", ddim_eta=0., verbose=True):

         self.schedule = schedule
     def register_buffer(self, name, attr):
+        # Do not force attr to CUDA device by default.  It may not exist.
+        #if type(attr) == torch.Tensor:
+        #    if attr.device != torch.device("cuda"):
+        #        attr = attr.to(torch.device("cuda"))
         setattr(self, name, attr)
     def make_schedule(self, ddim_num_steps, ddim_discretize="uniform", ddim_eta=0., verbose=True):

ldm/models/diffusion/ddim.py CHANGED Viewed

@@ -15,9 +15,10 @@ class DDIMSampler(object):
         self.schedule = schedule
     def register_buffer(self, name, attr):
-        if type(attr) == torch.Tensor:
-            if attr.device != torch.device("cuda"):
-                attr = attr.to(torch.device("cuda"))
         setattr(self, name, attr)
     def make_schedule(self, ddim_num_steps, ddim_discretize="uniform", ddim_eta=0., verbose=True):

         self.schedule = schedule
     def register_buffer(self, name, attr):
+        # Do not force module to cuda by default.
+        #if type(attr) == torch.Tensor:
+        #    if attr.device != torch.device("cuda"):
+        #        attr = attr.to(torch.device("cuda"))
         setattr(self, name, attr)
     def make_schedule(self, ddim_num_steps, ddim_discretize="uniform", ddim_eta=0., verbose=True):

ldm/models/diffusion/dpm_solver/sampler.py CHANGED Viewed

@@ -18,9 +18,10 @@ class DPMSolverSampler(object):
         self.register_buffer('alphas_cumprod', to_torch(model.alphas_cumprod))
     def register_buffer(self, name, attr):
-        if type(attr) == torch.Tensor:
-            if attr.device != torch.device("cuda"):
-                attr = attr.to(torch.device("cuda"))
         setattr(self, name, attr)
     @torch.no_grad()

         self.register_buffer('alphas_cumprod', to_torch(model.alphas_cumprod))
     def register_buffer(self, name, attr):
+        # This is in the original sampler.py, but it is forcing the attr to 'cuda' instead of the default device.
+        #if type(attr) == torch.Tensor:
+        #    if attr.device != torch.device("cuda"):
+        #        attr = attr.to(torch.device("cuda"))
         setattr(self, name, attr)
     @torch.no_grad()

ldm/models/diffusion/plms.py CHANGED Viewed

@@ -17,9 +17,10 @@ class PLMSSampler(object):
         self.schedule = schedule
     def register_buffer(self, name, attr):
-        if type(attr) == torch.Tensor:
-            if attr.device != torch.device("cuda"):
-                attr = attr.to(torch.device("cuda"))
         setattr(self, name, attr)
     def make_schedule(self, ddim_num_steps, ddim_discretize="uniform", ddim_eta=0., verbose=True):

         self.schedule = schedule
     def register_buffer(self, name, attr):
+        # Do not force module to CUDA by default.
+        #if type(attr) == torch.Tensor:
+        #    if attr.device != torch.device("cuda"):
+        #        attr = attr.to(torch.device("cuda"))
         setattr(self, name, attr)
     def make_schedule(self, ddim_num_steps, ddim_discretize="uniform", ddim_eta=0., verbose=True):

ldm/modules/encoders/modules.py CHANGED Viewed

@@ -8,6 +8,9 @@ import open_clip
 from ldm.util import default, count_params
 class AbstractEncoder(nn.Module):
     def __init__(self):
         super().__init__()
@@ -42,7 +45,9 @@ class ClassEmbedder(nn.Module):
         c = self.embedding(c)
         return c
-    def get_unconditional_conditioning(self, bs, device="cuda"):
         uc_class = self.n_classes - 1  # 1000 classes --> 0 ... 999, one extra class for ucg (class 1000)
         uc = torch.ones((bs,), device=device) * uc_class
         uc = {self.key: uc}
@@ -57,8 +62,10 @@ def disabled_train(self, mode=True):
 class FrozenT5Embedder(AbstractEncoder):
     """Uses the T5 transformer encoder for text"""
-    def __init__(self, version="google/t5-v1_1-large", device="cuda", max_length=77, freeze=True):  # others are google/t5-v1_1-xl and google/t5-v1_1-xxl
         super().__init__()
         self.tokenizer = T5Tokenizer.from_pretrained(version)
         self.transformer = T5EncoderModel.from_pretrained(version)
         self.device = device
@@ -92,9 +99,11 @@ class FrozenCLIPEmbedder(AbstractEncoder):
         "pooled",
         "hidden"
     ]
-    def __init__(self, version="openai/clip-vit-large-patch14", device="cuda", max_length=77,
                  freeze=True, layer="last", layer_idx=None):  # clip-vit-base-patch32
         super().__init__()
         assert layer in self.LAYERS
         self.tokenizer = CLIPTokenizer.from_pretrained(version)
         self.transformer = CLIPTextModel.from_pretrained(version)
@@ -140,9 +149,11 @@ class FrozenOpenCLIPEmbedder(AbstractEncoder):
         "last",
         "penultimate"
     ]
-    def __init__(self, arch="ViT-H-14", version="laion2b_s32b_b79k", device="cuda", max_length=77,
                  freeze=True, layer="last"):
         super().__init__()
         assert layer in self.LAYERS
         model, _, _ = open_clip.create_model_and_transforms(arch, device=torch.device('cpu'), pretrained=version)
         del model.visual
@@ -194,9 +205,11 @@ class FrozenOpenCLIPEmbedder(AbstractEncoder):
 class FrozenCLIPT5Encoder(AbstractEncoder):
-    def __init__(self, clip_version="openai/clip-vit-large-patch14", t5_version="google/t5-v1_1-xl", device="cuda",
                  clip_max_length=77, t5_max_length=77):
         super().__init__()
         self.clip_encoder = FrozenCLIPEmbedder(clip_version, device, max_length=clip_max_length)
         self.t5_encoder = FrozenT5Embedder(t5_version, device, max_length=t5_max_length)
         print(f"{self.clip_encoder.__class__.__name__} has {count_params(self.clip_encoder)*1.e-6:.2f} M parameters, "

 from ldm.util import default, count_params
+default_device = torch.device("cpu" if not torch.cuda.is_available() else "cuda")
 class AbstractEncoder(nn.Module):
     def __init__(self):
         super().__init__()
         c = self.embedding(c)
         return c
+    def get_unconditional_conditioning(self, bs, device=None):
+        if device is None:
+            device = default_device
         uc_class = self.n_classes - 1  # 1000 classes --> 0 ... 999, one extra class for ucg (class 1000)
         uc = torch.ones((bs,), device=device) * uc_class
         uc = {self.key: uc}
 class FrozenT5Embedder(AbstractEncoder):
     """Uses the T5 transformer encoder for text"""
+    def __init__(self, version="google/t5-v1_1-large", device=None, max_length=77, freeze=True):  # others are google/t5-v1_1-xl and google/t5-v1_1-xxl
         super().__init__()
+        if device is None:
+            device = default_device
         self.tokenizer = T5Tokenizer.from_pretrained(version)
         self.transformer = T5EncoderModel.from_pretrained(version)
         self.device = device
         "pooled",
         "hidden"
     ]
+    def __init__(self, version="openai/clip-vit-large-patch14", device=None, max_length=77,
                  freeze=True, layer="last", layer_idx=None):  # clip-vit-base-patch32
         super().__init__()
+        if device is None:
+            device = default_device
         assert layer in self.LAYERS
         self.tokenizer = CLIPTokenizer.from_pretrained(version)
         self.transformer = CLIPTextModel.from_pretrained(version)
         "last",
         "penultimate"
     ]
+    def __init__(self, arch="ViT-H-14", version="laion2b_s32b_b79k", device=None, max_length=77,
                  freeze=True, layer="last"):
         super().__init__()
+        if device is None:
+            device = default_device
         assert layer in self.LAYERS
         model, _, _ = open_clip.create_model_and_transforms(arch, device=torch.device('cpu'), pretrained=version)
         del model.visual
 class FrozenCLIPT5Encoder(AbstractEncoder):
+    def __init__(self, clip_version="openai/clip-vit-large-patch14", t5_version="google/t5-v1_1-xl", device=None,
                  clip_max_length=77, t5_max_length=77):
         super().__init__()
+        if device is None:
+            device = default_device
         self.clip_encoder = FrozenCLIPEmbedder(clip_version, device, max_length=clip_max_length)
         self.t5_encoder = FrozenT5Embedder(t5_version, device, max_length=t5_max_length)
         print(f"{self.clip_encoder.__class__.__name__} has {count_params(self.clip_encoder)*1.e-6:.2f} M parameters, "