fix embedding_extractor.py memory leak problem, and add a `num_classes` param in the construct function of operator.

3 years ago · 086c225df0
5 changed files with 98 additions and 155 deletions
--- a/pytorch/embedding_extractor.py
+++ b/pytorch/embedding_extractor.py
@ -1,66 +0,0 @@
 # Copyright 2021 Zilliz. All rights reserved.
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
 # you may not use this file except in compliance with the License.
 # You may obtain a copy of the License at
 #
 #     http://www.apache.org/licenses/LICENSE-2.0
 #
 # Unless required by applicable law or agreed to in writing, software
 # distributed under the License is distributed on an "AS IS" BASIS,
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
 import pprint
 class EmbeddingOutput:
    """
    Container for embedding extractor.
    """
    def __init__(self):
        self.embeddings = []
    def __call__(self, module, module_in, module_out):
        self.embeddings.append(module_out)
    def clear(self):
        """
        clear list
        """
        self.embeddings = []
 class EmbeddingExtractor:
    """
    Embedding extractor from a layer
    Args:
        model (`nn.Module`):
            Model used for inference.
    """
    def __init__(self, model):
        # self.modules = model.modules()
        # self.modules_list = list(model.named_modules(remove_duplicate=False))
        self.modules_dict = dict(model.named_modules(remove_duplicate=False))
        self.emb_out = EmbeddingOutput()
    def disp_modules(self, full=False):
        """
        Display the the modules of the model.
        """
        if not full:
            pprint.pprint(list(self.modules_dict.keys()))
        else:
            pprint.pprint(self.modules_dict)
    def register(self, layer_name: str):
        """
        Registration for embedding extraction.
        Args:
            layer_name (`str`):
                Name of the layer from which the embedding is extracted.
        """
        if layer_name in self.modules_dict:
            layer = self.modules_dict[layer_name]
            layer.register_forward_hook(self.emb_out)
        else:
            raise ValueError('layer_name not in modules')
--- a/pytorch/model.py
+++ b/pytorch/model.py
@ -13,57 +13,39 @@
 # limitations under the License.
 from typing import NamedTuple
 import numpy
 import torch
 import torchvision
 from torch.nn import Linear
 from timm.models.resnet import ResNet
 # ResNet.
 from pytorch.embedding_extractor import EmbeddingExtractor
 #todo:后面改成用towhee.models.embedding.下面的EmbeddingExtractor，这个现在在origin main分支上可用，但在train分支上不可用
 from torch import nn
 import timm
 class Model():
    """
    PyTorch model class
    """
    def __init__(self, model_name):
    def __init__(self, model_name, num_classes=1000):
        super().__init__()
        model_func = getattr(torchvision.models, model_name)
        self._model = model_func(pretrained=True)
        state_dict = None
        self._model = timm.create_model(model_name, pretrained=True)
        pretrained_dict = None
        if model_name == 'resnet101':
            state_dict = torch.hub.load_state_dict_from_url(
            pretrained_dict = torch.hub.load_state_dict_from_url(
                'https://github.com/rwightman/pytorch-image-models/releases/download/v0.1-rsb-weights/resnet101_a1h-36d3f2aa.pth')
        if model_name == 'resnet50':
            state_dict = torch.hub.load_state_dict_from_url(
            pretrained_dict = torch.hub.load_state_dict_from_url(
                'https://github.com/rwightman/pytorch-image-models/releases/download/v0.1-rsb-weights/resnet50_a1_0-14fe96d1.pth')
        if state_dict:
            self._model.load_state_dict(state_dict)
        # self._model.fc = torch.nn.Identity()
        if pretrained_dict:
            self._model.load_state_dict(pretrained_dict, strict=False)
        if num_classes != 1000:
            self.create_classifier(num_classes=num_classes)
        self._model.eval()
        self.ex = EmbeddingExtractor(self._model)
        # self.ex.disp_modules(full=True)
        self.ex.register('avgpool')
    def __call__(self, img_tensor: torch.Tensor):
        self.ex.emb_out.clear()
        self._model(img_tensor)
        # return self.fc_input[0]
        return self.ex.emb_out.embeddings[0]
        # return self._model(img_tensor).flatten().detach().numpy() #todo
        features = self._model.forward_features(img_tensor)
        if features.dim() == 4:  # if the shape of feature map is [N, C, H, W], where H > 1 and W > 1
            global_pool = nn.AdaptiveAvgPool2d(1)
            features = global_pool(features)
        return features.flatten().detach().numpy()
    def create_classifier(self, num_classes):
        self._model.fc = Linear(self._model.fc.in_features, num_classes, bias=True)
        # self._model.classifier.register_forward_hook(self._forward_hook)
    # def train(self):
    #     """
    #     For training model
    #     """
    #     pass
--- a/resnet_image_embedding.py
+++ b/resnet_image_embedding.py
@ -31,7 +31,7 @@ class ResnetImageEmbedding(NNOperator):
    """
    PyTorch model for image embedding.
    """
    def __init__(self, model_name: str, framework: str = 'pytorch') -> None:
    def __init__(self, model_name: str, num_classes: int = 1000, framework: str = 'pytorch') -> None:
        super().__init__(framework=framework)
        if framework == 'pytorch':
            import importlib.util
@ -40,8 +40,7 @@ class ResnetImageEmbedding(NNOperator):
            spec = importlib.util.spec_from_file_location(opname, path)
            module = importlib.util.module_from_spec(spec)
            spec.loader.exec_module(module)
        self.model = module.Model(model_name)
        self.model = module.Model(model_name, num_classes=num_classes)
        self.tfms = transforms.Compose([transforms.Resize(235, interpolation=InterpolationMode.BICUBIC),
                                        transforms.CenterCrop(224),
                                        transforms.ToTensor(),
--- a/resnet_training_yaml.yaml
+++ b/resnet_training_yaml.yaml
@ -1,25 +1,42 @@
 callback:
  early_stopping:
    mode: max
    monitor: eval_epoch_metric
    patience: 2
  model_checkpoint:
    every_n_epoch: 2
  tensorboard:
    comment: ''
    log_dir: null
 device:
  device_str: null
  n_gpu: -1
  sync_bn: true
  sync_bn: false
 learning:
  loss: CrossEntropyLoss
  lr: 5.0e-05
  lr_scheduler_type: linear
  optimizer: Adam
  warmup_ratio: 0.0
  warmup_steps: 0
 logging:
  logging_dir: null
  logging_strategy: steps
  print_steps: null
  save_strategy: steps
 metrics:
  metric: Accuracy
 train:
  batch_size: 32
  batch_size: 16
  dataloader_drop_last: false
  dataloader_num_workers: 0
  epoch_num: 16
  eval_steps: null
  eval_strategy: epoch
  load_best_model_at_end: false
  max_steps: -1
  output_dir: ./output_dir
  overwrite_output_dir: true
  epoch_num: 2
 learning:
  optimizer:
    name_: SGD
    lr: 0.04
    momentum: 0.001
  loss:
    name_: CrossEntropyLoss
    ignore_index: -1
 logging:
  print_steps: 2
 #learning:
 #  optimizer:
 #    name_: Adam
 #    lr: 0.02
 #    eps: 0.001
  resume_from_checkpoint: null
  seed: 42
  val_batch_size: -1
--- a/test.py
+++ b/test.py
@ -2,10 +2,13 @@ import numpy as np
 from torch.optim import AdamW
 from torchvision import transforms
 from torchvision.transforms import RandomResizedCrop, Lambda
 from towhee.data.dataset.dataset import dataset
 from towhee.trainer.modelcard import ModelCard
 from towhee.trainer.training_config import TrainingConfig
 from towhee.trainer.dataset import get_dataset
 # from towhee.trainer.dataset import get_dataset
 from towhee.trainer.utils.layer_freezer import LayerFreezer
 from resnet_image_embedding import ResnetImageEmbedding
 from towhee.types import Image
 from towhee.trainer.training_config import dump_default_yaml
@ -17,7 +20,7 @@ if __name__ == '__main__':
    dump_default_yaml(yaml_path='default_config.yaml')
    # img = torch.rand([1, 3, 224, 224])
    img_path = './ILSVRC2012_val_00049771.JPEG'
    # # logo_path = os.path.join(Path(__file__).parent.parent.parent.parent.resolve(), 'towhee_logo.png')
    # logo_path = os.path.join(Path(__file__).parent.parent.parent.parent.resolve(), 'towhee_logo.png')
    img = PILImage.open(img_path)
    img_bytes = img.tobytes()
    img_width = img.width
@ -28,10 +31,12 @@ if __name__ == '__main__':
    array_size = np.array(img).shape
    towhee_img = Image(img_bytes, img_width, img_height, img_channel, img_mode, img_array)
    op = ResnetImageEmbedding('resnet34')
    op = ResnetImageEmbedding('resnet50', num_classes=10)
    # op.model_card = ModelCard(model_details="resnet test modelcard", training_data="use resnet test data")
    # old_out = op(towhee_img)
    # print(old_out.feature_vector[0])
    old_out = op(towhee_img)
    # print(old_out.feature_vector[0][:10])
    print(old_out.feature_vector[:10])
    # print(old_out.feature_vector.shape)
    training_config = TrainingConfig()
    yaml_path = 'resnet_training_yaml.yaml'
@ -46,39 +51,45 @@ if __name__ == '__main__':
    #     # device_str='cuda',
    #     # n_gpu=4
    # )
    #
    mnist_transform = transforms.Compose([transforms.ToTensor(),
                                          RandomResizedCrop(224),
                                          Lambda(lambda x: x.repeat(3, 1, 1)),
                                          transforms.Normalize(mean=[0.5], std=[0.5])])
    train_data = get_dataset('mnist', transform=mnist_transform, download=True, root='data', train=True)
    eval_data = get_dataset('mnist', transform=mnist_transform, download=True, root='data', train=False)
    train_data = dataset('mnist', transform=mnist_transform, download=True, root='data', train=True)
    eval_data = dataset('mnist', transform=mnist_transform, download=True, root='data', train=False)
    # fake_transform = transforms.Compose([transforms.ToTensor(),
    #                                       RandomResizedCrop(224),])
    # train_data = get_dataset('fake', size=20, transform=fake_transform)
    op.change_before_train(10)
    trainer = op.setup_trainer()
    # my_optimimzer = AdamW(op.get_model().parameters(), lr=0.002, betas=(0.91, 0.98), eps=1e-08, weight_decay=0.01, amsgrad=False)
    # op.setup_trainer()
    # trainer.add_callback()
    # trainer.set_optimizer()
    # op.trainer.set_optimizer(my_optimimzer)
    # trainer.configs.save_to_yaml('changed_optimizer_yaml.yaml')
    # my_loss = nn.BCELoss()
    # trainer.set_loss(my_loss, 'my_loss111')
    # trainer.configs.save_to_yaml('chaned_loss_yaml.yaml')
    # op.trainer._create_optimizer()
    # op.trainer.set_optimizer()
    #
    # op.change_before_train(num_classes=10)
    # # trainer = op.setup_trainer()
    # print(op.get_model())
    # # my_optimimzer = AdamW(op.get_model().parameters(), lr=0.002, betas=(0.91, 0.98), eps=1e-08, weight_decay=0.01, amsgrad=False)
    # # op.setup_trainer()
    #
    # # trainer.add_callback()
    # # trainer.set_optimizer()
    #
    # # op.trainer.set_optimizer(my_optimimzer)
    # # trainer.configs.save_to_yaml('changed_optimizer_yaml.yaml')
    #
    # # my_loss = nn.BCELoss()
    # # trainer.set_loss(my_loss, 'my_loss111')
    # # trainer.configs.save_to_yaml('chaned_loss_yaml.yaml')
    # # op.trainer._create_optimizer()
    # # op.trainer.set_optimizer()
    # # trainer = op.setup_trainer(training_config, train_dataset=train_data, eval_dataset=eval_data)
    #
    # # freezer = LayerFreezer(op.get_model())
    # # freezer.by_idx([-1])
    op.train(training_config, train_dataset=train_data, eval_dataset=eval_data)
    # training_config.num_epoch = 3
    # op.train(training_config, train_dataset=train_data, resume_checkpoint_path=training_config.output_dir + '/epoch_2')
    # op.save('./test_save')
    # op.load('./test_save')
    # new_out = op(towhee_img)
    # assert (new_out[0]!=old_out[0]).all()
    # # op.trainer.run_train()
    # # training_config.num_epoch = 3
    # # op.train(training_config, train_dataset=train_data, resume_checkpoint_path=training_config.output_dir + '/epoch_2')
    #
    # # op.save('./test_save')
    # # op.load('./test_save')
    # # new_out = op(towhee_img)
    #
    # # assert (new_out[0]!=old_out[0]).all()