banner
Lar / blog / Equipe de Illinois ganha o primeiro prêmio na competição OpenCV AI
blog

Equipe de Illinois ganha o primeiro prêmio na competição OpenCV AI

Aug 15, 2023Aug 15, 2023

09/08/2023

Debra Levey Larson

Criar manualmente um conjunto de dados de imagens rotuladas é caro e requer muito esforço. Motivada para reduzir esses dois fatores, uma equipe de quatro estudantes da Universidade de Illinois Urbana-Champaign desenvolveu uma solução que automatiza o processo de geração e anotação de dados para treinamento de modelos de visão computacional baseados em aprendizagem profunda.

A equipe ganhou o primeiro prêmio no Core Track da Competição OpenCV AI 2022 este ano. Seu software chamado COCOpen segue a abordagem de rotulagem de imagens introduzida no conjunto de dados "Common Objects in Context" da Microsoft.

O software criado por eles produz dados de imagem usados ​​para treinar modelos para identificar e delinear objetos específicos em uma cena que pode conter vários objetos da mesma categoria.

No exemplo de caso de uso em seu repositório de código, eles geram imagens que contêm vários objetos das categorias de dispositivos com fio e Ethernet. Estas imagens sintéticas podem ser usadas para treinar um modelo de aprendizagem profunda para detectar estas categorias de objetos em novas imagens que o modelo nunca viu antes.

A criação e rotulagem automatizadas dessas imagens de treinamento reduzem significativamente o tempo e as despesas associadas a esse processo. O código pode ser usado em diversas aplicações, como manufatura, logística, direção autônoma e serviços domésticos.

Holly Dinkel , um Ph.D. estudante do Departamento de Engenharia Aeroespacial da UIUC, explicou que o COCOpen funciona capturando imagens simples e sem rótulos de objetos únicos contra um fundo preto.

O software usa OpenCV para criar máscaras para esses objetos individuais com base em suas cores. Em seguida, ele combina várias imagens de objetos em uma única imagem usando o método copiar e colar de aumento de dados. Além disso, OpenCV é usado para aplicar melhorias, incluindo randomizar a orientação de um objeto ou alterar sua cor.

Os dados gerados pela biblioteca COCOpen são validados treinando um modelo Detectron2 Mask R-CNN para detectar fios Ethernet e dispositivos de rede para uma aplicação de manipulação robótica.

Yash Rathod, júnior no Departamento de Ciência da Computação, disse que sua visão para o COCOpen era pegar a pesquisa de um laboratório e construir uma experiência de geração de dados fácil de usar para profissionais de aprendizado de máquina.

“A ideia era construir um pipeline onde extraíssemos milhares de imagens da nuvem, pré-processássemos e aplicassemos as técnicas de geração de dados estudadas em laboratório, para produzir dados no formato COCO prontos para o treinamento de modelos de visão computacional”, disse ele.

Rathod usou sua experiência de um semestre com o Programa de Promoção de Pesquisa de Graduação em Engenharia da UIUC para desenvolver e testar software para interface com recursos de armazenamento de dados em nuvem – originalmente Microsoft Azure, depois Box.

“A geração automatizada de dados significa que os usuários podem simplesmente clonar um repositório de código e seguir instruções mínimas de instalação e execução. Queremos economizar o tempo dos usuários e recursos computacionais valiosos aproveitando a nuvem”, disse Rathod.

Harry Zhao , que se formou em maio passado com bacharelado em engenharia aeroespacial, destacou a capacidade do COCOpen de resolver problemas de visão computacional do mundo real usando OpenCV com aplicações para muitas disciplinas. Entre algumas das outras 45 inscrições em sua categoria estavam soluções para desafios médicos, ambientais e de construção.

“A criação do conjunto de dados original do Microsoft COCO exigiu um total de 55.000 horas de trabalho, nem todas feitas por uma pessoa, é claro”, disse Zhao. “Mas pode haver muitas inconsistências. Alguns rótulos podem ser imprecisos e terem de ser rejeitados ou refinados, o que desperdiça ainda mais tempo. COCOpen coloca dados em um formato que as pessoas podem usar para gerar rótulos automaticamente em imagens.”

Zhao disse que o COCOpen é inspirado em códigos e dados que ele e Dinkel criaram há dois anos durante seu estágio no Programa de Oportunidades de Pesquisa de Graduação do Illinois Space Grant Consortium.

Sobre a complexidade da rotulagem, Zhao disse: “Se nos importássemos apenas em detectar ou classificar os fios, diríamos apenas: isto é um fio e isto não é um fio. É zero ou um. Binário. A segmentação semântica ocorre quando você sabe o que os pixels representam.