Neste momento a maioria das pessoas no mundo tem uma preocupação na cabeça, a COVID-19. Existe um misto de medo e impotência sobre o que fazer nesta situação de crise sem precedentes, tanto a nível de saúde, como a nível social e económico.
Esta é uma altura de agir, de mostrar resiliência e capacidade de resposta.
Dito isto, em que sentido é que a nossa inteligência aliada à ciência dos dados pode ser útil à sociedade para mitigar ou compreender melhor esta pandemia?
Para isso temos que pensar de forma estruturada tal como fazemos no nosso dia a dia no desenvolvimento de projetos na Axians.
Machine Learning e o Coronavírus
Um projeto de Machine Learning (ML) de modo genérico, é composto por várias etapas:
- Enquadramento do problema;
- Recolha dos dados;
- Exploração dos dados para obter conhecimento sobre o problema;
- Preparação dos dados para expor padrões subjacentes que podem ser identificados por algoritmos de ML;
- Exploração de diferentes modelos e algoritmos e listar os que obtiveram melhores resultados;
- Afinação dos modelos e desenvolver a solução;
- Apresentação a solução;
- Lançamento, monitorização e manutenção da solução.
No contexto da pandemia do Coronavírus o enquadramento do problema será obter conhecimento que permita suportar e apoiar a luta contínua contra esta doença infeciosa.
A segunda etapa é crucial e consiste na recolha dos dados, que envolve tarefas como listar os dados necessários, documentar como será efetuada a aquisição de dados, especificar as condições de logística para captura e armazenamento, garantir as obrigações legais de recolha e armazenamento de dados e finalmente efetuar a dita recolha de dados.
Esta pandemia é muito recente e a quantidade de dados existente é limitada. Não significa que não possamos fazer nada, significa que temos que focar os nossos esforços na recolha de dados relevantes.
Como podemos fazer isso? Já existem várias iniciativas internacionais que pretendem disponibilizar dados relacionados com a COVID-19:
- Itália: https://github.com/pcm-dpc/COVID-19
- Portugal: https://github.com/dssg-pt/covid19pt-data
- USA: https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
- Canadá: https://github.com/ieee8023/covid-chestxray-dataset
O último exemplo consiste num conjunto de dados contendo 150 imagens de radiografia de Tórax de pacientes diagnosticados com casos positivos de COVID-19, SARS e MERS. No entanto neste conjunto de dados apenas 25 são de casos positivos de Coronavírus.
Atualmente a técnica mais utilizada para efetuar classificação e deteção em imagens é o Deep Learning.
Deep Learning e o Coronavírus
Deep Learning é uma área de Machine Learning baseada em um conjunto de algoritmos que tentam modelar abstrações de alto nível de dados usando um grafo profundo com várias camadas de processamento, compostas de várias transformações lineares e não lineares e pode ser aplicado em áreas como:
- Visão computacional;
- Reconhecimento automático de fala;
- Processamento de linguagem natural;
- Reconhecimento de áudio;
- Bioinformática.
A desvantagem desta técnica é que necessita de um conjunto considerável de dados. Por exemplo, estas técnicas já foram utilizadas para identificar e diagnosticar com sucesso pneumonias bacterianas ou pneumonias virais, mas para esse efeito foi utilizado um conjunto de dados com 5863 imagens.
Fonte: Cell
Neste momento as imagens existentes de radiografia de Tórax de pacientes diagnosticados com casos positivos de COVID-19 revelam-se insuficientes para aplicar técnicas de Deep Learning baseadas em imagens.
Uma alternativa frequentemente utilizada para mitigar estas limitações de dados é aplicar outra técnica conhecida como Transfer Learning (transferência de conhecimento).
Transfer Learning e o Coronarívus
O conceito de Transfer Learning é simples: treinar o modelo utilizando um conjunto de dados com milhares de imagens, depois na arquitetura do modelo remove-se a última camada responsável pela classificação e adicionamos uma nova camada treinada com outro conjunto de dados que possua um número reduzido de imagens.
Fonte: Kevin McGuinness
É necessário ter em consideração que nem sempre esta solução atinge os resultados esperados, por isso é mais importante do que nunca estabelecer parcerias com as entidades de saúde de forma a montar sistemas de ingestão de dados com ferramentas que facilitem e agilizem o processo de recolha, armazenamento e anotação das imagens radiográficas.
Com esse conjunto de dados acreditamos que conseguiremos aplicar modelos de Deep Learning baseados em imagens que servirão como não como um substituto, mas sim um auxiliar de diagnóstico para os profissionais de saúde.