Os métodos propostos atualmente para a segmentação de imagens digitais superaram a exatidão e precisão do método visual na estimativa da severidade de doenças foliares. Entretanto, a combinação de fatores como exatidão, precisão, aplicabilidade em uma gama de condições e rapidez, faz com que as estimativas visuais continuem sendo o método mais usado, tanto em ambiente controlado, como em campo. Os objetivos deste estudo foram: (1) avaliar o aprendizado profundo, mais especificamente, as redes neurais convolucionais (CNNs) na segmentação semântica de imagens digitais para estimativa de severidade de doenças e pragas foliares; e (2) investigar os fatores que afetam os desempenhos dos modelos de CNNs na segmentação semântica de imagens digitais. O conjunto de dados de imagem deste estudo reuniu 766 imagens compostas por uma única folha com sintomas cloróticos e necróticos causados por duas doenças fúngicas (ferrugem da soja e mancha bronzeada do trigo) e um inseto-praga (bicho-mineiro do café). As imagens foliares com sintomas de ferrugem da soja e mancha bronzeada do trigo foram capturadas em laboratório, com a iluminação homogênea e o plano de fundo padronizado. Diferentemente, as imagens foliares com sintomas do inseto- praga bicho-mineiro do café foram capturadas em condição de campo, com iluminação irregular e fundo complexo. Três classes semântica foram anotadas manualmente em cada imagem: fundo da imagem, área foliar saudável e área foliar lesionada. Os fatores investigados que poderiam afetar o desempenho dos modelos de CNN foram: plano de fundo da imagem, aumento de dados, resolução da imagem, backbone, número de dobras K na validação cruzada k-fold, algoritmo de otimização e aprendizado por transferência. O modelo de Rede de Pirâmides Características (FPN) tendeu a apresentar o melhor desempenho na segmentação do conjunto de imagens de teste, atingindo uma Interseção-sobre-União (IoU) de 98,9% para o fundo da imagem, 94,1% para área foliar saudável e 79,4% para a área lesionada. Quando previsões em nível de pixel foram usadas para calcular a severidade das folhas, o modelo FPN superou o software Assess, referência para os fitopatologistas, em todas as doenças e pragas analisadas, com coeficientes de concordância de 0,97, 0,98 e 0,98 para ferrugem da soja, mancha bronzeada do trigo e bicho-mineiro do café, respectivamente. Apresentando um método totalmente automático de segmentação, o tempo de inferência e estimativa da severidade dos modelos de CNNs não ultrapassou os 6s, tempo aproximadamente 20 vezes menor que o obtido pelo usuário no modo manual de segmentação do Assess. Os experimentos computacionais mostraram que os fatores analisados tenderam a impactar o desempenho do modelo FPN na segmentação semântica de imagens foliares. Os resultados se mostraram promissores, principalmente pela capacidade dos modelos de segmentar imagens em condições desafiadoras de iluminação e fundo complexo de forma precisa e automática. Palavras-chave: Redes neurais convolucionais. Segmentação semântica. Processamento de imagens.
The methods currently proposed for digital image segmentation have surpassed the accuracy and precision of the visual method in estimating the severity of leaf diseases. However, the combination of factors such as accuracy, precision, applicability in a range of conditions and speed of analysis, makes that visual estimates continue to be the most used method, both in a controlled environment and in the field. The objectives of this study were: (1) to evaluate the deep learning, more specifically, the performance of convolutional neural networks (CNNs) in the semantic segmentation of digital images to estimate the severity of diseases and leaf pests; and (2) to investigate the factors affecting the performance of CNN models in the semantic segmentation of digital images. The image dataset of this study gathered 766 images composed of a single leaf with chlorotic and necrotic symptoms caused by two fungal diseases (soybean rust and wheat tan spot) and a pest insect (coffee leaf miner). Leaf images with symptoms of soybean rust and wheat tan spot were obtained in the laboratory, with homogeneous lighting and standardized background. Conversely, the leaf images with symptoms of the coffee leaf miner were captured under field conditions, with irregular lighting and complex background. Three semantic classes were manually annotated on each image: background of the image, healthy and damaged leaf area. The factors investigated that could affect the performance of the CNN models were image background, data increase, image resolution, backbone, number of folds (k) in the k-fold cross-validation, optimization algorithm and transfer learning. The Feature Pyramid Network (FPN) model tended to present the best performance in the segmentation of the test image set, presenting an Intersection-Over-Union (IoU) of 98.9% for the image background, 94.1% for healthy leaf area, and 79.4% for the damaged area. When pixel-level predictions were used to calculate leaf severity, the FPN model outperformed the Assess software, the reference used for plant pathologists, for all diseases and pests analyzed, with concordance coefficients of 0.97, 0.98, and 0.98 for soybean rust, wheat tan spot, and coffee leaf miner, respectively. Presenting a fully automatic segmentation method, the inference time and estimate of the severity of the CNN models did not exceed 6s, a time approximately 20 times shorter than that obtained by the user in the manual mode of segmentation of the Assess. The computational experiments showed that the factors analyzed tended to impact the performance of the FPN model in the semantic segmentation of leaf images. The results were promising, mainly because of the models' ability to segment images under challenging lighting and complex background conditions in an accurate and automatic way. Keywords: Convolutional neural networks. Semantic segmentation. Image processing.