Previs~ao de biotoxinas marinhas em moluscos bivalves ......Previs~ao de biotoxinas marinhas em...

75
Previs˜ ao de biotoxinas marinhas em moluscos bivalves baseada em aprendizagem autom´ atica Lirio Sandro da Silva Ramalheira Disserta¸c˜ ao para obten¸ c˜ao do Grau de Mestre em Engenharia Inform´ atica e de Computadores Orientadores: Prof. Susana de Almeida Mendes Vinga Martins Prof. Pedro Jos´ e Conde Reis Costa uri Presidente: Prof. Daniel Jorge Viegas Gon¸calves Orientador: Prof. Susana de Almeida Mendes Vinga Martins Vogais: Prof. Francisco Javier Campuzano Guillen October 2019

Transcript of Previs~ao de biotoxinas marinhas em moluscos bivalves ......Previs~ao de biotoxinas marinhas em...

  • Previsão de biotoxinas marinhas em moluscosbivalves baseada em aprendizagem automática

    Lirio Sandro da Silva Ramalheira

    Dissertação para obtenção do Grau de Mestre em

    Engenharia Informática e de Computadores

    Orientadores: Prof. Susana de Almeida Mendes Vinga MartinsProf. Pedro José Conde Reis Costa

    Júri

    Presidente: Prof. Daniel Jorge Viegas Gonçalves

    Orientador: Prof. Susana de Almeida Mendes Vinga MartinsVogais: Prof. Francisco Javier Campuzano Guillen

    October 2019

  • Agradecimentos

    Quero agradecer os meus orientadores, Susana Vinga, Pedro Costa pela orientação durante um ano

    académico. Sua paciência, disponibilidade para fazer observações foram essenciais para cada fase do

    desenvolvimento e conclusão desta tese. Gostaria de agradecer também à Prof.a Marta Lopes pelo apoio

    e motivação que foram primordiais para a conclusão desta tese. Finalmente, quero agradecer à minha

    famı́lia e amigos pelo apoio.

    Projecto financiado no concurso ”Projetos de Investigação Cient́ıfica e Desenvolvimento Tecnológico

    em Ciência dos Dados e Inteligência Artificial na Administração Pública - 2019” (DSAIPA/DS/0026/2019).

    i

  • Declaração

    Declaro que este documento é um trabalho original da minha autoria e que cumpre todos os requisitos

    do Código de Conduta e Boas Práticas da Universidade de Lisboa.

    iii

  • Prefácio

    O trabalho apresentado nesta tese foi realizado no Instituto Superior Técnico (Lisboa, Portugal), Instituto

    de Telecomunicações (Lisboa, Portugal) e o Instituto Português de Mar e Atmosfera, durante o peŕıodo

    de 2018/2019 sob a supervisão da Prof.a Susana Vinga, Prof. Pedro Costa e Prof.a Marta Lopes.

    v

  • Abstract

    The control and monitoring of marine biotoxins in bivalve molluscs is an important and complex task

    aimed at preventing bivalve poisoning and protecting the production sector. Within this context, the need

    arises to detect and predict values of biotoxins in bivalves above regulatory limits, with a view to timely

    forecasting the bivalve harvest ban and minimizing negative impacts on the production sector. Currently,

    several techniques based on automatic learning have been used to detect outliers or predict values in

    time series. These statistically based techniques have been widely used because of their precision, model

    choice and fit, important tasks that define the quality of the forecast. However, for proper application and

    interpretation of the models, the steps of data knowledge, preprocessing, choosing the appropriate model,

    validation and visualization are extremely important in a monitoring and forecasting process. In this work,

    we present the main techniques and models used in various branches of science for medium and long term

    forecasting of time series, aiming to predict marine biotoxins present in bivalve molluscs in Portugal. A

    proposal for developing a web or local tool covering all the steps listed is presented. Preliminary results of

    the application of the Integrated Autoregressive Mixed Moving Average Model (ARIMA), Autoregressive

    Vector Model (VAR), Autoregressive Moving Vector Model (VARMA), Autoregressive Neuronal Networks

    (NNAR) and Recurrent Neuronal Networks (RNN) to 2014-2018 biotoxin data provided by the Portuguese

    Institute of Sea and Atmosphere (IPMA) are presented.

    Keywords: Machine Learning; Time Series; Bivalves; Marine Biotoxins.

    iii

  • Resumo

    O controlo e monitorização de biotoxinas marinhas em moluscos bivalves constituem uma tarefa im-

    portante e complexa que tem como objetivo a prevenção de intoxicações por consumo de bivalves e a

    proteção do setor de produção. Dentro deste contexto, nasce a necessidade de detetar e prever valores

    de biotoxinas em bivalves acima dos limites regulamentares, com vista a uma atempada previsão da

    interdição da colheita de bivalves e minimização dos impactos negativos no setor de produção. Atual-

    mente, têm sido utilizadas diversas técnicas baseadas em aprendizagem automática para detetar valores

    discrepantes (outliers) ou prever valores em séries temporais. Estas técnicas, de base estat́ıstica, têm

    sido muito utilizadas devido à sua precisão, escolha do modelo e ajustamento, tarefas importantes e que

    definem a qualidade da previsão. No entanto, para uma adequada aplicação e interpretação dos mode-

    los, são de extrema importância num processo de monitorização e previsão os passos de conhecimento

    dos dados, pré-processamento, escolha do modelo adequado, validação e visualização. Neste trabalho,

    são apresentadas as principais técnicas e modelos utilizados em vários ramos da ciência para previsão

    a médio e longo prazo de séries temporais, com o objetivo de prever as biotoxinas marinhas presentes

    em moluscos bivalves em Portugal. É apresentada uma proposta de desenvolvimento de uma ferramenta

    web ou local englobando todos os passos enumerados. São ainda apresentados resultados preliminares

    da aplicação do Modelo Integrado Misto Autorregressivo de Médias Móveis (ARIMA), Modelo Vector

    Autorregressivo (VAR), Modelo Vector Autorregressivo de Médias Móveis (VARMA), Redes Neuronais

    Autorregressivas (NNAR) e Redes Neuronais Recorrentes (RNN) aos dados de biotoxinas de 2014 a 2018

    fornecidos pelo Instituto Português de Mar e Atmosfera (IPMA).

    Keywords: Aprendizagem Automática; Séries Temporais; Bivalves; Biotoxinas Marinhas.

    v

  • Conteúdo

    Lista de Tabelas xi

    Lista de Figuras xiii

    Glossário xvii

    1 Introdução 1

    1.1 Biotoxinas Marinhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

    1.2 Recolha dos Dados e Monitorização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.3 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.4 Organização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2 Análise de Séries Temporais 5

    2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.1.1 Séries Univariadas e Multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.1.2 Composição de Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.1.3 Pré-processamento de Séries Temporais . . . . . . . . . . . . . . . . . . . . . . . . 6

    2.1.4 Estacionaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    2.1.5 Funções de Autocorrelação e Autocorrelação Parcial . . . . . . . . . . . . . . . . . 8

    2.1.6 Normalização e Diferenciação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2.1.7 Estratégias de Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.2 Modelos Autorregressivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.2.1 Modelo Autorregressivo (AR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2.2 Modelo de Médias Móveis (MA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2.3 Modelo Autorregressivo de Médias Móveis (ARMA) . . . . . . . . . . . . . . . . . 11

    2.2.4 Modelos Integrados Autorregressivos de Médias Móveis (ARIMA) . . . . . . . . . 11

    2.2.5 Modelos Integrados Autorregressivos de Médias Móveis com Sazonalidade (SARIMA) 12

    2.2.6 Modelo Vector Autorregressivo (VAR) . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2.7 Modelo Vector Autorregressivo de Médias Móveis (VARMA) . . . . . . . . . . . . 13

    2.3 Redes Neuronais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.3.1 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.3.2 Redes Neuronais Autorregressivas . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.3.3 Redes Neuronais Recorrentes (RNN) . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    Memória de Curto Prazo (LSTM) . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    3 Método Proposto 19

    3.1 Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    3.2 Conjunto de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    vii

  • 3.3 Critérios para Seleção de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    3.4 Métricas para Seleção de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3.4.1 Escolha do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    Etapa de Identificação e Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    Etapa de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.5 Plataforma Informática de Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    4 Resultados e Discussão 27

    4.1 Dados de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    4.2 Análise e Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    4.2.1 Etapa de Identificação e Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    Selecção de Parâmetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    4.2.2 Avaliação de Modelos Autorregressivos . . . . . . . . . . . . . . . . . . . . . . . . . 32

    Avaliação da Qualidade Estat́ıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    Avaliação da Qualidade de Ajustamento . . . . . . . . . . . . . . . . . . . . . . . . 32

    4.2.3 Avaliação de Redes Neuronais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . 33

    4.2.4 Comparação da Qualidade de Previsão . . . . . . . . . . . . . . . . . . . . . . . . . 34

    5 Conclusão 43

    5.1 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    5.2 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    Bibliografia 45

    viii

  • x

  • Lista de Tabelas

    1.1 Limite legais de biotoxinas marinhas em moluscos bivalves, estabelecidos no Regulamento

    (CE) no 852/2004 e 854/2004 do Parlamento Europeu. . . . . . . . . . . . . . . . . . . . . 3

    2.1 Vantagens e desvantagens dos dois tipos de modelos apresentados. . . . . . . . . . . . . . 17

    3.1 Uma seleção de amostras de biotoxinas marinhas recolhidas em algumas zonas litorais de

    Portugal durante o peŕıodo de 2015. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    3.2 Uma seleção dos resultados das análises de fitoplâncton na água em algumas zonas litorais

    de Portugal durante o peŕıodo de 2015 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    3.3 Os principais pacotes de R utilizados para o desenvolvimento e operação da plataforma. . 23

    4.1 As Capitanias e as principais zonas litorais onde foram recolhidos nos dados de biotoxinas

    marinhas e de fitoplâncton. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4.2 Matriz de correlação cruzada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4.3 Formato esperado como entrada no modelo RNN com LSTM. . . . . . . . . . . . . . . . . 32

    4.4 Valores referentes aos erros de cada métrica aplicada a cada modelo. . . . . . . . . . . . . 35

    4.5 Detalhes dos modelos ARIMA ajustados automaticamente para a previsão de séries tem-

    porais de algumas zonas litorais de Portugal. . . . . . . . . . . . . . . . . . . . . . . . . . 37

    4.6 Detalhes dos modelos NNAR ajustados automaticamente para as séries temporais de al-

    gumas zonas litorais de Portugal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    xi

  • Lista de Figuras

    1.1 Zonas de recolhas de biotoxinas e fitoplâncton (dispońıvel em www.ipma.pt). . . . . . . . 2

    2.1 Número de passageiros de avião durante o peŕıodo de 1949-1960 nos Estados Unidos [1]. . 7

    2.2 Autocorrelação presente na série temporal de biotoxinas marinhas referente ao ano de 2015

    na capitania de Aveiro para mexilhão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.3 Autocorrelação parcial presente na série temporal de biotoxinas marinhas referente ao ano

    de 2015 na capitania de Aveiro para mexilhão. . . . . . . . . . . . . . . . . . . . . . . . . 10

    2.4 A representação do diagrama de uma rede neuronal artificial. . . . . . . . . . . . . . . . . 15

    2.5 A representação da ANN para a proliferação de algas no lago Kaumigaura [2]. . . . . . . . 16

    2.6 A representação do diagrama de uma rede neuronal artificial recorrente. . . . . . . . . . . 17

    2.7 A representação da estrutura de uma memória de curto prazo (LSTM) [3]. . . . . . . . . . 17

    3.1 Representação do processo proposto para resolução do problema em quatro estágios. . . . 20

    3.2 Aplicação desenvolvida na linguagem R para previsão de biotoxinas marinhas. . . . . . . . 23

    3.3 Fluxo de trabalho da plataforma informática. . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.4 Visualização dos dados em tabela. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.5 Visualização dos dados em gráficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.6 Análise das séries temporais biotoxinas marinhas e ajustamento do modelo . . . . . . . . 26

    3.7 Previsão das séries temporais de biotoxinas marinhas através do modelo ajustado . . . . . 26

    4.1 Dados de biotoxinas marinhas existentes nos mexilhões na zona de Aveiro no peŕıodo 2014

    a 2018. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    4.2 Dados de fitoplâncton na zona de Aveiro no peŕıodo 2014 a 2018. . . . . . . . . . . . . . . 29

    4.3 Autocorrelação da série temporal de biotoxinas marinhas pertencente a zona de Aveiro. . 29

    4.4 Autocorrelação parcial da série temporal de biotoxinas marinhas pertencente a zona de

    Aveiro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    4.5 Reśıduos do modelo ARIMA(1,0,0) ajustado. . . . . . . . . . . . . . . . . . . . . . . . . . 33

    4.6 Reśıduos do modelo VAR(1) ajustado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    4.7 Reśıduos do modelo VARMA(1,0) ajustado. . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.8 Reśıduos do modelo NNAR(1,1) ajustado. . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4.9 Erros ao longo das épocas de treinamento do modelo RNN. . . . . . . . . . . . . . . . . . 39

    4.10 Previsão de 4 semanas de biotoxinas marinhas usando o modelo ARIMA(1,0,0). . . . . . . 39

    4.11 Previsão de 4 semanas de biotoxinas marinhas usando o modelo VAR(1). . . . . . . . . . 39

    4.12 Previsão de 4 semanas de biotoxinas marinhas usando o modelo VARMA(1,0). . . . . . . 40

    4.13 Previsão de 4 semanas de biotoxinas marinhas usando o modelo NNAR(1,1). . . . . . . . 40

    4.14 Previsão de 4 semanas de biotoxinas marinhas usando o modelo RNN. . . . . . . . . . . . 40

    4.15 Erro quadrático médio calculado em 16 horizontes de previsão. . . . . . . . . . . . . . . . 41

    4.16 Valores ajustados pelo modelo ARIMA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    xiii

  • 4.17 Valores ajustados pelo modelo NNAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    xiv

  • xvi

  • Glossário

    ACF Função de Autocorrelação.

    ADF Teste de Aumentado de Dickey Fuller.

    AIC Critério de Informação de Akaike.

    ANN Redes Neuronais Artificiais.

    AR Modelo Autorregressivo.

    ARIMA Modelos Integrados Autorregressivos de Médias Móveis.

    ARMA Modelo Autorregressivo de Médias Móveis.

    BIC Critério de Informação Bayesiano.

    IPMA Instituto Português do Mar e da Atmosfera.

    LSTM Memória de Curto Prazo.

    MA Modelo de Médias Móveis.

    NNAR Redes Neuronais Autorregressivas.

    OA Ácido Ocadaico.

    PACF Função de Autocorrelação Parcial.

    RNN Redes Neuronais Recorrentes.

    SARIMA Modelos Integrados Autorregressivos de Médias Móveis com Sazonalidade.

    VAR Vector Autorregressivo.

    VARMA Vector Autorregressivo de Médias Móveis.

    xvii

  • Caṕıtulo 1

    Introdução

    A proliferação de microalgas tóxicas que recorrentemente ocorre na costa portuguesa é um fenómeno que,

    apesar de natural, pode gerar impactos negativos na segurança alimentar, na economia local de várias

    regiões costeiras e, particularmente, no setor das pescas. Os moluscos bivalves, como por exemplo o

    mexilhão, as amêijoas e as ostras, são organismos que se alimentam através de processos de filtração da

    água do mar. Durante a proliferação de algas tóxicas, estes organismos podem acumular concentrações

    elevadas de biotoxinas, pelo que a maioria dos páıses costeiros tem um programa de monitorização

    implementado para impedir que bivalves contaminados sejam comercializados e afetem a saúde pública.

    Em Portugal, compete ao Instituto Português do Mar e da Atmosfera (IPMA, I.P.) proceder a essa

    vigilância ambiental de modo a minimizar intoxicações agudas por biotoxinas marinhas em moluscos

    bivalves. Seguindo as diretivas europeias estabelecidas no Regulamento (CE) no 852/2004 e 854/2004 do

    Parlamento Europeu e do Conselho de 29 de Abril de 2004, que estabelece i) regras espećıficas de higiene

    aplicáveis aos géneros aliment́ıcios de origem animal e ii) regras espećıficas de organização dos controlos

    oficiais de produtos de origem animal destinados ao consumo humano, o IPMA interdita a apanha e

    comercialização de moluscos bivalves sempre que a concentração de biotoxinas determinada nas amostras

    analisadas excede os limites regulamentares estabelecidos que são apresentados na Tabela 1.1. Esta

    interdição pode ser mais ou menos prolongada no tempo dependendo de diversos fatores, nomeadamente

    o tipo de biotoxinas ou a espécie de bivalve. Em qualquer dos casos verificam-se sempre constrangimentos

    para o setor produtivo, podendo em alguns casos gerar perdas económicas significativas [4].

    Neste trabalho, serão usados dados recolhidos pelo IPMA durante os anos de 2014 a 2018 (dispońıveis

    em www.ipma.pt) para prever a contaminação de moluscos bivalves por biotoxinas marinhas, com o ob-

    jetivo de antecipar os peŕıodos de interdição de apanha e auxiliar o setor de produção. Será feita uma

    revisão do estado na arte dos métodos de aprendizagem automática baseados em dados de séries tempo-

    rais, das suas vantagens e limitações. Os dados referem-se a valores de biotoxinas marinhas causadoras de

    DSP, ASP e PSP, siglas derivadas da ĺıngua inglesa dos termos Diarrhetic, Amnesic, Paralytic, Shellfish

    Poisoning, e traduzidas para português como intoxicação humana por biotoxinas diarreicas, amnésicas e

    paralisantes. As toxinas DSP são as biotoxinas marinhas mais comuns em Portugal, causam danos menos

    severos do que as toxinas ASP e PSP, mas ainda assim são responsáveis por problemas gastrointestinais.

    Por serem as mais comuns em Portugal e conduzirem à frequente interdição da apanha e comercialização

    de moluscos bivalves, as toxinas DSP serão o foco deste trabalho. Estes dados foram recolhidos na costa

    portuguesa, que está dividida em várias zonas litorais e zonas estuarinas ou de lagoas costeiras (Figura

    1.1). As zonas litorais estão divididas em 9 zonas e denominadas de L1 a L9, em que L1 é a zona litoral

    mais a norte de Portugal continental e L9 fica na fronteira sul entre Portugal e Espanha, junto ao rio

    Guadiana [5]. Foram também estabelecidas 28 zonas estuarinas ou lagunares, devido à exploração de

    bivalves no rio Minho, Lima, Mondego, Tejo, Sado, Mira, Arade e zonas de ria ou lagoas costeiras como

    1

  • a Ria de Aveiro, Lagoa de Óbidos, Lagoa de Albufeira (Sesimbra), Ria de Alvor e Ria Formosa.

    1.1 Biotoxinas Marinhas

    As biotoxinas marinhas são produzidas por determinadas espécies de fitoplâncton, sendo que o fitoplâncton

    representa a base da cadeia trófica marinha. Mesmo a pequena percentagem de espécies produtoras de

    biotoxinas (0.02%) pode causar graves danos no ambiente e para o Homem [6]. O crescimento das al-

    gas é influenciado por determinadas condições ambientais, como a temperatura, disponibilidade de luz,

    e aumento ou disponibilidade de nutrientes [7]. Também devido a alteração das condições climáticas,

    outras toxinas poderão começar a aparecer na costa portuguesa e afetar a saúde pública, bem como a

    efetiva exploração dos recursos. Em Portugal, as principais biotoxinas são as toxinas lipof́ılicas que in-

    cluem as toxinas DSP, e ainda as pectenotoxinas (PTX), iessotoxinas (YTX) e azaspirácidos (AZA). Com

    caracteŕısticas e propriedades qúımicas diferentes, são também detetadas na costa portuguesa as toxinas

    ASP e PSP, toxinas estas hidrossolúveis e causadoras de problemas neurológicos. No entanto, como já

    referido, o foco neste trabalhos é a variabilidade das toxinas DSP nos bivalves da costa portuguesa, por

    serem as toxinas que ocorrem com maior frequência, ou seja a toxina ácido ocadaico (OA) associado à

    ocorrência de Dinophysis é mais frequente e que conduzem a interdições da exploração do recurso mais

    prolongadas. Os primeiros casos reportados de intoxicação por bivalves ocorreram em 1946, mas só em

    1986 é que Portugal implementou um programa de monitorização e apenas para as toxinas DSP, uma vez

    que eram as mais frequentes e abundantes [7]. Os primeiros dados foram obtidos através de bioensaios

    em ratinhos, no entanto, este método era muito limitado e de natureza qualitativa, considerando-se a

    amostra positiva se se verificasse a morte dos ratinhos em 24 horas. Em 2000, começaram as análises

    com métodos qúımicos baseados em cromatografia ĺıquida, um método seletivo com elevada sensibilidade

    e quantitativo [6]. Desde 2011 que o método europeu de referência para biotoxinas lipof́ılicas, nas quais

    se incluem as toxinas DSP, é um método de cromatografia ĺıquida com deteção por espectrometria de

    massa (LC-MS/MS), seguindo o regulamento (UE) N.o 15/2011 de 10 de janeiro. Jornal Oficial da União

    Europeia. L6, p 3.

    Figura 1.1: Zonas de recolhas de biotoxinas e fitoplâncton (dispońıvel em www.ipma.pt).

    2

  • Tabela 1.1: Limite legais de biotoxinas marinhas em moluscos bivalves, estabelecidos no Regulamento(CE) no 852/2004 e 854/2004 do Parlamento Europeu.

    Biotoxinas marinhas Limite regulamentarToxinas DSP (ácido ocadaico, AO, e derivados) 160 µg AO eq kg−1

    Toxinas ASP (ácido domóico, AD) 20 mg AD kg−1

    Toxinas PSP (saxitoxina, STX, e derivados) 800 µg STX eq kg−1

    1.2 Recolha dos Dados e Monitorização

    Todas as semanas são recolhidas amostras de bivalves e água do mar por técnicos do IPMA em todas

    as zonas de produção de bivalves, conforme ilustrado na Figura 1.1. Procede-se à análise das biotoxinas

    regulamentadas pelas diretivas europeias, nomeadamente toxinas lipof́ılicas (inclui as toxinas DSP, PTX,

    YTX, e AZAs), e toxinas ASP e PSP. Atualmente, o IPMA efetua as análises com métodos qúımicos

    baseados em cromatografia ĺıquida, com deteção por espectrometria de massa (LC-MSMS) para as toxinas

    lipof́ılicas, com deteção UV (LC-UV) para as toxinas ASP e com deteção por fluorescência (LC-FLD) para

    as toxinas PSP. São usadas duas abordagens de monitorização pelo IPMA: i) monitoração de fitoplâncton

    tóxico na água do mar e das condições para a proliferação das algas; e ii) análise de biotoxinas nos bivalves

    [4].

    1.3 Motivação

    Os desafios a abordar no presente trabalho prendem-se com a necessidade de desenvolver ferramentas

    estat́ısticas e computacionais para a previsão da contaminação de moluscos bivalves por biotoxinas ma-

    rinhas na costa portuguesa. Tais ferramentas permitirão, em primeiro lugar, prever atempadamente a

    interdição da apanha de bivalves que é decretada quando se atinge valores de toxinas definidas na Tabela

    1.1; em segundo lugar, estimar o tempo necessário para novamente se estabelecer a abertura da apanha

    e comercialização dentro dos limites legais de biotoxinas. As ferramentas desenvolvidas serão apresen-

    tadas não como proposta de método complementar de apoio à decisão do fecho das zonas de produção

    de bivalves, mas como uma ferramenta de aux́ılio à gestão da produção de bivalves de modo a poder

    antecipar peŕıodos de interdição, com conhecido impacto nas atividades sócio-económicas do setor. O

    conhecimento antecipado da interdição da exploração do recurso permitirá aos operadores do setor agi-

    lizarem medidas de mitigação para fazer face aos impactos da interdição. Do ponto de vista ambiental,

    o desafio que se nos depara é o de prever a toxicidade com base em séries temporais multivariadas de

    dados de biotoxinas, fitoplâncton marinho. As espécies de bivalves alimentam-se de fitoplâncton, sendo

    que uma pequena percentagem de fitoplâncton é tóxica, pelo que é esperado que a incorporação de dados

    de fitoplâncton adicionem valor à capacidade preditiva dos modelos a desenvolver. A presença de valores

    at́ıpicos numa série temporal, também denominados valores anómalos (ou outliers), constitui o principal

    desafio computacional. Este é um problema já conhecido em outras áreas, nomeadamente a produção

    alimentar, saúde, economia e engenharia [8, 9, 10, 11]. Muitos dos modelos existentes apresentam, no

    entanto, uma complexidade temporal e espacial elevadas devido a quantidade de dados analisados. As fer-

    ramentas desenvolvidas deverão não só apresentar um bom desempenho do ponto de vista computacional

    e de capacidade preditiva como também ser de fácil execução por parte do utilizador.

    a

    3

  • 1.4 Organização

    No caṕıtulo 2, serão apresentados conceitos fundamentais para a compreensão do tipo de dados carac-

    teŕısticos do problema a estudar e dos modelos apresentados na literatura para a resolução de problemas

    similares. Também é apresentado o problema que se pretende resolver, nos contextos ecológico e de saúde

    publica bem como uma revisão do estado da arte bem como conceitos básicos relacionados com previsão

    de séries temporais e a sua relação com o trabalho proposto. No caṕıtulo 3, a ferramenta de análise e

    previsão de biotoxinas marinhas proposta é presentada, onde serão abordados tópicos que vão desde o

    pré-processamento até à previsão. No capitulo 4, encontramos a validação das previsões resultantes da

    ferramenta proposta, bem como a discussão de resultados. As conclusões e sugestões de trabalho futuro

    serão apresentadas no Caṕıtulo 5.

    4

  • Caṕıtulo 2

    Análise de Séries Temporais

    2.1 Introdução

    As séries temporais estão presentes em muitas ocasiões do nosso dia a dia. Nos negócios, observamos

    taxas de juros, números de vendas ou ı́ndices de preços [12]. Na agricultura, observamos, por exemplo,

    números de produção agropecuária e vendas de exportação [13]. Na biologia, observamos concentração

    de clorofila e assim por diante [14]. Podemos definir um série temporal como uma coleção de eventos de

    uma data variável, eventos estes ordenados temporalmente.

    O tempo considerado no estudo de uma variável pode ser cont́ınuo e qualquer valor num determinado

    intervalo, como uma série temporal geodésica de GPS (sistema de posicionamento global) [15], ou discreto

    com um ponto de tempo espećıfico como o número diário de mercadorias sujeitas a inspeção nos postos

    de inspeção de fronteira [16].

    O objetivo do uso das técnicas baseadas na análise de séries temporais é descrever o comportamento

    de uma ou várias variáveis ao longo do tempo, considerando ou não as relações entre as variáveis, e

    procurar uma definição que minimize o desvio quadrático entre o valor previsto e o valor real da variável.

    A análise de séries temporais compreende tipicamente duas etapas: a primeira visa obter uma estrutura

    e um padrão dos dados; a segunda corresponde ao ajustamento de um determinado modelo para fazer as

    previsões [17]. A maior complexidade associada à análise de séries temporais reside no ajustamento de um

    modelo, devido à sensibilidade dos detalhes matemáticos e estat́ısticos [18]. Este tipo de análise é usada em

    muitos setores para fazer previsões, setores como a economia, engenharia, biologia e saúde [19, 20, 21, 22].

    As séries temporais podem ser classificadas como univariadas ou multivariadas, apresentadas com mais

    detalhe na secção seguinte.

    2.1.1 Séries Univariadas e Multivariadas

    As séries univariadas são séries em que os eventos são observados apenas na forma de uma única variável

    medida em peŕıodos regulares de tempo, é considerado um sistema simples comparadamente ao outro

    tipo de série. Definimos Xt como o valor observado da variável no instante t, em que t = 1,2,3...,N.

    As séries multivariadas são mais complexas do que as séries univariadas, porque são séries em que

    num determinado ponto de tempo são observadas várias variáveis. Além da análise feita em cada série

    individual é também feita a análise das relações existentes entre todas as variáveis da série temporal

    [18]. Denotamos série temporal multivariada Y = {Xi}wi=1 um conjunto de séries temporais univariadasX = x1, x2, ..., xt correspondentes a medidas de w variáveis observadas no mesmo intervalo regular de

    tempo [23].

    Muitos problemas estão envolvidos na análise multivariada de séries temporais, nomeadamente, é

    5

  • necessário ter em conta que muitas séries temporais podem ter dependências não apenas em termos de

    i mas também em termos de t, ou seja, podem existir dependências entre variáveis no mesmo instante

    de tempo ou dependências entre variáveis e instantes diferentes de tempo. Quando é feita uma análise

    multivariada, devem ser considerados os seguintes aspetos [24]:

    1. Conceitos e representações fundamentais relacionados com dependência;

    2. Relação entre várias séries temporais multivariadas;

    3. Redução de dimensão e simplificação de modelos;

    4. Modelação de séries temporais e espaciais;

    5. Problema de alta dimensão em séries temporais multivariadas.

    2.1.2 Composição de Séries Temporais

    Uma série temporal pode ser decomposta segundo Xt = ut + εt, em que ut é a componente regular ou

    tendência, e εt é a componente irregular ou rúıdo. A componente regular ut também pode incluir fatores

    sazonais, fatores periódicos em que o peŕıodo é conhecido ou antecipável.

    Podem ser encontradas tendências nas séries temporais que fazem parte de um determinado ciclo ou

    podem ser totalmente aleatórias, podendo ou não sofrer mudanças consoante o tempo. Geralmente, as

    tendência são detetadas pelo aumento ou diminuição linear. Na composição de um série temporal podemos

    encontrar dois fatores importantes, fatores sazonais, que são periódicos com um peŕıodo conhecido, e

    fatores ćıclicos, que são periódicos, mas com peŕıodos desconhecidos e não antecipáveis. Padrões repetidos

    em determinados peŕıodos fixos, como por exemplo reservas de carros em diferentes horas do dia, são

    denominados de eventos sazonais [1].

    A tendência presente numa determinada série temporal releva o comportamento da mesma, indicando

    se a série temporal cresce, decresce ou é constante em determinados momentos. No que respeita aos ciclos,

    são gerados pelo comportamento (oscilações) que ocorrem na série temporal de forma repetida ao longo

    do tempo. A sazonalidade indica determinados comportamentos (oscilações) que ocorrem sempre num

    determinado peŕıodo, anual, mensal, semanal, e em alguns casos em peŕıodos diários. Para uma melhor

    compreensão dos conceitos apresentados, será analisada de seguida uma série temporal do número de

    reservas internacionais de passageiros (em milhares) por mês numa companhia aérea dos Estados Unidos

    foram obtidos da Administração Federal da Aviação para o peŕıodo 1949-1960 foi utilizada como exemplo

    [1]. (Figura 2.1)

    Na série temporal, é possivel verificar uma tendência crescente, que poderá ser devida a muitos fatores,

    nomeadamente fatores sociais, ambientais ou empresariais. Existe um padrão de repetição dentro de cada

    ano na série temporal, correspondendo a uma variação sazonal na série temporal. As reservas são mais

    altas nos meses de verão (junho, julho e agosto) e mais baixas no meses de novembro a fevereiro. De

    um modo geral, as previsões são baseadas em algum pressuposto, por exemplo, o pressuposto de que

    a tendência analisada continue, sendo boa prática identificar as causas e os seus peŕıodos com objetivo

    de melhorar a análise das previsões futuras. Deve-se ter particular atenção as tendências aleatórias ou

    estocásticas, comuns em muitas séries temporais.

    2.1.3 Pré-processamento de Séries Temporais

    Normalmente, antes de uma análise cuidada das séries temporais, é feito um pré-processamento com

    vista a melhorar a qualidade dos dados. O pré-processamanto envolve várias etapas, cada etapa pode ou

    não ser executada dependendo da estrutura atual dos dados, dos erros presentes nos dados e de como a

    6

  • Figura 2.1: Número de passageiros de avião durante o peŕıodo de 1949-1960 nos Estados Unidos [1].

    série temporal será utilizada no futuro (tipos de modelos e objetivos, como a classificação ou previsão de

    dados).

    O dados do mundo real apresentam geralmente inconsistências e rúıdo, pelo que o pré-processamento

    é um passo primordial para que os resultados sejam melhores interpretados e confiáveis [25]. Um pré-

    processamento adequado melhora geralmente a precisão dos modelos estimados e o tempo necessário para

    a sua execução [26].

    A qualidade varia de acordo ao ńıvel de conhecimento domı́nio e o objetivo do projeto. São considera-

    dos vários fatores no pré-processamento, fatores como a qualidade, exatidão, consistência, pontualidade,

    interpretabilidade [26]. Considera-se que existem dados incompletos quando estão em falta alguns valores

    de certos atributos, ou se faltam alguns atributos no conjunto de dados. Quando no conjunto de dados

    existem erros ou valores anómalos, estamos perante dados imprecisos e que apresentam algum rúıdo.

    Finalmente, caso existam discrepâncias em alguns atributos no conjunto de dados, estamos então diante

    de um conjunto de dados inconsistente [26].

    Várias causas estão na origem dos problemas acima descritos: os instrumentos e maquinas para

    a aquisição e tratamento de dados podem apresentar algum tipo de defeito, causados pela idade das

    máquinas (normalmente máquinas e instrumentos antigos têm tendência a apresentar defeitos), ou defeito

    de fabrico; erros humanos, por exemplo, erros ao introduzir alguns valores a certos atributos [25], ou algum

    tipo de erro no dispositivo utilizado para entrada de dados; erros causados na transmissão dos dados, tais

    como erros na rede que causam inconsistência nos dados ou outros tipos de erros [26]; ou a pontualidade,

    muito frequente em séries temporais, quando um certo valor não é adicionado ou atualizado em tempo

    apto e consequentemente afeta a qualidade dos dados [26].

    2.1.4 Estacionaridade

    Uma série é considerada estacionária se durante peŕıodos regulares de tempo as suas propriedades es-

    tat́ısticas se mantiverem iguais, em que a origem temporal deixa de ser muito importante. Caso as

    propriedades da série temporal ou do processo alterem ao longo do tempo, a série passa a denominar-

    se não estacionária, nestes casos devem considerar-se diferenças necessárias para estabilizar o modelo

    e torná-lo estacionário, a diferença é aplicada a cada uma das observações da série temporal,ou seja,

    y′

    = yt − yt−1, muitas vezes as séries temporais não se tornam estacionarias quando aplicada apenasuma diferença, pode ser necessário diferenciar os dados das séries temporais uma segunda vez, ou seja,

    y′′

    = y′

    t − y′

    t−1 [27].

    7

  • Para saber se uma determinada série é estacionária, realiza-se o teste de Aumentado de Dickey Fuller

    (ADF) [28]. Em R pode-se usar a função adf.test, pertencente ao pacote tseries.

    Quanto mais negativo é, mais forte é a rejeição da hipótese de que há uma raiz unitária em algum

    ńıvel de confiança, ou seja se a série tem raiz unitária então a série é não estacionária.

    2.1.5 Funções de Autocorrelação e Autocorrelação Parcial

    A Função de Autocorrelação (ACF) é uma medida de variabilidade na variável, ajudando a perceber

    se os dados têm um comportamento semelhante ao longo do tempo. É geralmente avaliada através da

    construção de um gráfico de autocorrelação, como representado na Figura 2.2 para os dados de biotoxinas

    nos mexilhões em Aveiro, no peŕıodo de 2015. A autocorrelação corresponde à correlação da série com a

    própria série com um atraso (lag), representado na Figura 2.2 como o número de peŕıodos de tempo em

    que os dados da série temporal são separados. É posśıvel verificar uma correlação positiva indicativa de

    algum comportamento semelhante entre os valores da série nos lags iniciais.

    Uma decréscimo exponencial na curva da ACF é geralmente indicador de que o dos dados seguem um

    modelo autorregressivo [29].

    A Função de Autocorrelação Parcial (PACF) é um coeficiente de correlação entre as observações de

    uma determinada variável de uma série temporal separadas por k valores, ou seja, é a correlação entre Xt

    e Xt−k eliminando as regressões lineares em Xt−1...Xt−k+1 da variável [30]. Na Figura 2.3, é apresentado

    um gráfico de autocorrelação parcial calculado com base nos dados de biotoxinas nos mexilhões em Aveiro,

    no peŕıodo de 2015. É posśıvel verificar significância estat́ıstica nos lags 1, 3 e 14, o que significa correlação

    para esses lags não é igual a zero, ou seja, significa que existe correlação entre o valor de biotoxinas

    marinhas medido em uma determinada semana e o valor de biotoxinas marinhas da semana anterior, tal

    como existe relação entre o valor de biotoxinas marinhas medido em uma determinada semana e o valor

    de biotoxinas marinhas medido a três semanas anteriores, e por ultimo apresenta relação negativa entre

    o valor biotoxinas marinhas medido em uma determinada semana e valor de biotoxinas marinhas medido

    a catorze semanas anteriores.

    2.1.6 Normalização e Diferenciação

    Alguns modelos, como os modelos de redes neuronais artificiais, apresentam melhor desempenho compu-

    tacional quando são normalizados. A escolha da representação dos dados requer especial cuidado, já que

    influencia a precisão dos resultados e o tempo de execução dos modelos. A normalização-z ou z-score é

    uma estratégia muito usada em estat́ıstica, em que os dados são normalizados de forma a apresentar uma

    média de zero e um desvio padrão de um, dada por:

    Z =x− x̄s

    ,

    em que x̄ é a média das amostras, e s o desvio padrão dos dados [31].

    Muitos modelos apresentam melhores resultados e um melhor desempenho quando os dados são es-

    tacionários, ou seja, quando os dados ao longo do tempo apresentam as mesmas carateŕısticas estáticas.

    O teste Ampliado de Dickey Fuller (ADF) [32] é frequentemente usado para aferir se uma série temporal

    tem um comportamento estacionário. Quando um determinado conjunto de dados ou série temporal não

    é estacionaria, torna-se necessário diferenciar os dados para que se tornem estacionários [33].

    A diferenciação é necessária para se obter uma série estacionária que corresponda a uma série com

    média e variância constantes ao longo do tempo. [33].

    8

  • Figura 2.2: Autocorrelação presente na série temporal de biotoxinas marinhas referente ao ano de 2015na capitania de Aveiro para mexilhão.

    2.1.7 Estratégias de Previsão

    São métodos responsáveis pela variação de como os valores são previstos. Esta variação pode ser feita

    no horizonte de previsão, na quantidade de valores previstos no mesmo instante e como os modelos serão

    usados para prever os valores. Essas estratégias ajudam a análise das previsões e do seu comportamento

    a longo, médio e curto prazo. Pode-se ter uma visão de como as previsões são executadas consoante

    a combinação de modelos ajustados anteriormente através da estratégia de previsão escolhida. Muitos

    problemas de Séries Temporais precisam de previsões com maiores horizontes de previsão, ou seja, exige

    previsões para os próximos passos (t+ 1, t+ 2, ..., t+n). Existem várias estratégias usadas para previsões

    de séries temporais de várias etapas, serão abordadas as estratégias mais comummente aplicadas para

    esse efeito.

    Previsão em Uma Etapa. É uma estratégia que usa um modelo ajustado previamente para fazer

    apenas a previsão de uma observação no próximo passo (t + 1) ou um vector de observações (Séries

    Temporais Multivariadas) para o próximo passo (t+ 1). Para esta estratégia apenas uma etapa deve ser

    prevista [34].

    Estratégia de Previsão Direta de Várias Etapas. Nesta estratégia, são desenvolvidos e ajusta-

    dos modelos para cada etapa de tempo [35]. O objectivo é prever cada observação seguinte com um

    determinado modelo especifico, ou seja,

    Prev(t+ 1) = modelo1(Observ(t− 1), ..., Observ(t− n))

    Prev(t+ 2) = modelo2(Observ(t− 2), ..., Observ(t− n))

    Estratégia de Previsão Recursiva. É usado um modelo previamente desenvolvido e ajustado em

    todas as etapas de previsão, em que a observação da etapa anterior é mesclada com o conjunto dos dados

    9

  • Figura 2.3: Autocorrelação parcial presente na série temporal de biotoxinas marinhas referente ao anode 2015 na capitania de Aveiro para mexilhão.

    originais para fazer a previsão da etapa seguinte, ou seja,

    Prev(t+ 1) = modelo1(Observ(t− 1), ..., Observ(t− n))

    Prev(t+ 2) = modelo1(Prev(t+ 1), Observ(t− 1), ..., Observ(t− n))

    Por adicionar sempre as previsões no conjunto de dados original, acaba-se por acumular-se os erros

    de previsão, que causam degradação no desempenho do modelo a medida que aumenta o horizonte de

    previsão [36].

    Estratégia de Múltiplos Resultados. É usado modelo previamente desenvolvido e ajustado para

    prever múltiplas observações, ou seja sequência total de previsão (de acordo ao horizonte de previsão

    definido) [36].

    prev(t+ 1), prev(t+ 2) = modelo(Observ(t− 1), ..., Observ(t− n))

    2.2 Modelos Autorregressivos

    O uso de séries temporais tem como objetivo prever o próximo valor através dos valores do passado

    ou valores anteriores. No entanto, a influência de algumas perturbações ocorridas em determinados

    momentos proporcionam a criação de uma série de rúıdo branco. As diferentes influências produzidas

    determinam o tipo de modelos de séries temporais usado. Muitos dos modelos desenvolvidos para séries

    temporais usam uma base linear, geralmente usam valores de instantes de tempo anteriores para prever

    novos valores, pode-se chamar modelos autorregressivos.

    10

  • 2.2.1 Modelo Autorregressivo (AR)

    O modelo autorregressivo (AR) é um modelo regressivo em que cada valor da variável Xt é definido à

    custa de valores anteriores. Trata-se de um modelo autorregressivo de ordem p, em que p é o número de

    valores anteriores usados, definido como

    Xt =

    p∑j=1

    (φjXt−j) + εt

    em que εt é o rúıdo branco e φt é a componente tendencial [37].

    2.2.2 Modelo de Médias Móveis (MA)

    O modelo de médias móveis (MA, do inglês Moving Average) é um modelo estacionário com uma co-

    variância simples, que pode ser aplicado a uma grande variedade de padrões de autocorrelação. Se-

    melhante ao modelo AR, o modelos MA de ordem q, em que q é o desfasamento dos termos de erros

    anteriores, retrocede Xt sobre valores anteriores do rúıdo branco [37], segundo

    Xt =

    q∑j=1

    (θjεt−j) + εt

    em que θ1, θ2, ..., θq são parâmetros e coeficientes do modelo,εt, εt−1, .., εt−q é a componente que representa

    o rúıdo branco, que segue uma distribuição εt ≈ WN(0,σ2) [17]. Uma particularidade deste modelo é ade que a função de autocorrelação parcial do modelo MA normalmente decai exponencialmente.

    2.2.3 Modelo Autorregressivo de Médias Móveis (ARMA)

    O modelo autorregresivo de médias móveis (ARMA, do inglês Autoregressive Moving Average) usa como

    base os modelos AR(p) e MA(q) [38]. É um dos modelos mais utilizados para previsão com base em

    séries temporais por ser um modelo altamente aplicável. O modelo ARMA é definido como

    Xt = δ +

    p∑i=1

    (φiXt−i) +

    q∑j=1

    (θjεt−j) + εt

    em que δ é a parte estacionária do modelo,φi é o coeficiente autorregressivo,θj é o coeficiente de média

    móvel, εt mostra a parte do erro no peŕıodo t e Xt é o valor previsto no tempo peŕıodo t . De notar que os

    modelos AR(p) e MA(q) são casos especiais do modelo ARMA, ou seja, um modelo AR(p) é equivalente

    a ARMA(p,0) e um modelo MA(q) é equivalente a ARMA(0,q). Outra particularidade deste modelo é a

    de que as funções de autocorrelação e de autocorrelação parcial tendem a decair exponencialmente [17].

    2.2.4 Modelos Integrados Autorregressivos de Médias Móveis (ARIMA)

    Tal como o modelo ARMA, o modelo Modelos Integrados Autorregressivos de Médias Móveis (ARIMA,

    do inglês Autoregressive Integrated Moving Average) é um modelo linear que de modo comum é usado

    para fazer previsões, usando como base os modelos AR(p) e o MA(q). Este modelo é normalmente é usado

    quando os dados mostram evidências de não estacionariedade, transformando as séries temporais em séries

    temporais estacionárias através de um operador de diferença, denominado operador de diferenciação. No

    modelo ARIMA, o valor previsto para uma variável é uma resultado de uma função linear que usa

    observações e erros aleatórios passados [29], assumindo-se uma relação entre os valores passados e os

    atuais. No modelo ARIMA(p,d,q), p representa a ordem autorregressiva, d o grau de diferenciação, e q,

    a ordem da média móvel [18]. O modelo ARIMA é definido como

    11

  • (1−p∑

    i=1

    (φiLi))(1− L)dXt = (1 +

    q∑j=1

    (θjLj)εt, )

    em que L é o desfasamento , é um operador linear que é denotado por Lk, com LkXt = Xt−k.

    O modelo ARIMA tem sido usado em diferentes áreas de aplicação, nomeadamente: na previsão da

    procura numa empresa alimentar [10]; para prever os desembarques de uma espécie de peixe do género

    Clupeonella em algumas partes iranianas do Mar Cáspio, com o objetivo de entender sua dinâmica após

    o decĺınio da população em estudo nas últimas décadas [19]; para examinar as tendências dos cuidados

    administrados em pacientes não-diaĺıticos com doença renal crónica e avaliar o impacto do estudo na

    redução de eventos cardiovasculares [22]; para prever o influxo numa barragem do rio Dez, no Irão [39].

    2.2.5 Modelos Integrados Autorregressivos de Médias Móveis com Sazonali-

    dade (SARIMA)

    Este modelo é uma extensão do modelo ARIMA, devido a que algumas séries temporais exibem compor-

    tamentos sazonais, como é o caso da presença de biotoxinas em organismos bivalves, mais expressiva nos

    meses de maior temperatura. O modelo SARIMA é uma variação do modelo ARIMA [40], podendo ser

    explicado como ARIMA (p, d, q) (P , D, Q) onde (p, d, q) é a parte não sazonal e (P, D, Q) é a parte

    sazonal. O modelo SARIMA é definido como

    Φ(LS)φ(L)(Xt − µ) = Θ(LS)θ(L)εt

    em que componentes não sazonais são φ(L) = 1−φ1L−...−φpLp e θ(L) = 1+θ1+..+θqLq respetivamenteAR e MA. As componentes sazonais são Φ(LS) = 1−Φ1LS − ...−ΦPLPS) e Θ(LS) = 1 + Θ1(LS) + ...+ΘQL

    QS , respetivamente AR sazonal e MA sazonal.

    Têm sido efetuados estudos comparativos dos diferentes modelos acima descritos, nomeadamente na

    previsão do ńıvel da água subterrânea [41], da precipitação mensal em condições climáticas semiáridas

    [17] e de parâmetros de qualidade da água subterrânea para a agricultura [29].

    Têm sido igualmente propostos modelos h́ıbridos congregando modelos ARIMA [42] e SARIMA [43], e

    outros métodos bem conhecidos no domı́nio da aprendizagem automática, nomeadamente redes neuronais

    artificiais. [43].

    2.2.6 Modelo Vector Autorregressivo (VAR)

    O modelo Autorregressivo de Vetor (VAR, do inglês Vector Autoregression) é uma extensão do modelo

    AR, um modelo multivariado que ao contrario do modelo AR, este modelo usa um vetor composto por

    valores de várias variáveis como dados de entrada. É um modelo que consegue modelar as relações

    dinâmicas entre as variáveis, são modelos convenientes para séries multivariadas que a priori apresentam

    relações de dependências entre as variáveis. A relação dinâmica em causa é entre a variável a ser estudada,

    bem como a desfasagem p e outras variáveis [44].

    Modelo VAR na maior parte dos casos cobre melhor as informações relacionadas as séries temporais

    e as suas carateŕısticas do que usando unicamente uma série temporal, além de que fornece valores

    previstos mais realistas e fáceis de interpretar [45]. Se cada variável ter uma relação causal com a variável

    dependente no modelo, esta relação é determinada pelo teste de causalidade de Granger [46]. O modelo

    VAR é definido como

    Zt = φ0 +

    p∑i=1

    (φiZt−i) + at,

    12

  • onde φ0 é um vetor constante k-dimensional φi são matrizes k x k para i > 0, φp 6= 0 e at é umasequência de vetores aleatórios independentes e identicamente distribúıdos (iid) com média zero e matriz

    de covariância∑

    a, através o operador back-shift, o modelo fica φ(B)Zt = φ0 + at, onde φ(B) = Ik −∑pi=1(φiBi) é um polinómio de matriz de grau p [47].

    2.2.7 Modelo Vector Autorregressivo de Médias Móveis (VARMA)

    O modelo Vector Autorregressivo de Médias Móveis (VARMA, do Vector Autoregressive Moving Average)

    deriva diretamente do modelo ARMA, em que o modelo ARMA também é formado por dois modelos

    simples (AR e MA). VARMA é um modelo que usa um vetor de valores onde cada valor pertence a uma

    variável, tornando-se assim em um modelo multivariado. Tal como o modelo VAR, o modelo VARMA

    permite estudar relações dinâmicas entre variáveis, o que geralmente melhora a precisão de previsão,

    além de que consegue modelar juntamente várias séries temporais dependentes ao mesmo tempo [48]. A

    série temporal múltipla K-dimensional (Y1, Y2, ..., YT ) assume-se ter média zero, podendo designar-se o

    processo de VARMA se segue

    Φ(B)Yt = Θ(B)µt,

    onde Φ(B) = I − Φ1B − ... − ΦpBp e Θ(B) = I + Θ1B + ... + ΘqBq, B é o operador back-shift, emque BYt = Yt−1, µt é o rúıdo branco, as matrizes Φ1, ...,Φp e Θ1, ...,Θq com dimensão KxK, são

    respetivamente os parâmetros autorregressivos e médias moveis [49]. Os detalhes matemáticos mais

    profundos e as suas aplicações relacionadas com a análise multivariada de modelos de previsão VAR e

    VARMA são complexos, estes detalhes são discutidos em [47].

    2.3 Redes Neuronais Artificiais

    2.3.1 Conceitos Básicos

    As redes neuronais artificiais (ANN, do inglês Artificial Neural Networks) são um tipo de modelos orien-

    tado por dados, inspiradas na maneira como o cérebro funciona, a capacidade de conexão dos neurónios

    e no funcionamento geral do sistema nervoso [50]. As ANN normalmente consistem em três tipos de

    camadas: uma camada de entrada, camadas ocultas e a camada de sáıda (Figura 2.4). Na camada de

    entrada os elementos externos são definidos e representados manualmente. As redes neuronais determi-

    nam conexões ponderadas entre a camada de entrada e a camada de sáıda, através de neurónios. Os

    neurónios encontram-se nas camadas ocultas e são responsáveis pela ativação de uma função não linear,

    normalmente uma função sigmóide. Esta ativação é feita pela soma das entradas que vêm de nós de

    entrada por feedforward ou de sáıda por feedback [51]. O valor de sáıda de um neurónio é multiplicado

    por um fator de ponderação. Cada neurónio em suas conexões tem um parâmetro, que é a taxa de

    disparo. É necessário um processo de treino com o objetivo de minimizar o erro de sáıda em relação a

    sáıda conhecida, depois a rede é fixada e a podem ser feitas previsões [51].

    Dado Z = z1, z2, ..., zj o conjunto das camadas ocultas, as entradas no neurónio oculto j são combi-

    nadas linearmente para fornecer

    zj = bj +

    n∑i=1

    wijxi,

    em que wij são os pesos das camadas e xi são os valores das entradas, bj é o bias, depois o resultado é a

    13

  • entrada para uma determinada função não linear, que geralmente é a função sigmóide, dada por

    s(z) =1

    1 + �−z.

    O bias e os pesos são aprendidos através do dados. Quando uma rede é treinada, geralmente tem

    tendência para apresentar valores de pesos muito elevados em determinadas etapas, por este motivo os

    valores são restringidos. O número de camadas ocultas e o número de nós em cada camada oculta devem

    ser especificados a priori, podendo ser ajustados através do treino [52]. Em alguns casos, podem existir

    problemas de generalização da rede, geralmente atribúıdos a um sobreajuste (”overfitting”), decorrente

    de uma profunda especialização da rede no conjunto de treino e consequente perda de capacidade de

    generalização [53].

    As ANN têm sido propostas para descrever e prever a proliferação de algas com base no processamento

    de informações biológicas [2], nomeadamente a qualidade da água e o plâncton [54]. As redes neuronais

    artificiais são baseadas no algoritmo de propagação reversa, sendo em [2] modelados da seguinte forma: as

    camadas de entrada têm os nós com os fatores limitativos do crescimento de algas, como a concentração

    de nutrientes, abundância, irradiância subaquática e superficial, etc; as camadas de sáıda correspondem

    ao número de células de espécies de algas abundantes. É um paradigma de modelação determińıstico,

    que um dado estado t no sistema é calculado através do estado anterior de tempo, ou seja, os pesos dos

    neurónios do tempo t− 1 são considerados entradas para determinar os pesos do tempo t. A arquiteturado modelo de rede neuronal artificial que foi projetado para prever a abundância de espécies de algas

    com base nas condições do lago Kasumigaura está representada na Figura 2.5.

    A ocorrência de proliferação de cianobactérias tóxicas na Barragem de Crestuma, na bacia hidrográfica

    do rio Douro, em Portugal, foi também estudada por ANN. Foram utilizados parâmetros f́ısicos, qúımicos

    e biológicos recolhidos no peŕıodo de 1999 a 2002 [55]. Têm igualmente sido efetuadas comparações

    entre ANN e modelos autorregressivos, nomeadamente para a previsão de longo prazo do influxo numa

    barragem no rio Dez [39] e para a previsão do ńıvel da água subterrânea na prov́ıncia Khorasan Razavi,

    no Irão [41]. Um modelo h́ıbrido, baseado no modelo ARIMA e ANN, foi proposto para modelar com

    maior precisão as estruturas não-lineares e lineares de séries temporais [56]. Neste modelo, é feita uma

    decomposição prévia da série através da Transformada de Wavelet. O método proposto é implementado

    em quatro séries temporais do mundo real: número anual de lince preso no distrito do rio Mackenzie

    (1821– 1934); taxas de câmbio semanais da libra esterlina para o dólar norte-americano (1980–1993);

    dados de mineração mensal da Índia (abril de 1981 a março de 1998); e temperatura média mensal em

    Las Vegas, EUA (junho de 1986 a maio de 2011).

    2.3.2 Redes Neuronais Autorregressivas

    Redes Neuronais Autorregressivas (NNAR, do inglês Neural Network Auto-Regressive) é o tipo de rede

    neuronal artificial simples, que é baseada nas carateŕısticas dos modelos autorregressivos, de forma que

    também usa valores anteriores para prever ou classificar sequências. Os valores anteriores são os utilizados

    na camada de entrada, sendo todo o processamento subsequente o de uma rede neuronal artificial básica

    [57].

    Dada a rede neouronal autorregressiva NNAR(p, k), indica que serão utilizados p valores desfasados

    (lag) como entrada e k nós na camada oculta. O modelo NNAR(p, 0) é equivalente a um modelo

    ARIMA(p, 0, 0), mas sem as restrições nos parâmetros para garantir que a série temporal apresente a

    propriedade de estacionariedade.

    Este tipo de modelo foi utilizado para prever o ciclo solar 25 [58]. Foi constrúıda uma série temporal

    através dos valores do número de manchas solares entre 1749 e 2018, e foram feitas dez previsões. O

    modelo de rede neuronal autorregressiva apresentou melhores resultados em comparação com os modelos

    14

  • Figura 2.4: A representação do diagrama de uma rede neuronal artificial.

    autorregressivos clássicos como o ARIMA. [59] propôs a combinação dos modelos rede neuronal autor-

    regressiva e redes bayesianas para a criação de um modelo preciso de previsão da ocorrência de pragas

    prejudiciais de arroz. O modelo proposto é um sistema de apoio à decisão para especialistas no centro

    de proteção de plantas do sul do Vietname, com o objetivo de orientar os agricultores a atuar numa área

    espećıfica.

    2.3.3 Redes Neuronais Recorrentes (RNN)

    Redes Neuronais Recorrentes (RNN, do ingles Recurrent Neural Networks) é um modelo de rede neuronal

    artificial mais complexo, requerendo conhecimento do domı́nio para melhor ajustamento e interpretação.

    Os RNNs lidam com dados cronológicos com um ciclo de retorno [60], sendo as sáıdas anteriores usadas

    para fazer a previsão do novo valor.

    Os RNNs são redes neuronais artificiais para dados que apresentam sequenciais. Geralmente as redes

    neuronais artificiais apenas encaminham os valores para frente e quer vão para uma nova camada oculta

    ou para a camada de sáıda. Além de encaminhar o valor para a nova camada, uma RRN também envia

    o valor para entrada da camada atual. Todos estes valores são processados para gerar uma nova sáıda.

    Esta operação é feita de forma recursiva durante o treino da rede (Figura 2.6). Ao contrário dos modelos

    feedforward, este modelo pode usar memória interna para um melhor processamento de informações e

    desempenho do modelo [61], tal como descrito s seguir.

    Memória de Curto Prazo (LSTM)

    Para melhorar o desempenho de uma rede neuronal recorrente simples, pode-se usar uma rede neuronal

    recorrente com alguma memoria, denominada memória de curto prazo (LSTM, do inglês Long short-term

    memory ) [61]. LSTM pode lembrar dos valores de sequências anteriores, LSTM aceita dados anteriores

    com operação de adição de forma que o problema de gradiente explosivo não ocorra. Um gradiente de

    erro é calculado durante o treino de uma RNN que é usado para atualizar os pesos, com o objetivo de

    conduzir a rede na direção certa.

    Nas RNNs, ou em redes com carateŕısticas parecidas, durante determinadas etapas de treino o erro

    cresce consideravelmente, e consequentemente são gerados gradientes muito grandes, que depois são

    usados para atualizar os pesos da rede, e consequentemente o resultado é uma rede mal treinada. [62].

    A LSTM resolve este problema da seguinte forma, LSTM é uma unidade de memória, esta unidade

    15

  • Figura 2.5: A representação da ANN para a proliferação de algas no lago Kaumigaura [2].

    tem três portas responsáveis pela gestão da memória dispońıvel, cada porta é simplesmente uma função

    loǵıstica com operações de adição ponderada, onde os pesos podem ser ajustados de melhor forma e sem o

    problema de gradiente aumentado. Uma RNN com uma memória apresenta assim melhor desempenho na

    classificação ou previsão de séries temporais, aprende e lembra as informações necessárias ou importantes.

    Portanto, uma LSTM pode analisar dados de um maior peŕıodo tempo comparado com uma RNN simples

    [60]. A estrutura completa de uma LSTM é definida como

    zt = σ(Wz[ht−1, xt])

    rt = σ(Wr[ht−1, xt])

    h̃t = tanh(W [rtht−1, xt])

    ht = (1− zt)ht−1 + zt ∗ h̃t

    em que xt representa o valor de entrada e ht valor de uma determinada sáıda, σ é a função sigmóide

    responsável por deixar passar as informações, indicando manter a informação se a sáıda for 1 e limpar

    a informação se a sáıda for 0 [3]. Na Figura 2.7 é apresentada uma representação da estrutura de uma

    LSTM [3].

    Na Tabela 2.1, estão descritas algumas vantagens, desvantagens e áreas de aplicação dos principais

    métodos apresentados nesta secção e a secção anterior.

    16

  • Figura 2.6: A representação do diagrama de uma rede neuronal artificial recorrente.

    Figura 2.7: A representação da estrutura de uma memória de curto prazo (LSTM) [3].

    Tabela 2.1: Vantagens e desvantagens dos dois tipos de modelos apresentados.

    Método Vantagens DesvantagensÁreas demaioraplicação

    Referências

    AutorregressivosFornece bons intervalos deconfiança em previsões.Fácil de aplicar.

    Requer um grande númerode observações, nãoadequado para previsãoa longo prazo.

    Engenharia,Saúde,Economia.

    [10], [11],[17], [19],[22], [29],[63], [40],[41]

    Redes NeuronaisArtificiais

    Boa utilização dos fatoreslimitativos nos nós.Funciona bem emséries temporaislineares enão lineares.

    Exame da estruturada rede treinada é dif́ıcil.

    Biologia,Engenharia,Ambiente.

    [41], [2],[55]

    17

  • 18

  • Caṕıtulo 3

    Método Proposto

    3.1 Proposta

    A ciência de dados, para ser útil e exata, deverá seguir um certo processo, processo este que garantirá que

    os resultados sejam mais cred́ıveis e analisados com precisão e reprodutibilidade. O processo proposto

    está definido essencialmente em quatro partes: pré-processamento, visualização dos dados, análise dos

    dados e proposta de plataforma informática (Figura 3.1).

    No estágio 1, os dados passarão por um pré-processamento, que compreende o seguintes passos: i)

    integração dos dados de diferentes anos; ii) identificação e correção de células contaminadas com erros

    amostrais ou do utilizador; iii) substituição nas células da matriz de dados codificadas com ND e NQ por

    25, valor que corresponde ao limite de quantificação das biotoxinas marinhas durante a maior parte do

    peŕıodo de análise. Células ND (não detetável) representam amostras com uma quantidade muito pequena

    de toxinas que os métodos usados pelo IPMA não conseguem detetar; células NQ (não quantificável)

    correspondem a análises cujo resultado foi inferior ao limite de quantificação mas superior ao limite de

    deteção da metodologia usada pelo IPMA.

    No estágio 2, os dados serão representados em gráficos de linha, com objetivo de analisar o com-

    portamento das séries. Para a análise da correlação existente nos dados é constrúıda a representação

    da autocorrelação e autocorrelação parcial, representações que auxiliam na escolha dos parâmetros dos

    modelos. Nesta fase, são aplicados alguns métodos com objetivo de detectar e separar, se necessário, as

    componentes das séries temporais (tendência, sazonalidade e rúıdo), que serão depois representados gra-

    ficamente. No estágio 3, os dados são criteriosamente analisados usando os métodos descritos no estado

    da arte. O melhor modelo é escolhido e usado para fazer a previsão, posteriormente avaliada em relação

    à qualidade e precisão [29]. O desempenho dos modelos, e subsequente escolha do melhor modelo, será

    baseada nos critérios de seleção de parâmetros e modelos.

    3.2 Conjunto de Dados

    O conjunto de dados a estudar consiste em amostras recolhidas pelo IPMA nas zonas litorais, estuarinas

    e lagoas costeiras de Portugal continental, nos últimos cinco anos. O conjunto de dados está dividido em

    duas grandes categorias, a primeira contém os dados de biotoxinas e a segunda os dados de fitoplâncton.

    Os atributos básicos do primeiro conjunto de dados contêm informações sobre a espécie de bivalve,

    local de amostragem, zona de produção, data da colheita e a concentração de toxinas DSP (ácido ocadáico,

    AO, e derivados) determinada por LC-MSMS. O segundo conjunto de dados contém informação sobre a

    data da colheita da amostra de água, local de amostragem e o resultado da análise de fitoplâncton por

    microscopia ótica.

    19

  • Figura 3.1: Representação do processo proposto para resolução do problema em quatro estágios.

    Tabela 3.1: Uma seleção de amostras de biotoxinas marinhas recolhidas em algumas zonas litorais dePortugal durante o peŕıodo de 2015.

    Data Espécie Local de amostragem Zona de produção Capitania (g AO eq kg−1)10/08/2015 Mexilhão Ria Formosa - Fuzeta FUZ1 Olhão 3910/08/2015 A. Boa Moacha RIA V1 Aveiro 15610/08/2015 A. Macha Canal Espinheiro RIA V3 Aveiro 20610/08/2015 Berbigão Ria Formosa - Culatra OLH5 Olhão 1810/08/2015 Lambujinha Murraceira Sul EMN2 Fig. Foz 20

    Nas Tabelas 3.1 e 3.2 é apresentada uma seleção de um conjunto de amostras e o modo da sua repre-

    sentação na página de Internet do IPMA. Este conjunto de dados refere-se ao dia 10 de Agosto de 2015,

    para as componentes biotoxinas (Tabela 3.1) e fitoplâncton (Tabela 3.2). Apenas foram representados os

    atributos mais importantes para o estudo.

    3.3 Critérios para Seleção de Parâmetros

    Para selecionar os melhores parâmetros de um determinado modelo, foram usados dois critérios que serão

    seguidamente apresentados.

    Critério de Informação de Akaike. Critério de Informação de Akaike (AIC, do inglês Akaike In-

    formation Criteria) é um estimador da qualidade relativa de modelos estat́ısticos. É muito usado para

    escolher um bom modelo de previsão entre vários sugeridos ou candidatos [64]. O melhor modelo ou o

    modelo que apresenta o melhor poder de previsão corresponde ao modelo que apresenta o menor valor

    Tabela 3.2: Uma seleção dos resultados das análises de fitoplâncton na água em algumas zonas litoraisde Portugal durante o peŕıodo de 2015

    Data de entrada Data de ińıcio de ensaio Zona de produção Produtoras de DSP (cell L−1)10/08/2015 11/08/2015 ETJ 30010/08/2015 11/08/2015 L5 32010/08/2015 11/08/2015 LAL 011/08/2015 12/08/2015 RIA V1/L3 12011/08/2015 12/08/2015 RIA V2 60

    20

  • de AIC [65]. Este critério é definido como

    AIC = −2 log(Lp) + 2p,

    em que p é o número de parâmetros estimados e Lp é a função de máxima verosimilhança do modelo.

    Critério de Informação Bayesiano. O critério de Informação Bayesiano (BIC, do inglês Bayesian

    Information Criterion) assume a existência de um modelo que descreve as caracteŕısticas e relações entre

    a variável dependente e as diversas variáveis de caráter explicativo entre os diversos modelos sob seleção.

    Deste modo, é definido como estat́ıstica que maximiza a probabilidade de sempre identificar o verdadeiro

    modelo de entre todos avaliados. Este modelo pode ser definido matematicamente como

    BIC = − log(L) + P2

    log(N),

    em que p é o número de parâmetros estimados e L é a função de máxima verosimilhança do modelo e N

    é o número de dados do conjunto de treino [66].

    3.4 Métricas para Seleção de Modelos

    Depois de ajustados os modelos, ou seja, depois da escolha dos melhores parâmetros, segue-se uma

    análise dos modelos em termos de previsão a curto e longo prazo [67], para a qual são usadas determinadas

    métricas, abaixo escritas. Uma boa prática no uso destas métricas consiste em separar os dados dispońıveis

    em duas partes, dos dados de treino e os dados de teste. Os dados de treino são usados para estimar os

    parâmetros de um modelo de previsão, enquanto os dados de teste são usados para avaliar sua capacidade

    preditiva. Desta forma, teremos a indicação de quão bem o modelo é capaz de prever novos dados a curto

    e longo prazo.

    Um “erro” de previsão é a diferença entre um valor observado e sua previsão [14]. Para tal, consideram-

    se medidas que avaliam a precisão das previsões m passos à frente, tais como o Erro Quadrático Médio

    (MSE, do inglês “Mean Squared Error”) e a sua ráız (RMSE, do inglês “Root Mean Squared Error”), e o

    Erro de Percentagem Absoluta Média (MAPE, do inglês “Mean Absolute Percentage Error”), descritos

    abaixo.

    Erro Quadrático Médio

    EQM =1

    N

    N∑i=1

    (||yi − y′

    i||),

    onde yi é o valor real e y′

    i é o valor previsto, e N é o número de valores previstos [67].

    Raiz do Erro Quadrático Médio

    RMSE =

    √∑Ni=1(yi − y

    ′i)

    2

    N,

    onde yi é o valor real e y′

    i é o valor previsto [67].

    Erro de Percentagem Absoluta Média

    MAPE =1

    N

    N∑i=1

    (|yi − y′

    i

    yi|),

    onde yi é o valor real e y′

    i é o valor previsto, e N é o número de valores previstos [68].

    21

  • 3.4.1 Escolha do Modelo

    Utilizou-se a metodologia Box e Jenkins para identificação dos melhores modelos [69]. Esta metodologia

    possui duas etapas muito importantes e que são cruciais para a análise e seleção dos melhores modelos.

    A primeira é a Etapa de Identificação e Estimação, e a segunda a Etapa de Avaliação.

    Etapa de Identificação e Estimação

    Nesta etapa, um conjunto de modelos é considerado para a análise. São identificados os modelos através

    da análise de estacionariedade e sazonalidade, e de seguida é feita determinação dos parâmetros dos

    modelos. A necessidade de saber se uma série temporal é estacionária prende-se com o facto de a grande

    maioria dos métodos lidar melhor com séries estacionárias.

    Etapa de Avaliação

    Nesta etapa, verifica-se a qualidade do modelo, a sua adequação estat́ıstica e ajustamento dos dados.

    Caso a avaliação não produza resultados suficientemente bons, é repetida a primeira etapa. Terminada a

    etapa de avaliação, procede-se à previsão dos valores.

    3.5 Plataforma Informática de Previsão

    Com objectivo de criar um sistema de previsão de biotoxinas marinhas, foi desenvolvida uma plataforma

    que executa operações de previsão de forma rápida, dispońıvel, móvel e adaptável, com a implementação

    acesśıvel na web e facilmente interpretado e reproduzido. A plataforma informática denominada SIMBA

    (SIstema de Monitorização de Biotoxinas mArinhas)) pretende oferecer apoio à monitorização desenvol-

    vida pelo IPMA, oferecendo uma valiosa componente de previsão.

    A plataforma oferece muitos benef́ıcios, como a visualização mais detalhada dos dados e o ajustamento

    automático dos modelos de previsão. Os benef́ıcios oferecidos podem ser usufrúıdos por utilizadores

    médios e experientes em previsão de séries temporais, são oferecidos suportes para formatação dos dados,

    um tutorial em texto e outro em v́ıdeo. Todas as sáıdas e resultados podem ser transferidos e todas as

    ações são ajustáveis, podendo os parâmetros ser alterados em tempo de execução.

    Os dados usados estão acesśıvel na plataforma para efeitos de visualização quando necessário, com

    opções de ajustamento dispońıveis. A plataforma usa técnicas automáticas de seleção dos melhores

    modelos de previsão, ficando os resultados totalmente acesśıveis para o utilizador. A plataforma está

    preparada para fazer previsões com Modelos Autorregressivos e Redes Neuronais Artificiais. Pode-se dizer

    que é uma aplicação totalmente ajustável, tanto a interface como os algoritmos internos. Desenvolver

    uma plataforma requer a definição do desempenho e a execução de testes de interface para que se revele

    de fácil utilização.

    A Figura 3.2 apresenta uma visão geral da aplicação, com as opções gerais, onde poderá ser seguido o

    fluxo de trabalho da plataforma (Figura 3.3). Os usuários poderão aplicar as suas próprias configurações

    e adaptar a plataforma para seus objetivos espećıficos, aprimorando o sistema proposto. A plataforma

    oferece ainda serviço de ajuda por meio de formulários e perguntas frequentes. O fluxo de trabalho

    seguido pela plataforma pode ser analisado através das Figuras 3.4, 3.5, 3.6, 3.7. Na Figura 3.4, temos

    a visualização dos dados em tabelas, podem ser selecionados ou procurados. Na Figura 3.5, temos a

    representação dos dados em gráficos de linhas, podem ser analisados e comparados. A etapa de análise

    está representada na Figura 3.6, onde é posśıvel escolher, comparar e ajustar os modelos, que serão depois

    usados para fazer a previsão de séries temporais (Figura 3.7).

    22

  • Tabela 3.3: Os principais pacotes de R utilizados para o desenvolvimento e operação da plataforma.

    Pacote Aplicações

    forecast Previsão, VisualizaçãoMTS Análise, Ajustamento, PrevisãoPlotly VisualizaçãoShiny Aplicativos Interativos da Webtseries Análise de Séries Temporaisnnet Redes Neuronais Artificiais

    A plataforma informática é extenśıvel para receber novos formatos de dados e incorporar novos mo-

    delos. A plataforma usa como base o software estat́ıstico R [70]. Os principais pacotes utilizados para o

    desenvolvimento interno e da visualização de dados estão na Tabela 3.3.

    Figura 3.2: Aplicação desenvolvida na linguagem R para previsão de biotoxinas marinhas.

    23

  • Figura 3.3: Fluxo de trabalho da plataforma informática.

    24

  • Figura 3.4: Visualização dos dados em tabela.

    Figura 3.5: Visualização dos dados em gráficos.

    25

  • Figura 3.6: Análise das séries temporais biotoxinas marinhas e ajustamento do modelo

    Figura 3.7: Previsão das séries temporais de biotoxinas marinhas através do modelo ajustado

    26

  • Caṕıtulo 4

    Resultados e Discussão

    O controlo e monitorização de biotoxinas marinhas em moluscos bivalves constituem uma tarefa impor-

    tante e complexa que tem como objetivo a prevenção de intoxicações por consumo de bivalves e a proteção

    do setor de produção. Neste contexto, nasce a necessidade de detetar e prever valores de biotoxinas em

    bivalves acima dos limites regulamentar. Neste trabalho, serão utilizadas diversas técnicas baseadas em

    aprendizagem automática para prever valores em séries temporais. As técnicas utilizadas estão divididas

    em dois grandes tipos: I - modelos autoregressivos, que utilizam os valores anteriores e os seus erros para

    prever novos valores, nomeadamente o modelo autorregressivo integrado de médias móveis (ARIMA),

    modelo vector autorregressivo (VAR), e modelo vector autorregressivo de médias móveis (VARMA); II -

    modelos baseados em aprendizado de redes neuronais artificiais, redes neuronais autorregressivas (NNAR)

    e rede neuronal recorrente (RNN).

    4.1 Dados de entrada

    Os dados usados para o desenvolvimento e análise deste projecto foram os dados de biotoxinas marinhas

    recolhidos no peŕıodo de 2014 a 2018, correspondentes a diferentes capitanias e espécies. Foi observado

    um total de 9264 instâncias, com uma concentração máxima de biotoxinas marinhas de de 1035 (µg AO

    eq kg−1) na capitania de Aveiro para o mexilhão, e um valor médio no conjunto de dados de 117 (µg AO

    eq kg−1). Paralelamente, foram recolhidos dados de fitoplâncton nocivo no mesmo peŕıodo de recolha

    das biotoxinas marinhas. Na Tabela 4.1, encontramos as capitanias e zonas presentes nos dados, cada

    capitania e zona com espécies t́ıpicas, ou seja, cada uma definindo uma série temporal.

    Neste trabalho, os modelos serão aplicados a séries temporais da zona de Aveiro, um sub-conjunto

    dos dados originais, por se tratar de uma zona problemática frequentemente apresentando valores de

    biotoxinas acima do limite regulamentar. Serão utilizados dados da série de Aveiro, zona de RIAV1,

    para o mexilhão. Esta série contém dados de 2014 a 2018, contemplando um total de 204 entradas ou

    observações.

    Para a obtenção dos resultados de previsão foi usado o software estat́ıstico R [70] num computador

    com as seguintes carateŕısticas: Intel(R) Core i5, 1.40GHz e 4.00GB de RAM.

    Nas Figuras 4.1 e 4.2 estão representadas as séries temporais usadas para o ácido ocadáico no mexilhão

    e fitoplâncton na zona de Aveiro RIAV.

    4.2 Análise e Resultados

    Executou-se um conjunto de experiências em dados reais provenientes da zona costeira de Aveiro. O prin-

    cipal objetivo é demonstrar o funcionamento interno da plataforma e avaliar os resultados dos métodos.

    27

  • Figura 4.1: Dados de biotoxinas marinhas existentes nos mexilhões na zona de Aveiro no peŕıodo 2014 a2018.

    Os resultados são discutidos em várias vertentes e de acordo com a precisão dos modelos dispońıveis na

    plataforma. A abordagem proposta é testada em dados reais, as experiências são divididas em cinco

    grupos correspondendo aos cinco modelos (ARIMA, VAR, VARMA, NNAR e RNN) e estratégias apre-

    sentadas neste documento para a previsão.

    4.2.1 Etapa de Identificação e Estimação

    Estacionariedadade. Para saber se uma determinada série é estacionária, realiza-se o teste de Au-

    mentado de Dickey Fuller (ADF) [28]. Em R, pode-se usar a função adf.test, pertencente ao pacote

    tseries.

    Para a série temporal de biotoxinas marinhas obteve-se valor p de 0,0353, menor do que o ńıvel

    de significância α = 0, 05, pelo que se rejeita a hipótese nula de não estacionariedade, concluindo-se,

    portanto, que a série temporal é estacionária. Para a série de fitoplâncton o valor p obtido de 0.01 indica

    tratar-se, tal como a série de biotoxinas marinhas, de uma série estacionária.

    Sazonalidade. Algumas séries apresentam padrões sólidos de sazonalidade, quando uma série temporal

    apresenta estes padrões tem que ser tratada de forma diferente, portanto é necessário saber se uma série

    apresenta ou não estes padrões.

    Para detetar a presença destes padrões foi usado o teste de Webel e Ollech (WO-test). Em R, está

    dispońıvel a função isSeasonal, pertencente ao pacote seastests, que é usada para avaliar a sazonalidade

    de uma série temporal e retorna um valor booleano com a indicação de que a série é ou não sazonal (TRUE

    ou FALSE ). A frequência de recolha da espécie mexilhão é de 4 vezes ao mês. O retorno do teste para as

    duas séries temporais foi FALSE, indicando que as séries temporais não apresentam padrões significativos

    de sazonalidade.

    Selecção de Parâmetros

    Modelos Autorregressivos. O modelo ARIMA é um modelo univariado representado por ARIMA(p,d,q),

    em que p representa a ordem autorregressiva, d o grau de diferenciação, e q a ordem da média móvel.

    VAR é um modelo multivariado com apenas o parâmetro p, e VARMA é baseado na junção do modelo

    28

  • Figura 4.2: Dados de fitoplâncton na zona de Aveiro no peŕıodo 2014 a 2018.

    Autoregressivo (AR) e Médias Movéis (MA), representado por VARMA(p,q), em que p representa a

    ordem autorregressiva, e q a ordem da média móvel.[71].

    Para verificar e analisar as correlações entre os valores e assim poder estimar os valores posśıveis para

    os parâmetros dos modelos [72] é necessário analisar os gráficos autocorrelação e autocorrelação parcial.

    Nas Figuras 4.3 e 4.4 encontram-se, respetivamente, o gráfico de autocorrelação e o gráfico de auto-

    correlação parcial da série de biotoxinas marinhas, a série de interesse para a qual se pretende obter fazer

    previsão.

    Figura 4.3: Autocorrelação da série temporal de biotoxinas marinhas pertencente a zona de Aveiro.

    O decaimento de forma exponencial presente no gráfico representa uma componente autorregressiva

    na série temporal, sugerindo a utilização de modelos autorregressivos, com o gráfico da autocorrelação a

    apresentar correlações significativas nas lags 1 a 7, sugerindo para o valor do parâmetro autoregressivo

    ser p = {1, 2, 3, 4, 5, 6, 7} [73]. O gráfico da autocorrelação parcial apresenta correlações significativasnas lags 1 e 5. Serão testados esses valores nos modelos.

    29

  • Tabela 4.1: As Capitanias e as principais zonas litorais onde foram recolhidos nos dados de biotoxinasmarinhas e de fitoplâncton.

    Capitania Zona

    Aveiro L3, RIAV1, RIAV2, RIAV3, RIAV4Caminha EMI, L1

    Douro L2Faro FAR1, FAR2

    Fig. Foz EMN1, EMN2Lagos L7a, L7b, L7c, L7c1, L7c2, LAGLisboa ETJ, L5, L5a, L5bNazaré L4Olhão OLH1, OLH2, OLH3, OLH4, OLH5, L8, FUZ1

    Peniche L5, LOBPortimão POR2, POR3Setúbal ESD1, ESD2, LAL, L6Sines EMR

    Tavira TAV2, VT1V. castelo L1, ELM

    Para a escolha do “melhor” modelo, utilizou-se como critério de seleção o critério de informação Akaike

    (AIC) e o Critério Bayesiano de Schwarz [74]. Para cada modelo proposto nesta secção estimamos os

    coeficientes dos modelos com base em funções de otimização.

    ARIMA. Para o modelo ARIMA foi usado o pacote forecast, onde podemos utilizar a função auto.arima

    que retorna o melhor modelo ARIMA de acordo com os menores valores nos critérios de informação AIC

    e BIC. É um modelo univariado, lidando apenas com séries estacionárias, tal como a série de biotoxinas

    marinhas.

    O modelo escolhido pela função auto.arima para a série temporal de biotoxinas marinhas foi o modelo

    (ARIMA(1,0,0)), apenas um coeficiente autorregressivo é necessário com o valor de 0,7875.

    VAR. Para escolha do parâmetro do modelo VAR foi usada a função VARselect do pacote Vars, que

    calcula um vetor com o número ideal de desfasamento de acordo com cada critério AIC [27]. VAR é um

    modelo multivariado, pelo que foram utilizadas as duas séries (biotoxinas e fitoplâncton) devido à relação

    impĺıcita existente entre as duas séries.

    A execução da função VARselect retornou o valor 1, sendo o modelo VAR selecionado um mode