HAREM
![](http://upload.wikimedia.org/wikipedia/commons/thumb/4/4a/Disambig_grey.svg/20px-Disambig_grey.svg.png)
O HAREM é uma avaliação internacional para sistemas de Processamento da Linguagem Natural específicos para a língua portuguesa.
O que é?
A sigla HAREM responde por (HAREM é) Avaliação de Reconhecimento de Entidades Mencionadas[1] e trata-se de uma avaliação conjunta[2] sobre a extração e a classificação automática de entidades mencionadas em textos em língua portuguesa.
O HAREM teve o seu início oficial em Setembro de 2004, por iniciativa da Linguateca, uma rede de recursos e avaliação para língua portuguesa, apoiada pelas autoridades portuguesas. Oito sistemas participaram na sua primeira edição, e um livro foi publicado em 2007.[3] Também existiu uma nova edição chamada mini-HAREM, organizada no fim do Primeiro HAREM, em 2006, com apenas cinco participantes.
Em 2007-2008 foi realizado o Segundo HAREM, em que participaram nove sistemas e que deu origem a um novo livro, publicado em Dezembro de 2008.[4] Nesta edição houve duas pistas novas além da genérica, a de deteção de entidades temporais, e a de deteção de relações entre entidades mencionadas, o ReRelEM.
O HAREM foi a única avaliação conjunta organizada pela Linguateca[5] que teve duas (ou três) edições, devido ao grande interesse que suscitou. Outras avaliações organizadas pela Linguateca foram as Morfolimpíadas[6] (2003-2004), o GikiP[7] (2008), o GikiCLEF[8] (2009) e o Págico[9] (2012). Além disso a Linguateca participou como organizadora para o português no CLEF (CrossLingual Evaluation Forum) de 2004 a 2009.[10]
Impacto
Houve mais de cem artigos escritos sobre o HAREM, pelos participantes e pelos organizadores, e é bastante referenciado pela comunidade em muitas ocasiões.[11] [12] [13] [14][15]
Três coisas foram propostas pelo HAREM:
- uma diferente concetualização da tarefa "named entity recognition", traduzida por "reconhecimento de entidades mencionadas", que parte da língua e não do mundo
- um sistema de avaliação complexo, com separação de identificação e classificação, e possibilidade de vagueza de classificação
- regras detalhadas para identificar e classificar um conjunto de categorias para o português
Para a comunidade, foram tornados públicos
- materiais de avaliação, as chamadas "coleções douradas"
- programas de avaliação de novos sistemas, com base nas ditas coleções douradas
Problemas
Um dos problemas do HAREM foi que a terminologia entidades mencionadas não foi aceite pela globalidade da comunidade falante do português, e vários novos trabalhos usam o termo "entidades nomeadas", dessa forma não tomando em consideração o trabalho já feito.
Também devido à diferença na forma de codificar o problema, e diferentes categorias, é dificil de comparar com outras avaliações, para outras línguas.
Outros eventos de avaliação de reconhecimento de entidades mencionadas
- MUC
- «ACE» (em inglês). . www.nist.gov
- «CoNLL» (em inglês). . ifarm.nl
- «PascalChallenge» (em inglês). . nlp.shef.ac.uk