Distância de Cook

Em estatística, a distância de Cook é uma medida da influência de uma observação ao realizar-se uma análise de regressão de mínimos quadrados. O nome é uma homenagem ao estatístico americano R. Dennis Cook. A distância de Cook mede o efeito de excluir uma dada observação. E em pontos com grande distância de Cook considera-se checagem para validação.

A distância de Cook é definida como

Que é algebricamente equivalente à expressão

Nas equações acima:

é a previsão do modelo de regressão completo para a observação j;
é a previsão de observação j de um modelo de regressão reformado em que a observação i foi omitida;
é o i-nésimo elemento da diagonal da matriz de projeção ;
é o resíduo bruto (i.e., a diferença entre o valor observado e o valor ajustado pelo modelo proposto);
é o erro quadrático médio do modelo de regressão;
é o número de parâmetros ajustados no modelo

Detecção de observações altamente influentes

Há mais de uma opinião a respeito de quais pontos de corte devem ser usados para se detectar pontos altamente influentes. A norma operacional é uma das sugeridas.[1] Outros sugerem o uso de , onde é o número de observações.[2]

Notas

Referências