Parece apenas relações lineares

Por sua natureza, a regressão linear só olha relações lineares entre as variáveis ​​dependentes e independentes. Ou seja, ele assume que há uma relação linear entre elas. Às vezes, isso não é correto. Por exemplo, a relação entre renda e idade é curvo, ou seja, o rendimento tende a subir nas primeiras partes da vida adulta, alise na idade adulta e no outono, após as pessoas se aposentam. Você pode dizer se este é um problema de olhar para representações gráficas de relacionamentos.

Basta olhar para a média da variável dependente

A regressão linear olha para uma relação entre a média da variável dependente e as variáveis ​​independentes. Por exemplo, se você olhar para a relação entre bebês com peso de nascimento e características maternas, tais como idade, regressão linear examinar o peso médio dos bebês nascidos de mães de diferentes idades. No entanto, às vezes você precisa olhar para os extremos da variável dependente, por exemplo, as crianças estão em risco quando os seus pesos são baixos, então você iria querer olhar para os extremos neste exemplo.



Assim como a mídia não é uma descrição completa de uma única variável, regressão linear não é uma descrição completa das relações entre as variáveis. Você pode resolver este problema por meio de regressão de quantis.

Sensível a Outliers

Outliers são dados que são surpreendentes. Outliers pode ser uni (na base de uma variável) ou multivariada. Se você estiver olhando para a idade e renda, valores discrepantes univariados seriam coisas como uma pessoa que é de 118 anos, ou aquele que fez 12 milhões dólar no ano passado. Um outlier multivariado seria um 18-year-old, que fez US $ 100.000. Neste caso, nem a idade nem o rendimento é muito extremo, mas muito poucas pessoas menores de 18 anos fazer tanto dinheiro.

Outliers pode ter enormes efeitos sobre a regressão. Você pode resolver este problema, exigindo que as estatísticas de influência pelo software estatístico.

Os dados devem ser independentes

A regressão linear assume que os dados são independentes. Isto significa que os escores de um sujeito (por exemplo, uma pessoa) não tem nada a ver com os de outra. Isso é muitas vezes, mas não sempre, sensível. Dois casos comuns em que não faz sentido não diferem no espaço e no tempo.

Um exemplo clássico de um cluster no espaço é os resultados dos testes dos alunos, quando você tem alunos em várias classes, classes, escolas e distritos escolares. Os alunos da mesma classe tendem a ser semelhantes em muitos aspectos, por exemplo, que muitas vezes vêm dos mesmos bairros, têm os mesmos professores, etc Portanto, eles não são independentes.

Exemplos de clusters em tempo são estudos em que medimos o mesmo assunto várias vezes. Por exemplo, num estudo de dieta e de peso, pode-se medir cada um várias vezes. Estes dados não são independentes, porque o que uma pessoa que pesa ocasião está relacionado com o que ele ou ela pesa em outros momentos. Uma maneira de resolver isso é com modelos multinível.