Uma Abordagem Estatística Básica para Analisar Dados Quantitativos
Modelos de regressão linear são usados para mostrar ou prever a relação entre duas variáveis ou fatores . O fator que está sendo previsto (o fator para o qual a equação resolve ) é chamado de variável dependente. Os fatores usados para prever o valor da variável dependente são chamados de variáveis independentes.
Bons dados nem sempre contam a história completa. A análise de regressão é comumente usada em pesquisas, pois estabelece que existe uma correlação entre as variáveis.
Mas a correlação não é o mesmo que causação . Mesmo uma linha em uma regressão linear simples que se encaixe bem nos pontos de dados pode não dizer algo definitivo sobre uma relação de causa e efeito.
Na regressão linear simples, cada observação consiste em dois valores. Um valor é para a variável dependente e um valor é para a variável independente.
- Análise de Regressão Linear Simples A forma mais simples de uma análise de regressão usa uma variável dependente e uma variável independente. Neste modelo simples , uma linha reta aproxima a relação entre a variável dependente e a variável independente.
- Análise de Regressão Múltipla Quando duas ou mais variáveis independentes são usadas na análise de regressão, o modelo não é mais um linear simples.
Modelo de Regressão Linear Simples
O modelo de regressão linear simples é representado da seguinte forma: y = ( β 0 + β 1 + Ε
Por convenção matemática, os dois fatores envolvidos em uma análise de regressão linear simples são designados por x e y .
A equação que descreve como y está relacionada a x é conhecida como modelo de regressão . O modelo de regressão linear também contém um termo de erro representado por Ε ou a letra grega épsilon. O termo de erro é usado para explicar a variabilidade em y que não pode ser explicada pela relação linear entre xe y .
Existem também parâmetros que representam a população em estudo. Estes parâmetros do modelo que são representados por ( β 0 + β 1 x ).
Modelo de Regressão Linear Simples
A equação de regressão linear simples é representada da seguinte forma: Ε ( y ) = ( β 0 + β 1 x ).
A equação de regressão linear simples é representada graficamente como uma linha reta.
( β 0 é o y intercepto da linha de regressão.
β 1 é a inclinação.
Ε ( y ) é o valor médio ou esperado de y para um determinado valor de x .
Uma linha de regressão pode mostrar um relacionamento linear positivo, um relacionamento linear negativo ou nenhum relacionamento. Se a linha representada por gráficos em uma regressão linear simples for plana (não inclinada), não haverá relação entre as duas variáveis. Se a linha de regressão inclina para cima com a extremidade inferior da linha na intersecção y (eixo) do gráfico, e a extremidade superior da linha se estende para cima no campo gráfico, longe da intersecção x (eixo) existe uma relação linear positiva . Se a linha de regressão inclina-se para baixo com a extremidade superior da linha na intersecção y (eixo) do gráfico, e a extremidade inferior da linha se estende para baixo no campo gráfico, na intersecção x (eixo) existe uma relação linear negativa.
Equação de regressão linear estimada
Se os parâmetros da população fossem conhecidos, a equação de regressão linear simples (mostrada abaixo) poderia ser usada para calcular o valor médio de y para um valor conhecido de x .
Ε ( y ) = ( β 0 + β 1 x ).
No entanto, na prática, os valores dos parâmetros não são conhecidos, portanto devem ser estimados usando dados de uma amostra da população. Os parâmetros da população são estimados usando estatísticas de amostra . As estatísticas da amostra são representadas por b 0 + b 1. Quando as estatísticas da amostra são substituídas pelos parâmetros da população, a equação de regressão estimada é formada.
A equação de regressão estimada é mostrada abaixo.
( ŷ ) = ( β 0 + β 1 x
( ŷ ) é pronunciado y hat .
O gráfico da equação de regressão simples estimada é chamado de linha de regressão estimada.
O b 0 é o y intercepto.
O b 1 é o declive.
O ŷ ) é o valor estimado de y para um determinado valor de x .
Nota importante: A análise de regressão não é usada para interpretar as relações de causa e efeito entre as variáveis. A análise de regressão pode, no entanto, indicar como as variáveis estão relacionadas ou em que medida as variáveis estão associadas umas às outras.
Ao fazê-lo, a análise de regressão tende a tornar relevantes as relações que garantem que um pesquisador experiente examine mais de perto .
Também conhecido como: regressão bivariada, análise de regressão
Exemplos: O Método dos Mínimos Quadrados é um procedimento estatístico para usar dados de amostra para encontrar o valor da equação de regressão estimada. O Método dos Mínimos Quadrados foi proposto por Carl Friedrich Gauss, que nasceu no ano de 1777 e morreu em 1855. O Método dos Mínimos Quadrados ainda é amplamente utilizado.
Fontes:
Anderson, DR, Sweeney, DJ e Williams, TA (2003). Essenciais de Estatística para Negócios e Economia (3ª ed.) Mason, Ohio: Southwestern, Thompson Learning.
______. (2010). Explicado: Análise de Regressão. MIT News.
McIntyre, L. (1994). Usando Dados de Cigarro para uma Introdução à Regressão Múltipla. Jornal de Estatística Educação, 2 (1).
Mendenhall, W., e Sincich, T. (1992). Estatística para Engenharia e Ciências (3ª ed.), Nova York, NY: Dellen Publishing Co.
Panchenko, D. 18.443 Estatística para Aplicações, Outono de 2006, Seção 14, Regressão Linear Simples. (Instituto de Tecnologia de Massachusetts: MIT OpenCourseWare)