Artigos

3.8.3: Ajustando Modelos Lineares aos Dados - Matemática


objetivos de aprendizado

  • Desenhe e interprete diagramas de dispersão.
  • Use um utilitário de gráfico para encontrar a linha de melhor ajuste.
  • Faça a distinção entre relações lineares e não lineares.
  • Ajuste uma linha de regressão a um conjunto de dados e use o modelo linear para fazer previsões.

Um professor está tentando identificar tendências entre as notas do exame final. Sua turma tem uma mistura de alunos, então ele se pergunta se há alguma relação entre idade e notas no exame final. Uma maneira de ele analisar as pontuações é criando um diagrama que relaciona a idade de cada aluno à pontuação recebida no exame. Nesta seção, examinaremos um desses diagramas conhecido como gráfico de dispersão.

Desenhar e interpretar gráficos de dispersão

Um gráfico de dispersão é um gráfico de pontos traçados que pode mostrar uma relação entre dois conjuntos de dados. Se o relacionamento for de um modelo linear, ou um modelo quase linear, o professor pode tirar conclusões usando seu conhecimento de funções lineares. A Figura ( PageIndex {1} ) mostra um gráfico de dispersão de amostra.

Observe que este gráfico de dispersão não indica um relação linear. Os pontos não parecem seguir uma tendência. Ou seja, não parece haver relação entre a idade do aluno e a nota no exame final.

Exemplo ( PageIndex {1} ): Usando um gráfico de dispersão para investigar gritos de críquete

A tabela mostra o número de chilros de críquete em 15 segundos, para várias temperaturas de ar diferentes, em graus Fahrenheit [1]. Plote esses dados e determine se os dados parecem estar linearmente relacionados.

Tabela ( PageIndex {1} )
Chirps443520.433313518.53726
Temperatura80.570.5576668725273.553

Solução

Traçar esses dados, conforme ilustrado na Figura ( PageIndex {2} ), sugere que pode haver uma tendência. Podemos ver pela tendência nos dados que o número de chilros aumenta à medida que a temperatura aumenta. A tendência parece ser aproximadamente linear, embora certamente não perfeitamente.

Encontrando a linha de melhor ajuste

Uma vez que reconhecemos a necessidade de uma função linear para modelar esses dados, a pergunta de acompanhamento natural é "o que é essa função linear?" Uma maneira de aproximar nossa função linear é esboçar a linha que parece se ajustar melhor aos dados. Então podemos estender a linha até que possamos verificar a interceptação y. Podemos aproximar a inclinação da linha estendendo-a até que possamos estimar o ( frac { text {rise}} { text {run}} ).

Exemplo ( PageIndex {2} ): Encontrando uma linha de melhor ajuste

Encontre uma função linear que se ajuste aos dados da Tabela ( PageIndex {1} ) “examinando” uma linha que parece caber.

Solução

Em um gráfico, podemos tentar esboçar uma linha.

Usando os pontos inicial e final de nossa linha desenhada à mão, pontos ((0, 30) ) e ((50, 90) ), este gráfico tem uma inclinação de

[m = dfrac {60} {50} = 1,2 ]

e uma interceptação y em 30. Isso dá uma equação de

[T (c) = 1,2c + 30 ]

onde (c ) é o número de sinais sonoros em 15 segundos e (T (c) ) é a temperatura em graus Fahrenheit. A equação resultante é representada na Figura ( PageIndex {3} ).

Análise

Essa equação linear pode então ser usada para aproximar respostas a várias perguntas que podemos fazer sobre a tendência.

Embora os dados da maioria dos exemplos não caiam perfeitamente na linha, a equação é nossa melhor estimativa de como o relacionamento se comportará fora dos valores para os quais temos dados. Usamos um processo conhecido como interpolação quando prevemos um valor dentro do domínio e intervalo dos dados. O processo de extrapolação é usado quando prevemos um valor fora do domínio e intervalo dos dados.

Figura ( PageIndex {4} ) compara os dois processos para os dados cricket-chirp endereçados em Exemplo ( PageIndex {2} ). Podemos ver que a interpolação ocorreria se usássemos nosso modelo para prever a temperatura quando os valores para chirps estiverem entre 18,5 e 44. A extrapolação ocorreria se usássemos nosso modelo para prever a temperatura quando os valores para chirps fossem menores que 18,5 ou maiores que 44 .

Há uma diferença entre fazer previsões dentro do domínio e intervalo de valores para os quais temos dados e fora desse domínio e intervalo. Prever um valor fora do domínio e do intervalo tem suas limitações. Quando nosso modelo não se aplica mais após um certo ponto, às vezes é chamado repartição do modelo. Por exemplo, a previsão de uma função de custo para um período de dois anos pode envolver o exame dos dados em que a entrada é o tempo em anos e a saída é o custo. Mas se tentarmos extrapolar um custo quando (x = 50 ), ou seja, em 50 anos, o modelo não se aplicaria porque não poderíamos contabilizar os fatores cinquenta anos no futuro.

Interpolação e Extrapolação

Diferentes métodos de fazer previsões são usados ​​para analisar os dados.

  • O método de extrapolação envolve a previsão de um valor fora do domínio e / ou intervalo dos dados.
  • Discriminação do modelo ocorre no ponto em que o modelo não se aplica mais.

Exemplo ( PageIndex {3} ): Compreendendo a interpolação e extrapolação

Use os dados de críquete de Table ( PageIndex {1} ) para responder às seguintes perguntas:

  1. A previsão da temperatura quando os grilos estão cantando 30 vezes em 15 segundos seria interpolação ou extrapolação? Faça a previsão e discuta se é razoável.
  2. A previsão do número de grilos gorjeios a 40 graus seria interpolação ou extrapolação? Faça a previsão e discuta se é razoável.

Solução

uma. O número de chirps nos dados fornecidos variou de 18,5 a 44. Uma previsão de 30 chirps por 15 segundos está dentro do domínio de nossos dados, então estaria a interpolação. Usando nosso modelo:

[ begin {align} T (30) & = 30 + 1,2 (30) & = 66 text {degrees} end {align} ]

Com base nos dados que temos, esse valor parece razoável.
b. Os valores de temperatura variaram de 52 a 80,5. Prever o número de chirps em 40 graus é extrapolação porque 40 está fora do intervalo de nossos dados. Usando nosso modelo:

[ begin {align} 40 & = 30 + 1.2c 10 & = 1.2c c & approx8.33 end {align} ]

Podemos comparar as regiões de interpolação e extrapolação usando Figure ( PageIndex {5} ).

Análise

Nosso modelo prevê que os grilos piariam 8,33 vezes em 15 segundos. Embora isso seja possível, não temos motivos para acreditar que nosso modelo seja válido fora do domínio e do intervalo. Na verdade, geralmente os grilos param de chiar completamente abaixo de cerca de 50 graus.

Exercício ( PageIndex {1} )

De acordo com os dados da Tabela ( PageIndex {1} ), que temperatura podemos prever se contarmos 20 chiados em 15 segundos?

Solução

54 ° F

Encontrar a linha de melhor ajuste usando um utilitário de representação gráfica

Embora a análise ocular de uma linha funcione razoavelmente bem, existem técnicas estatísticas para ajustar uma linha aos dados que minimizam as diferenças entre a linha e os valores dos dados [2]. Uma dessas técnicas é chamada regressão de mínimos quadrados e pode ser calculado por muitas calculadoras gráficas, software de planilha, software estatístico e muitas calculadoras baseadas na web [3]. A regressão de mínimos quadrados é um meio de determinar a linha que melhor se ajusta aos dados, e aqui nos referiremos a esse método como regressão linear.

Dados dados de entrada e saídas correspondentes de uma função linear, encontre a linha de melhor ajuste usando a regressão linear.

  1. Insira a entrada na Lista 1 (L1).
  2. Insira a saída na Lista 2 (L2).
  3. Em um utilitário de gráfico, selecione Regressão Linear (LinReg).

Exemplo ( PageIndex {4} ): Encontrando uma Linha de Regressão de Mínimos Quadrados

Encontre a linha de regressão de mínimos quadrados usando os dados cricket-chirp em Table ( PageIndex {1} ).

Solução

Digite a entrada (chirps) na Lista 1 (L1).
Insira a saída (temperatura) na Lista 2 (L2). Veja Tabela ( PageIndex {2} ).

Tabela ( PageIndex {2} )
L1443520.433313518.53726
L280.570.5576668725273.553

Em um utilitário de gráfico, selecione Regressão Linear (LinReg). Usando os dados do chirp de críquete anteriores, com a tecnologia obtemos a equação:

[T (c) = 30,281 + 1,143c ]

Análise

Observe que essa linha é bastante semelhante à equação que “examinamos”, mas deve se ajustar melhor aos dados. Observe também que o uso desta equação mudaria nossa previsão para a temperatura ao ouvir 30 chilros em 15 segundos de 66 graus para:

[ begin {align} T (30) & = 30.281 + 1.143 (30) & = 64.571 & approx 64.6 text {degrees} end {align} ]

O gráfico do gráfico de dispersão com a linha de regressão de mínimos quadrados é mostrado na Figura ( PageIndex {6} ).

Haverá um caso em que duas linhas diferentes servirão como o melhor ajuste para os dados?

Não. Existe apenas uma linha de melhor ajuste.

Distinguir entre modelos lineares e não lineares

Como vimos acima, com o modelo cricket-chirp, alguns dados exibem fortes tendências lineares, mas outros dados, como as pontuações do exame final plotadas por idade, são claramente não lineares. A maioria das calculadoras e softwares de computador também podem nos fornecer o coeficiente de correlação, que é uma medida de quão próximo a linha se ajusta aos dados. Muitas calculadoras gráficas exigem que o usuário ative uma seleção de ”diagnóstico ativado” para encontrar o coeficiente de correlação, que os matemáticos chamam de (r ). O coeficiente de correlação fornece uma maneira fácil de se ter uma ideia de quão perto de uma linha os dados estão.

Devemos calcular o coeficiente de correlação apenas para dados que seguem um padrão linear ou para determinar o grau em que um conjunto de dados é linear. Se os dados exibirem um padrão não linear, o coeficiente de correlação para uma regressão linear não fará sentido. Para ter uma ideia da relação entre o valor de (r ) e o gráfico dos dados, a Figura ( PageIndex {7} ) mostra alguns grandes conjuntos de dados com seus coeficientes de correlação. Lembre-se, para todos os gráficos, o eixo horizontal mostra a entrada e o eixo vertical mostra a saída.

Coeficiente de correlação

O coeficiente de correlação é um valor, (r ), entre -1 e 1.

  • (r> 0 ) sugere uma relação positiva (crescente)
  • (r <0 ) sugere uma relação negativa (decrescente)
  • Quanto mais próximo o valor estiver de 0, mais dispersos serão os dados.
  • Quanto mais próximo o valor estiver de 1 ou -1, menos dispersos serão os dados.

Exemplo ( PageIndex {5} ): Encontrando um coeficiente de correlação

Calcule o coeficiente de correlação para dados cricket-chirp em Tabela ( PageIndex {1} ).

Solução

Como os dados parecem seguir um padrão linear, podemos usar a tecnologia para calcular (r ). Insira as entradas e saídas correspondentes e selecione a regressão linear. A calculadora também fornecerá o coeficiente de correlação, (r = 0,9509 ). Este valor está muito próximo de 1, o que sugere uma forte relação linear crescente.

Nota: Para algumas calculadoras, o Diagnóstico deve estar "ligado" para obter o coeficiente de correlação quando a regressão linear é realizada: [2nd]> [0]> [alpha] [x – 1], então role para DIAGNOSTICSON.

Predição com uma linha de regressão

Depois de determinarmos que um conjunto de dados é linear usando o coeficiente de correlação, podemos usar a linha de regressão para fazer previsões. Como aprendemos acima, uma linha de regressão é a linha mais próxima dos dados no gráfico de dispersão, o que significa que apenas uma dessas linhas é o melhor ajuste para os dados.

Exemplo ( PageIndex {6} ): Usando uma linha de regressão para fazer previsões

O consumo de gasolina nos Estados Unidos tem aumentado constantemente. Os dados de consumo de 1994 a 2004 são mostrados na Tabela ( PageIndex {3} ). Determine se a tendência é linear e, em caso afirmativo, encontre um modelo para os dados. Use o modelo para prever o consumo em 2008.

Tabela ( PageIndex {3} )
Ano'94'95'96'97'98'99'00'01'02'03'04
Consumo (bilhões de galões)113116118119123125126128131133136

O gráfico de dispersão dos dados, incluindo a linha de regressão de mínimos quadrados, é mostrado na Figura ( PageIndex {8} ).

Podemos introduzir uma nova variável de entrada, (t ), representando os anos desde 1994.

A equação de regressão de mínimos quadrados é:

[C (t) = 113,318 + 2,209t ]

Usando a tecnologia, o coeficiente de correlação foi calculado em 0,9965, sugerindo uma tendência linear crescente muito forte.

Usando isso para prever o consumo em 2008 ((t = 14) ),

[ begin {align} C (14) & = 113.318 + 2.209 (14) & = 144.244 end {align} ]

O modelo prevê 144,244 bilhões de galões de consumo de gasolina em 2008.

Exercício ( PageIndex {1} )

Use o modelo que criamos usando a tecnologia em Example ( PageIndex {6} ) para prever o consumo de gás em 2011. Isso é uma interpolação ou uma extrapolação?

Responder

150,871 bilhões de galões; extrapolação

Conceitos chave

  • Os gráficos de dispersão mostram a relação entre dois conjuntos de dados.
  • Os gráficos de dispersão podem representar modelos lineares ou não lineares.
  • A linha de melhor ajuste pode ser estimada ou calculada, usando uma calculadora ou software estatístico.
  • A interpolação pode ser usada para prever valores dentro do domínio e intervalo dos dados, enquanto a extrapolação pode ser usada para prever valores fora do domínio e intervalo dos dados.
  • O coeficiente de correlação, (r ), indica o grau de relacionamento linear entre os dados.
  • Uma linha de regressão melhor se ajusta aos dados.
  • A linha de regressão de mínimos quadrados é encontrada minimizando os quadrados das distâncias dos pontos de uma linha que passa pelos dados e pode ser usada para fazer previsões em relação a qualquer uma das variáveis.

Ajustando modelos aos dados¶

que “melhor se ajusta” aos dados. Existem diferentes maneiras de quantificar o que “melhor ajuste” significa, mas o método mais comum é chamado de regressão linear de mínimos quadrados. Na regressão linear de mínimos quadrados, queremos minimizar a soma dos erros quadrados

então a soma dos erros quadrados pode ser expressa como

Resolvemos para os coeficientes ( mathbf = [c_0, c_1] ^ T ) que minimiza ( Vert mathbf - A mathbf Vert ^ 2 ) de 2 duas maneiras:

Equações normais¶

O vetor de coeficientes ( mathbf) é a solução única do sistema

Decomposição QR¶

Seja (A = Q_1R_1 ) a decomposição QR (fina) de (A ) (onde (R_1 ) é triangular superior quadrada). O vetor de coeficientes ( mathbf) é a solução única do sistema

Exemplo: Dados Lineares Ruídos Falsos¶

Vamos dar um exemplo com alguns dados falsos. Vamos construir um conjunto de pontos aleatórios com base no modelo

para alguma escolha arbitrária de (c_0 ) e (c_1 ). O fator ( epsilon ) representa algum ruído aleatório que modelamos usando a distribuição normal. Podemos gerar números aleatórios amostrados da distribuição normal padrão usando a função NumPy numpy.random.randn.

O objetivo é demonstrar que podemos usar a regressão linear para recuperar os coeficientes (c_0 ) e (c_1 ) do cálculo da regressão linear.

Vamos usar a regressão linear para recuperar os coeficientes (c_0 ) e (c_1 ). Construa a matriz (A ):

Vejamos as primeiras 5 linhas de (A ) para ver se está na forma correta:

Use scipy.linalg.solve para resolver ( left (A ^ T A right) mathbf = left (A ^ T right) mathbf) para ( mathbf) :

Recuperamos os coeficientes do modelo quase exatamente! Vamos plotar os pontos de dados aleatórios com a regressão linear que acabamos de calcular.


Regressão Simples: Ajustar a uma Linha

Na forma mais simples, mas ainda comum de regressão, gostaríamos de ajustar uma linha (y: x mapsto a + bx ) a um conjunto de pontos ((x_j, y_j) ), onde (x_j ) e (y_j ) são escalares. Assumindo que temos duas matrizes duplas para x e y, podemos usar Fit.Line para avaliar os parâmetros (a ) e (b ) do ajuste de mínimos quadrados:

Esses parâmetros se ajustam bem aos dados? Os pontos de dados estão posicionados exatamente em uma linha. Na verdade, o coeficiente de determinação confirma o ajuste perfeito:


Exemplos de valores de coeficiente de correlação

Exemplo 5

Calcule o coeficiente de correlação para nossos dados de críquete.

Como os dados parecem seguir um padrão linear, podemos usar a tecnologia para calcular
r = 0,9509. Como esse valor está muito próximo de 1, ele sugere uma forte relação linear crescente.

Exemplo 6

O consumo de gasolina nos EUA tem aumentado constantemente. Os dados de consumo de 1994 a 2004 são mostrados abaixo.
3 Determine se a tendência é linear e, em caso afirmativo, encontre um modelo para os dados. Use o modelo para prever o consumo em 2008.

Ano 󈨢 󈨣 󈨤 󈨥 󈨦 󈨧 󈧄 󈧅 󈧆 󈧇 󈧈
Consumo (bilhões de gás) 113 116 118 119 123 125 126 128 131 133 136

Para tornar as coisas mais simples, uma nova variável de entrada é introduzida, t, representando anos desde 1994.

Usando a tecnologia, o coeficiente de correlação foi calculado em 0,9965, sugerindo uma tendência linear crescente muito forte.

A equação de regressão de mínimos quadrados é:
C(t) = 113.318 + 2.209t

Usando isso para prever o consumo em 2008 (t = 14), C(14) = 113,318 + 2,209 (14) = 144,244 bilhões de galões

O modelo prevê o consumo de 144,244 bilhões de galões de gasolina em 2008.

Experimente agora 2

Use o modelo criado pela tecnologia no exemplo 6 para prever o consumo de gás em 2011. Isso é uma interpolação ou uma extrapolação?


3.8.3: Ajustando Modelos Lineares aos Dados - Matemática

    • Engenharia, P & ampD
    • Finanças, estatísticas e análise de negócios
    • Educação
    • Software e Web
      • Aprendendo
      • Preciso de ajuda?
      • Suporte Premium
        • Cerca de
        • Trabalhe Conosco
        • Iniciativas

        Ajustando Dados a Modelos Lineares

        por técnicas de mínimos quadrados

        Uma das funções mais utilizadas de Analista de Dados Experimentais (EDA) está ajustando dados a modelos lineares, especialmente linhas retas e curvas. Este capítulo discute como fazer esses tipos de ajustes usando a técnica mais comum: minimização de mínimos quadrados.

        A próxima seção fornece informações básicas sobre este tópico. Embora use algumas funções de EDA para ilustração, o objetivo da seção não é ser uma introdução a essas funções, em vez disso, esta seção pretende ser uma introdução às questões de ajuste linear que o EDA funções implementar.

        As seções subsequentes deste capítulo apresentam e discutem o EDA funções que fazem ajustes lineares de mínimos quadrados.

        Este capítulo discute uma das funções mais usadas de EDA: ajuste de dados a modelos lineares. Chamando a variável dependente y e a independente x, uma representação geral de tal modelo pode ser fornecida.

        Aqui o uma [ k ] são os parâmetros a serem ajustados, e X[x, k] são chamadas de funções de "base".

        Como veremos, todo o tópico de ajuste de dados aos modelos é freqüentemente surpreendentemente sutil.

        De longe, a escolha mais comum de funções de base são os polinômios. Imagine que estamos tentando encaixar y contra x para uma linha reta.

        Estamos tentando determinar uma[0] e uma[1], e as duas funções básicas são 1 e x.

        Imagine que estamos ajustando os dados a um polinômio de segunda ordem.

        Agora estamos tentando nos ajustar a uma [0] , uma [1], e uma [2], e as funções básicas são 1, x, e .

        O uso da palavra "linear" às vezes é confuso no contexto de ajuste. Isso significa que o modelo sendo ajustado é linear nos parâmetros aos quais estamos ajustando (ou seja, a uma [1] na notação recém-introduzida).

        Não existe tal restrição nas funções básicas. Por exemplo, podemos ajustar os dados y versus x às funções trigonométricas.

        y = a [0] + a [1] Sin [2 x] + a [2] Sin [4 x]

        Este é um ajuste linear, portanto, as técnicas discutidas neste capítulo podem ser usadas. O fato de as funções de base não serem lineares não tem relevância neste contexto.

        Agora, suponha que estejamos nos ajustando a uma função exponencial.

        Este não é um ajuste linear, uma vez que o parâmetro uma [2] é não linear. Observe que, neste exemplo, o relacionamento pode ser linear por transformação.

        Escrevendo aprime[1] = Log[uma[1]] torna a relação um pouco mais clara.

        Assim, ajustando o logaritmo de y contra x a uma linha reta ajusta-se efetivamente à equação original e é linear. Um pequeno ponto sobre esse tipo de transformação é que ela introduz vieses nos parâmetros, mas frequentemente esses vieses podem ser ignorados. Este tópico é discutido na Seção 8.2.2.

        Finalmente, imagine que estamos nos ajustando a uma exponencial mais complexa.

        Não existe uma transformação simples que irá linearizar esta forma. As técnicas discutidas no Capítulo 5 sobre técnicas não lineares são necessárias.

        4.1.2 Técnicas de Mínimos Quadrados

        A técnica padrão para realizar o ajuste linear é por regressão de mínimos quadrados. Este capítulo discute programas que usam esse algoritmo.

        No entanto, como destacam Emerson e Hoaglin, a técnica apresenta problemas.

        Vários métodos foram desenvolvidos para ajustar uma linha reta do formulário:

        O método mais conhecido e mais amplamente usado é a regressão de mínimos quadrados, que envolve cálculos algebraicamente simples, se encaixa perfeitamente na estrutura de inferência construída na distribuição gaussiana e requer apenas uma derivação matemática direta. Infelizmente, a linha de regressão de mínimos quadrados não oferece resistência. Um ponto de dados selvagem pode facilmente assumir o controle da linha ajustada e fazer com que ela forneça um resumo totalmente enganoso da relação entre y e x.

        Referência: John D. Emerson e David C. Hoaglin, "Resistant Lines for y versus x", em David C. Hoaglin, Frederic Mosteller e John W. Tukey, Understanding Robust and Exploratory Data Analysis (John Wiley, 1983, ISBN: 0-471-09777-2), pág. 129

        A ideia central do algoritmo é que estamos buscando uma função f[x] que se aproxima o mais possível dos dados experimentais reais. Deixamos os dados consistirem em N <x, y> pares.

        Então, para cada ponto de dados, o resíduo é definido como a diferença entre o valor experimental de y e o valor de y dado pela função f avaliada no valor correspondente de x.

        Primeiro, definimos a soma dos quadrados dos resíduos.

        Então, a técnica dos mínimos quadrados minimiza o valor de SumOfSquares.

        Aqui está um exemplo simples. Imagine que temos uma sucessão de x valores, que é o resultado de medições repetidas.

        Queremos encontrar uma estimativa do valor esperado de x a partir desses dados. Chame esse valor estimado. Então, simbolicamente, podemos escrever a soma dos quadrados.

        Para que seja um mínimo, a derivada em relação a deve ser igual a zero.

        Mas este é apenas o meio (ou seja, média) do XI. A média não tem resistência e um único ponto de dados contaminado pode afetar a média em um grau arbitrário. Por exemplo, se x 1 - & gt infinito, então o faz. É exatamente nesse sentido que a técnica dos mínimos quadrados em geral não oferece resistência.

        No entanto, embora EDA fornece funções que são resistentes, os adaptadores de mínimos quadrados discutidos aqui são geralmente os primeiros a tentar.

        Normalmente, estamos ajustando dados a um modelo para o qual há mais de um parâmetro.

        A técnica dos mínimos quadrados então obtém a derivada da soma dos quadrados dos resíduos em relação a cada um dos parâmetros aos quais estamos ajustando e define cada um como zero.

        A solução analítica para esse conjunto de equações, então, é o resultado do ajuste.

        Se o ajuste fosse perfeito, o valor resultante de SumOfSquares seria exatamente zero. Quanto maior o valor de SumOfSquares, menos o modelo se ajusta aos dados reais.

        4.1.3 Ajustando aos Dados com Erros Experimentais

        Conforme discutido no Capítulo 3, em um contexto experimental nas ciências físicas quase todas as grandezas medidas têm um erro porque não existe um aparato experimental perfeito. O Capítulo 3 também fornece algumas diretrizes para determinar quais são os valores desses erros.

        No entanto, muitas vezes os dados experimentais reais nas ciências e engenharia não têm erros explícitos associados aos valores das variáveis ​​dependentes ou independentes. Neste caso, as técnicas de ajuste de mínimos quadrados discutidas na subseção anterior são geralmente usadas. Como veremos, EDA também fornece extensões para este método padrão com algumas heurísticas de reponderação.

        Se houver erros atribuídos nos dados experimentais, digamos errante, então, esses erros são usados ​​para ponderar cada termo na soma dos quadrados. Se os erros forem estimativas do desvio padrão, essa soma ponderada é chamada de "qui quadrado",, do ajuste.

        A técnica dos mínimos quadrados usa os derivados de ChiSquared com relação aos parâmetros do ajuste, define cada equação como zero e resolve o conjunto de equações resultante. Assim, a única diferença entre essa situação e a discutida na seção anterior é que pesamos cada resíduo com o inverso do erro.

        Algumas referências referem-se aos pesos C[[eu]] de um ajuste, enquanto outros chamam de erros errante os desvios padrão.

        Além disso, algumas pessoas se referem à "variância", que é o erro ou desvio padrão ao quadrado.

        Se os dados tiverem erros tanto na variável independente quanto na dependente, diga errx e errante, respectivamente, os programas de adaptação em EDA use o que é chamado de "técnica de variância efetiva". Por exemplo, imagine que estamos ajustando dados para uma[2], e temos um ponto de dados onde x = 3 +/- 0,1.

        Para uma boa aproximação, a incerteza em y, por causa dos erros em x, é o erro em x vezes a inclinação da linha.

        Assim, se podemos assumir que os erros em x são independentes dos erros em y, podemos combinar errante e este termo em quadratura para obter um erro efetivo em y.

        Usando esses erros em vez de errante é chamada de "técnica de variância efetiva". Em geral, se estamos modelando

        então o algoritmo envolve a substituição errante com

        O quadrado do erro errante é a "variação efetiva".

        Observe que, como essa variância efetiva contém pelo menos alguns dos valores dos parâmetros aos quais estamos ajustando, o qui-quadrado não é linear nesses parâmetros. Isso implica que uma técnica de ajuste não linear é, em princípio, necessária. No entanto, quando os erros são pequenos, as não linearidades também são pequenas e quase sempre o LinearFit pode iterar com êxito para uma solução razoável.

        Existem também algumas sutilezas sobre o valor da variável independente para usar na avaliação das derivadas da função. Em quase todos os casos, as diferenças nos valores ajustados usando diferentes maneiras de fazer a avaliação são pequenas em comparação com os erros nesses valores. Assim, LinearFit apenas avalia as derivadas nos valores observados da variável independente.

        Quando o ajuste é em uma linha reta, uma maneira particularmente eficaz de aplicar a técnica de variância efetiva é um algoritmo chamado de minimização de Brent. Este é o padrão para LinearFit. A seção 4.4.1.2 discute isso mais detalhadamente.

        4.1.4 Avaliando a Qualidade de um Ajuste

        Como já mencionado, quando os dados não apresentam erros, a estatística SumOfSquares mede o quão bem os dados se ajustam ao modelo. Embora um SumOfSquares menor signifique um ajuste melhor, não há a priori definição do que a palavra "pequeno" significa neste contexto. Em muitos casos, os analistas usarão intervalos de confiança para tentar caracterizar a adequação desse caso. Há muitas ressalvas a essa abordagem, algumas das quais são discutidas na Seção 8.2.1. No entanto, o pacote Statistics`ConfidenceIntervals`, que é padrão com Mathematica, pode calcular esses tipos de estatísticas.

        Quando os dados têm erros, a estatística ChiSquared fornece informações sobre o que significa "pequeno" porque os dados são ponderados com a estimativa do experimentador dos erros nos dados.

        O número de graus de liberdade de um ajuste é definido como o número de pontos de dados menos o número de parâmetros aos quais estamos ajustando. Se estivermos fazendo, digamos, um ajuste de linha reta para dois pontos de dados, os graus de liberdade são zero neste caso, o ajuste também é bastante desinteressante.

        Se conhecermos o Qui-quadrado e os Graus de liberdade para um ajuste, então a probabilidade qui-quadrada pode ser definida.

        Aqui, Gamma é um Mathematica função embutida.

        Por conveniência, EDA fornece uma função ChiSquareProbability.

        A interpretação dessa estatística é um pouco sutil. Assumimos que os erros experimentais são aleatórios e estatísticos. Assim, se repetíssemos a experiência, quase certamente obteríamos dados ligeiramente diferentes e, portanto, obteríamos um resultado ligeiramente diferente se ajustássemos os novos dados ao mesmo modelo dos dados antigos. Como a mensagem de uso indica, a probabilidade qui-quadrado é a chance de que o ajuste para os novos dados tenha um ChiSquared maior do que o ajuste que fizemos com os dados antigos.

        Se nosso ajuste retornou um ChiSquared de zero, então é quase certo que qualquer medição repetida resultaria em um ChiSquared maior.

        Se o ChiSquared for igual ao número de graus de liberdade, a probabilidade depende do ChiSquared.

        As probabilidades variam de 32% a 48%. Esses são os tipos de probabilidades que esperaríamos se nossas estimativas de incertezas experimentais fossem razoáveis ​​e os dados se ajustassem ao modelo razoavelmente bem.

        Se tivermos um ChiSquared de 100 para 10 graus de liberdade, a probabilidade é muito pequena.

        Esse número indica que nenhuma experiência repetida provavelmente se ajustará tão mal ao modelo. A conclusão pode ser que os dados de fato não estão relacionados ao modelo que está sendo usado no ajuste.

        Se o ChiSquared for muito menor que o DegreesOfFreedom, o ajuste é quase bom demais para ser verdade.

        Uma possibilidade é que o experimentador superestimou os erros experimentais nos dados.

        Se o ChiSquared for, digamos, duas vezes o número de graus de liberdade, a probabilidade depende do número de graus de liberdade.

        Para dois graus de liberdade, a probabilidade é de 14%, o que não é muito irracional e indica um ajuste bastante razoável. Para 20 graus de liberdade, a probabilidade cai para 0,5%, o que indica um ajuste muito ruim.

        Resumimos o uso do ChiSquared na avaliação do resultado de um ajuste.

        Um bom ajuste deve ter um ChiSquared próximo ao número de graus de liberdade do ajuste. Quanto maior o número de graus de liberdade, quanto mais próximo o ChiSquared deve estar dele.

        Dito isso, digamos que temos bons dados, incluindo boas estimativas de seus erros, e estamos nos ajustando a um modelo que corresponde aos dados. Se repetirmos o experimento e o ajuste muitas vezes e formarmos um histograma de ChiSquareProbability para todos os testes, deve ser plano, esperamos que alguns testes tenham probabilidades muito pequenas ou grandes, embora nada esteja errado com os dados ou o modelo. Portanto, se um único ajuste tem uma probabilidade qui-quadrada muito grande ou muito pequena, talvez seja coincidência e não haja nada de errado com os dados ou o modelo. Nesse caso, entretanto, repetir a medição é provavelmente uma boa ideia.

        Apesar de suas limitações, a análise estatística é muito útil. No entanto, uma das melhores maneiras de avaliar um ajuste é graficamente. Fornecido com EDA é um famoso quarteto de dados inventados por Anscombe que ilustra isso.

        Todos os conjuntos de dados fornecidos com EDA tem uma mensagem de uso.

        Cada conjunto de dados consiste em 11 <x, y> pares.

        As médias de ambos x e y pois todos os quatro são quase iguais.

        Podemos usar o EDA função LinearFit para ajustar cada conjunto de dados a uma linha reta. LinearFit é apresentado na próxima seção, e os detalhes das opções usadas abaixo não são importantes aqui por enquanto, simplesmente observamos que a função retorna a interceptação e o erro estimado na interceptação como uma[0], e a inclinação e seu erro como uma[1].

        O comando também armazenou a interceptação e inclinação de cada ajuste em adaptável.

        Observe que os resultados desses ajustes, incluindo SumOfSquares, são quase idênticos. Portanto, apenas olhando para os números, podemos concluir que todos os quatro ajustes são igualmente razoáveis.

        Agora fazemos uma matriz 2 2 de gráficos, cada gráfico contém o resultado do ajuste aos dados e os próprios dados.

        Finalmente, exibimos os gráficos.

        O gráfico 1 mostra que modelar AnscombeData [[1]] para uma linha reta é razoável, enquanto o gráfico 2 mostra o perigo de usar um modelo incorreto. Os gráficos 3 e especialmente 4 ilustram o fato, discutido acima, de que os ajustes de mínimos quadrados não são resistentes à influência de um ponto de dados "selvagem".

        Philip R. Bevington, Redução de dados e análise de erros (McGraw-Hill, 1969), pp. 134 e seguintes e 204 e seguintes. Uma introdução clássica ao ajuste de mínimos quadrados.

        Gene H. Golub e James M. Ortega, Computação Científica e Equações Diferenciais (Academic Press, 1992), pp. 89 ff e 139 ff. Outra boa introdução que também discute o uso da fatoração QR.

        Matthew Lybanon, American Journal Physics 51, (1984), pág. 22. Discute uma técnica de variância efetiva modificada e aprimorada.

        Jay Orear, American Journal Physics 50, (1982) p 912. Apresenta a técnica de variância eficaz.

        William H. Press, Brian P. Flannery, Saul A. Teukolsky e William T. Vetterling, Receitas numéricas em C (Cambridge Univ., 1988), Capítulo 14. O código do LinearFit O pacote usa amplamente a notação deste livro, que também discute a decomposição de valores singulares.

        William H. Press e Saul A. Teukolsky, Computadores em Física 6, (1992) p. 274. A discussion of fitting when the data has errors in both coordinates, with an example of the Brent method.

        J. R. Taylor, An Introduction to Error Analysis (University Science Books, 1982), p. 158 ff. A good discussion of least-squares techniques, this also discusses the "statistical assumption" used by LinearFit when the data has no errors and the Reweight option is set to True .

        4.2 Curve Fitting When the Data Have No Explicit Errors

        In this section we discuss the Mathematica Fit function and then introduce the EDA function LinearFit .

        We will use GanglionData , which is supplied with EDA.

        Like all data supplied with EDA, information about the data is included.

        In this graph, CP denotes central to peripheral cell density ratio and area denotes retinal area.

        We can also use the EDA function EDAListPlot .

        Lia, et al., who took the data, also fit it to a straight line and from that fit deduced information about the growth of the retina.

        We fit the data to a straight line using the built-in Mathematica Fit function.

        Next, we plot the result of the fit.

        We display both the data and fit together.

        We calculate a list of the residuals.

        For less experienced Mathematica users, this calculation is "unwound" in Section 4.2.1. We examine the residuals.

        For a good fit (i.e., good data fit to a correct model) we expect the residuals to be randomly distributed about zero. This does not appear to be the case for the residuals of our straight-line fit to GanglionData .

        The sum of the squares of the residuals can be calculated.

        The smaller this number, the "better" the fit.

        By default LinearFit , which is supplied by EDA, fits to polynomials. Using it, we can similarly fit GanglionData to a straight line.

        The <0, 1>in the call to LinearFit tells the program that we are fitting to two parameters. The basis function of the first parameter is , and the basis function of the second parameter is . The a in the call to LinearFit is an arbitrary symbol that is used the present the result of the fit.

        By default LinearFit returns a set of rules. The first rule states that the value of the parameter for uma[0], the intercept, is 0.03 LinearFit has also estimated the error in that parameter to be ± 0.72. The second rule states that the value of the parameter for uma[1], the slope, is 0.107 ± 0.01. The function also returns the SumOfSquares and the DegreesOfFreedom .

        LinearFit has used a "statistical assumption" about the errors in the independent variable of the dataset and returns the value of that error as PseudoErrorY . The behavior can be controlled with the Reweight option discussed in Section 4.4.1.13.

        Note that by default LinearFit displays some graphical information about the fit. The large graph displays the data and the results of the fit since the parameters of the fit have errors, these maximum and minimum values of the fit are also displayed. The small insert also displays the residuals this plot seems to confirm the indication of the previous residual plot for this data that the data point for the largest area is pulling the value of the slope up from the value consistent with the other data.

        This graphic object is not returned by LinearFit the function returns the numerical rules only.

        The ShowLinearFit function, which is used internally by LinearFit , can be accessed directly and does return the graphic object. Section 4.4.2.1 provides further details.

        Perhaps the suspicious appearance of the residual plot is not due to a slightly wild data point maybe the model that CP versus area is linear in area is incorrect. Let's look at a fit to a second-order polynomial.

        The graph indicates no systematic problems with the residuals. However, note that the error in the slope uma[1] is larger than the value of the slope itself.

        The fact that the errors in the uma[1] term are larger than the value of the uma[1] term suggests that perhaps we should be fitting to a parabola.

        Doing the fit seems to affirm that suggestion.

        It is tempting to accept this as the "best" fit to the data. We will find yet another good fit to the data in Section 8.2.1.

        It is important to emphasize that the above analysis, although suggestive, certainly does not prove that this data should not be modeled by a straight line. Many of the problems with the straight-line fit were due to the last data point. We repeat some of the fits we have just done, but this time dropping that data point.

        Now it is much more difficult to choose between the two models, although the only difference is one data point. The residuals for the straight-line fit still look slightly suspicious, and the SumOfSquares for the second fit is about half the values for the straight-line fit. As we have already stated, analyzing the fit of data to a model is sometimes very subtle.

        As mentioned, Lia et al. used their straight-line fit to deduce information about the growth of the retina. Cleveland is certainly harsh when he states, "Astonishingly, the three experimenters who gathered and analyzed the data, fitted a line." (Reference: William S. Cleveland, Visualizing Data (AT&T Bell Laboratories, 1993), p. 91). You may, of course, explore this data further and draw your own conclusions.

        We will explore the ganglion data further in Sections 6.1.3, 6.2.3, 7.1.1, and especially in 8.2.1.

        4.2.1 Unwinding the Residual Calculation

        The residual was calculated in the previous section.

        Here the command is "unwound" for less experienced Mathematica users. First, look at the data itself.

        Then we extract the independent variable, area .

        Similarly, we extract the dependent variable, CP .

        The variable result is the result of using Fit .

        We can evaluate the value of CP predicted by this fit for each value of area.

        We subtract these values from the experimental values of CP.

        These are the residuals for each data point. Finally, we form a list where each element is .

        This is the command we have been unwinding.

        Often a command such as this is written by building up to it in stages often identical to the way we have unwound it.

        4.3 Curve Fitting When the Data Have Explicit Errors

        In this section we discuss fitting to data where the experimenter has provided errors in one or both of the coordinates.

        We begin by looking at calibration data for a thermocouple, a temperature measuring device.

        We begin by fitting the data to a straight line.

        Although the errors in the fitted parameters, the ChiSquared per DegreesOfFreedom , the plot of the data, and the results of the fit all look fairly reasonable, the plot of the residuals shows clearly that something is wrong with this fit.

        We fit to the data again, this time adding a quadratic term.

        Now the residuals appear to have zero slope, and the errors in the fitted parameters are all smaller than the values of those parameters. However, the ChiSquared is much smaller than the DegreesOfFreedom . This appears too small and, in fact, the probability is essentially 100%.

        The data was taken by Bevington and when we examine the details of how he collected the data, we discover that his claimed errors are not an estimate of his reading error or the amount of fluctuation of the needle of the voltmeter. Rather they are just a guess made by the experimenter. The ChiSquareProbability indicates that the guess was fairly pessimistic.

        Not only was Bevington careful enough to supply the above information, he also tells us that the measurements were made on two scales of the voltmeter, the 1 mV and the 3 mV scales. Let us assume that the error of precision, either due to reading error or fluctuations in the needle, is 1% of the value of the scale being used. We can form a new data set using these errors.

        A fit to a second-order polynomial looks more reasonable.

        Comparing the values of the parameters of the fit to the ones we obtained using Bevington's original errors in the voltage, we see that the values have changed somewhat but the two fits are the same within estimated errors in those parameters. Further, the errors in the parameters for this second fit are, perhaps expectedly, much smaller than for the first. It may be reasonable to use this fit as our "final" calibration result.

        LinearFit can also handle data in which there are errors in both coordinates. Pearson's data from 1901 with York's weights, although made up and not from a real experiment, are often used to test fitters.

        We fit PearsonYorkData to a straight line.

        In this fit an "effective variance technique" discussed in Section 4.1.3 has been used.

        One of the features of the errors in the coordinates that makes these fits interesting to statisticians is that for small values of x the error in y dominates, while for large x it is the error in x that dominates. An option to LinearFit allows us to examine the values of the effective variance we also use the ShowFit option to suppress the graphs of the fit.

        Note that the square root of the effective variances are the errors in the dependent variable used by LinearFit .

        We can also examine the effect of these errors in the independent variable on the fit by forming a data set containing only the error in the dependent variable and fitting to a straight line.

        The ChiSquared is large compared to the DegreesOfFreedom . In fact, it is difficult to find a fit to newData with a reasonable ChiSquareProbability . The following tries a number of powers and prints the probability.

        We end this section by looking at some real data for a plastic ball in free fall.

        Without air resistance we expect the distance s to be related to the time t according to a second-order polynomial.

        Therefore, we try a second-order polynomial first.

        The ChiSquared per DegreesOfFreedom is large. In addition, there is a clear sign of a systematic problem in the residuals.

        One simple, but approximate, way to incorporate the effects of air resistance on this data is to add a cubic term to the polynomial.

        O uma[2] term should be nearly equal to 1/2 g, Onde g is the acceleration due to gravity. From this experiment, then, g can be calculated.

        This is in m per . We re-cast as m per .

        Thus, Professor Key has performed a better than 1% determination of g. In the location in Toronto where this data was collected, the accepted local value of g is 9.8012 ± 0.0010 m/, which is consistent with this result.

        4.4 Options, Utilities, and Details

        This section discusses the LinearFit package in more detail.

        There are many options to LinearFit that control both how it performs the fit, and what values and formats it returns these are discussed in Section 4.4.1.

        The LinearFit package also includes functions that are used by LinearFit but may also be used directly these are the topic of Section 4.4.2.

        These are the options to LinearFit and their default values.

        Below we discuss these in order.

        The default values of these options have been set so that LinearFit will do the "right thing" for most simple analysis problems, while providing sufficient flexibility for more sophisticated problems.

        In addition, if ShowFit is set to True (the default) LinearFit uses the function ShowLinearFit . This function is discussed in Section 4.4.2. Options to ShowLinearFit given to LinearFit are passed to that function.

        If LinearFit is called with ReturnFunction set to True , or the ShowFit option is set to True ( the default) then the function ToLinearFunction is called this function is also discussed in Section 4.4.2. Options to ToLinearFunction given to LinearFit are passed to that function.

        The default basis function for LinearFit is the Mathematica function Power , which causes LinearFit to fit to polynomials. It may be changed to a user-supplied function using the Basis option.

        Our first illustration will use some made-up data that is a linear combination of three Bessel functions with a small noise.

        The order of the input arguments to BesselJ is the reverse of what we require for LinearFit , so we define a convenience function myBesselJ .

        Now we can fit to the data.

        Finally, we illustrate the Basis option with some real mass spectrometer data.

        After folding in calibration and resolution numbers from the mass spectrometer, the two peaks can be approximated as Gaussians. The center of the first peak is 326.155 amu with standard deviation 0.0240 amu the center of the second peak is 327.255 amu with a standard deviation of 0.0276 amu. These values are included in the following definition of the basis function.

        Note that the input arguments are the same as for Power : the first is the value of the independent variable and the second is the factor.

        We fit the MassSpecData .

        The residuals show that modeling this spectra as Gaussians is not perfect.

        Note also that this is a linear fit, since we are only fitting to the amplitudes of the two peaks: to fit to the center values and/or widths of the peaks would require using FindFit , which is discussed in Chapter 5.

        For fitting to a straight line with powers <0, 1>, if there are errors in both coordinates and the ReturnCovariance option discussed below is set to False (the default) then, by default, LinearFit uses a Brent minimization algorithm.

        We begin by repeating a fit we have done before.

        The algorithm used here differs from the "standard" one that we see in many references, in which one simply iterates the solution recalculating the effective variance at each iteration. This "standard" technique may be used by setting Brent to False .

        For this data the exact solutions are known. The intercept is 5.47991025 and the slope is -.480533415.

        Notice that both methods return the same values within their claimed errors, and they are both within errors of the exact values, although the Brent algorithm gives results that are closer.

        For lines with very large slopes, Brent tends to do a more realistic job of estimating the errors in the fitted parameters. We illustrate with some made-up data, mydata .

        Compared to Brent's calculation, the non-Brent method seems to have errors that are too small.

        The disadvantages of the Brent method are: (1) it is only available for straight-line fits, (2) it is about an order of magnitude slower than the standard method, and (3) it cannot return the full covariance matrix. We illustrate the last point using the ReturnCovariance option discussed below.

        The central idea of the Brent algorithm is that we weight the sum of the squares of the residuals with the effective variance errors.

        Here the X s are the basis functions and the effvar is the effective variance error. In general, this is not linear in the parameters to which we are fitting. But in the case of a straight line, the derivative of the sum of the squares with respect to the intercept is linear, and we can set the derivative to zero.

        For further information on this algorithm, see Press and Teukolsky, Computers dentro Física 6, (1992), p. 274.

        4.4.1.3 The BrentTolerance Option

        The tolerance used by Brent minimization is controlled by the BrentTolerance option. We examine once again the fit to PearsonYorkData , this time turning off significant figure adjustment in the result using the UseSignificantFigures option discussed below.

        The values compare well with the known exact solution, which is an intercept of 5.47991025 and slope of -.480533415.

        We can decrease the tolerance used by the Brent minimization from its default value of 0.001.

        This yields an answer a bit closer to the exact values. Considering the size of the calculated errors in the fit parameters, these two results are essentially the same.

        4.4.1.4 The ConvergenceTest Option

        The ConvergenceTest option allows the user to control when the fit is considered to have converged.

        For example, here is a fit we have performed before, but this time we use the EDA ShowProgress option discussed below to follow its progress.


        3.8.3: Fitting Linear Models to Data - Mathematics

        Curve Fitting Toolbox™ software uses the method of least squares when fitting data. Fitting requires a parametric model that relates the response data to the predictor data with one or more coefficients. The result of the fitting process is an estimate of the model coefficients.

        To obtain the coefficient estimates, the least-squares method minimizes the summed square of residuals. The residual for the euth data point reu is defined as the difference between the observed response value yeu and the fitted response value ŷeu, and is identified as the error associated with the data.

        r i = y i − y ^ i residual=data − fit

        The summed square of residuals is given by

        S = ∑ i = 1 n r i 2 = ∑ i = 1 n ( y i − y ^ i ) 2

        Onde n is the number of data points included in the fit and S is the sum of squares error estimate. The supported types of least-squares fitting include:

        Weighted linear least squares

        Error Distributions

        When fitting data that contains random variations, there are two important assumptions that are usually made about the error:

        The error exists only in the response data, and not in the predictor data.

        The errors are random and follow a normal (Gaussian) distribution with zero mean and constant variance, σ 2 .

        The second assumption is often expressed as

        The errors are assumed to be normally distributed because the normal distribution often provides an adequate approximation to the distribution of many measured quantities. Although the least-squares fitting method does not assume normally distributed errors when calculating parameter estimates, the method works best for data that does not contain a large number of random errors with extreme values. The normal distribution is one of the probability distributions in which extreme random errors are uncommon. However, statistical results such as confidence and prediction bounds do require normally distributed errors for their validity.

        If the mean of the errors is zero, then the errors are purely random. If the mean is not zero, then it might be that the model is not the right choice for your data, or the errors are not purely random and contain systematic errors.

        A constant variance in the data implies that the “spread” of errors is constant. Data that has the same variance is sometimes said to be of equal quality.

        The assumption that the random errors have constant variance is not implicit to weighted least-squares regression. Instead, it is assumed that the weights provided in the fitting procedure correctly indicate the differing levels of quality present in the data. The weights are then used to adjust the amount of influence each data point has on the estimates of the fitted coefficients to an appropriate level.

        Linear Least Squares

        Curve Fitting Toolbox software uses the linear least-squares method to fit a linear model to data. UMA linear model is defined as an equation that is linear in the coefficients. For example, polynomials are linear but Gaussians are not. To illustrate the linear least-squares fitting process, suppose you have n data points that can be modeled by a first-degree polynomial.

        To solve this equation for the unknown coefficients p1 e p2, you write S as a system of n simultaneous linear equations in two unknowns. Se n is greater than the number of unknowns, then the system of equations is overdetermined .

        S = ∑ i = 1 n ( y i − ( p 1 x i + p 2 ) ) 2

        Because the least-squares fitting process minimizes the summed square of the residuals, the coefficients are determined by differentiating S with respect to each parameter, and setting the result equal to zero.

        ∂ S ∂ p 1 = − 2 ∑ i = 1 n x i ( y i − ( p 1 x i + p 2 ) ) = 0 ∂ S ∂ p 2 = − 2 ∑ i = 1 n ( y i − ( p 1 x i + p 2 ) ) = 0

        The estimates of the true parameters are usually represented by b. Substituting b1 e b2 para p1 e p2, the previous equations become

        ∑ x i ( y i − ( b 1 x i + b 2 ) ) = 0 ∑ ( y i − ( b 1 x i + b 2 ) ) = 0

        where the summations run from eu = 1 a n. O normal equations are defined as

        b 1 ∑ x i 2 + b 2 ∑ x i = ∑ x i y i b 1 ∑ x i + n b 2 = ∑ y i

        b 1 = n ∑ x i y i − ∑ x i ∑ y i n ∑ x i 2 − ( ∑ x i ) 2

        As you can see, estimating the coefficients p1 e p2 requires only a few simple calculations. Extending this example to a higher degree polynomial is straightforward although a bit tedious. All that is required is an additional normal equation for each linear term added to the model.

        In matrix form, linear models are given by the formula

        y é um n-by-1 vector of responses.

        β is a m-by-1 vector of coefficients.

        X é o n-by-m design matrix for the model.

        ε is an n-by-1 vector of errors.

        For the first-degree polynomial, the n equations in two unknowns are expressed in terms of y, X, and β as

        [ y 1 y 2 y 3 . . . y n ] = [ x 1 1 x 2 1 x 3 1 . . . x n 1 ] × [ p 1 p 2 ]

        The least-squares solution to the problem is a vector b, which estimates the unknown vector of coefficients β. The normal equations are given by

        Onde X T is the transpose of the design matrix X. Resolvendo para b,

        Use the MATLAB ® backslash operator ( mldivide ) to solve a system of simultaneous linear equations for unknown coefficients. Because inverting X T X can lead to unacceptable rounding errors, the backslash operator uses QR decomposition with pivoting, which is a very stable algorithm numerically. Refer to Arithmetic Operations for more information about the backslash operator and QR decomposition.

        You can plug b back into the model formula to get the predicted response values, ŷ.

        A hat (circumflex) over a letter denotes an estimate of a parameter or a prediction from a model. The projection matrix H is called the hat matrix, because it puts the hat on y.

        The residuals are given by

        Weighted Least Squares

        It is usually assumed that the response data is of equal quality and, therefore, has constant variance. If this assumption is violated, your fit might be unduly influenced by data of poor quality. To improve the fit, you can use weighted least-squares regression where an additional scale factor (the weight) is included in the fitting process. Weighted least-squares regression minimizes the error estimate

        s = ∑ i = 1 n w i ( y i − y ^ i ) 2

        Onde weu are the weights. The weights determine how much each response value influences the final parameter estimates. A high-quality data point influences the fit more than a low-quality data point. Weighting your data is recommended if the weights are known, or if there is justification that they follow a particular form.

        The weights modify the expression for the parameter estimates b in the following way,

        b = β ^ = ( X T W X ) − 1 X T W y

        Onde C is given by the diagonal elements of the weight matrix w.

        You can often determine whether the variances are not constant by fitting the data and plotting the residuals. In the plot shown below, the data contains replicate data of various quality and the fit is assumed to be correct. The poor quality data is revealed in the plot of residuals, which has a “funnel” shape where small predictor values yield a bigger scatter in the response values than large predictor values.

        The weights you supply should transform the response variances to a constant value. If you know the variances of the measurement errors in your data, then the weights are given by

        Or, if you only have estimates of the error variable for each data point, it usually suffices to use those estimates in place of the true variance. If you do not know the variances, it suffices to specify weights on a relative scale. Note that an overall variance term is estimated even when weights have been specified. In this instance, the weights define the relative weight to each point in the fit, but are not taken to specify the exact variance of each point.

        For example, if each data point is the mean of several independent measurements, it might make sense to use those numbers of measurements as weights.

        Robust Least Squares

        It is usually assumed that the response errors follow a normal distribution, and that extreme values are rare. Still, extreme values called outliers do occur.

        The main disadvantage of least-squares fitting is its sensitivity to outliers. Outliers have a large influence on the fit because squaring the residuals magnifies the effects of these extreme data points. To minimize the influence of outliers, you can fit your data using robust least-squares regression. The toolbox provides these two robust regression methods:

        Least absolute residuals (LAR) — The LAR method finds a curve that minimizes the absolute difference of the residuals, rather than the squared differences. Therefore, extreme values have a lesser influence on the fit.

        Bisquare weights — This method minimizes a weighted sum of squares, where the weight given to each data point depends on how far the point is from the fitted line. Points near the line get full weight. Points farther from the line get reduced weight. Points that are farther from the line than would be expected by random chance get zero weight.

        For most cases, the bisquare weight method is preferred over LAR because it simultaneously seeks to find a curve that fits the bulk of the data using the usual least-squares approach, and it minimizes the effect of outliers.

        Robust fitting with bisquare weights uses an iteratively reweighted least-squares algorithm, and follows this procedure:

        Fit the model by weighted least squares.

        Compute the adjusted residuals and standardize them. The adjusted residuals are given by

        reu are the usual least-squares residuals and heu estão leverages that adjust the residuals by reducing the weight of high-leverage data points, which have a large effect on the least-squares fit. The standardized adjusted residuals are given by

        K is a tuning constant equal to 4.685, and s is the robust standard deviation given by MAD/0.6745 where MAD is the median absolute deviation of the residuals.

        Compute the robust weights as a function of você. The bisquare weights are given by

        Note that if you supply your own regression weight vector, the final weight is the product of the robust weight and the regression weight.

        If the fit converges, then you are done. Otherwise, perform the next iteration of the fitting procedure by returning to the first step.

        The plot shown below compares a regular linear fit with a robust fit using bisquare weights. Notice that the robust fit follows the bulk of the data and is not strongly influenced by the outliers.

        Instead of minimizing the effects of outliers by using robust regression, you can mark data points to be excluded from the fit. Refer to Remove Outliers for more information.

        Nonlinear Least Squares

        Curve Fitting Toolbox software uses the nonlinear least-squares formulation to fit a nonlinear model to data. A nonlinear model is defined as an equation that is nonlinear in the coefficients, or a combination of linear and nonlinear in the coefficients. For example, Gaussians, ratios of polynomials, and power functions are all nonlinear.

        In matrix form, nonlinear models are given by the formula

        y é um n-by-1 vector of responses.

        f is a function of β and X.

        β is a m-by-1 vector of coefficients.

        X é o n-by-m design matrix for the model.

        ε is an n-by-1 vector of errors.

        Nonlinear models are more difficult to fit than linear models because the coefficients cannot be estimated using simple matrix techniques. Instead, an iterative approach is required that follows these steps:

        Start with an initial estimate for each coefficient. For some nonlinear models, a heuristic approach is provided that produces reasonable starting values. For other models, random values on the interval [0,1] are provided.

        Produce the fitted curve for the current set of coefficients. The fitted response value ŷ is given by

        and involves the calculation of the Jacobian de f(X,b), which is defined as a matrix of partial derivatives taken with respect to the coefficients.

        Adjust the coefficients and determine whether the fit improves. The direction and magnitude of the adjustment depend on the fitting algorithm. The toolbox provides these algorithms:

        Trust-region — This is the default algorithm and must be used if you specify coefficient constraints. It can solve difficult nonlinear problems more efficiently than the other algorithms and it represents an improvement over the popular Levenberg-Marquardt algorithm.

        Levenberg-Marquardt — This algorithm has been used for many years and has proved to work most of the time for a wide range of nonlinear models and starting values. If the trust-region algorithm does not produce a reasonable fit, and you do not have coefficient constraints, you should try the Levenberg-Marquardt algorithm.

        Iterate the process by returning to step 2 until the fit reaches the specified convergence criteria.

        You can use weights and robust fitting for nonlinear models, and the fitting process is modified accordingly.

        Because of the nature of the approximation process, no algorithm is foolproof for all nonlinear models, data sets, and starting points. Therefore, if you do not achieve a reasonable fit using the default starting points, algorithm, and convergence criteria, you should experiment with different options. Refer to Specifying Fit Options and Optimized Starting Points for a description of how to modify the default options. Because nonlinear models can be particularly sensitive to the starting points, this should be the first fit option you modify.

        Robust Fitting

        This example shows how to compare the effects of excluding outliers and robust fitting. The example shows how to exclude outliers at an arbitrary distance greater than 1.5 standard deviations from the model. The steps then compare removing outliers with specifying a robust fit which gives lower weight to outliers.

        Create a baseline sinusoidal signal:

        Add noise to the signal with nonconstant variance.

        Fit the noisy data with a baseline sinusoidal model, and specify 3 output arguments to get fitting information including residuals.


        Linear Regression

        Let us first start with the idea of ‘learning’. In Machine Learning, the process of learning involves finding a mathematical function that maps the inputs to the outputs.

        In the simplest case, that function is linear

        What is a Linear Relationship?

        A linear relationship means that you can represent the relationship between two sets of variables with a straight line. Many phenomena represent a linear relationship. For example, the force involved in stretching a rubber band. We can represent this relationship in the form of a linear equation in the form:

        “m” is the slope of the line,

        “x” is any point (an input or x-value) on the line,

        and “b” is where the line crosses the y-axis.

        In linear relationships, any given change in an independent variable produces a corresponding change in the dependent variable. Linear regression is used in predicting many problems like sales forecasting, analysing customer behaviour etc.

        It can be represented as below:

        The linear regression model aims to find a relationship between one or more features (independent variables) and a continuous target variable (dependent variable). We refer to the above as Ordinary Linear Regression, i.e. the simplest form of Linear Regression

        Let us now consider three models which we can infer from Ordinary Linear Regression

        1) Multiple Linear Regression

        The first obvious variant of the simple Linear Regression is multiple linear regression. When there is only one feature, we have Uni-variate Linear Regression, and if there are multiple features, we have Multiple Linear Regression. For Multiple linear regression, the model can be represented in a general form as

        This equation is a more generic form of the equation y = mx + c

        Training of the model involves finding the parameters so that the model best fits the data. The line for which the erro between the predicted values and the observed values is minimum is called the best fit line or the regression line. These errors are also called as residuals. The residuals can be visualised by the vertical lines from the observed data value to the regression line.

        To define and measure the error of our model we define the cost function as the sum of the squares of the residuals. The cost function is denoted by

        Multiple linear regression can be illustrated in the commonly used Boston Housing Dataset

        The description of the features in the Boston Housing Dataset is as below:

        CRIM: Per capita crime rate by town

        ZN: Proportion of residential land zoned for lots over 25,000 sq. ft

        INDUS: Proportion of non-retail business acres per town

        CHAS: Charles River dummy variable (= 1 if tract bounds river 0 otherwise)

        NOX: Nitric oxide concentration (parts per 10 million)

        RM: Average number of rooms per dwelling

        AGE: Proportion of owner-occupied units built prior to 1940

        DIS: Weighted distances to five Boston employment centers

        RAD: Index of accessibility to radial highways

        TAX: Full-value property tax rate per $10,000

        PTRATIO: Pupil-teacher ratio by town

        LSTAT: Percentage of lower status of the population

        MEDV: Median value of owner-occupied homes in $1000s

        The prices of the house indicated by the variable MEDV is the target variable, and the remaining are the feature variables based on which we predict the value of a house.

        There are a number of good solutions to the Boston Housing Dataset problem

        2) Generalised Linear Model

        Let us now look at a second model that we can infer from Ordinary Linear Regression, i.e. Generalized Linear Regression. In Ordinary Linear Regression, we can predict the expected value of the response variable (the Y term) as a linear combination of a set of predictors (the X terms). As we have seen before, this implies that a constant change in a predictor leads to a constant change in the response variable. However, this is appropriate only when the response variable has a normal distribution. Normal distributions apply when the response variables change by relatively small amounts around a peak value (for example in the case of human heights).

        The requirement that the response variable is of normal distribution excludes many cases such as:

        1. Where the response variable is expected to be always positive and varying over a wide range or
        2. Constant input changes lead to geometrically varying, rather than continually varying, output changes.

        We can illustrate these using examples:

        • Suppose we have a model which predicts that a 10 degree temperature decrease would lead to 1,000 fewer people visiting the beach. This model does not work over small and large beaches. (Here, we could consider a small beach as one where expected attendance is 50 people and a large beach as one where the expected attendance was 10,000.). For the small beach (50 people), the model implies that -950 people would attend the beach. This prediction is obviously not correct
        • This model would also not work if we had a situation where we had an output that was bounded on both sides – for example in the case of a yes/no choice. This is represented by a Bernoulli variable where the probabilities are bounded on both ends (they must be between 0 and 1). If our model predicted that a change in 10 degrees makes a person twice as likely to go to the beach. As temperatures increase by 10 degrees, probabilities cannot be doubled.

        Generalised linear models cater to these situations by

        1. Allowing for response variables that have arbitrary distributions (other than only normal distributions), and
        2. Using an arbitrary function of the response variable (the link function) to vary linearly with the predicted values (rather than assuming that the response itself must vary linearly).

        Thus, in a generalised linear model (GLM), each outcome Y of the dependent variables is assumed to be generated from the exponential family of distributions (which includes distributions such as the normal, binomial, Poisson and gamma distributions, among others). GLM uses the maximum likelihood estimation of the model parameters. (Note the section adapted from Wikipedia)

        3) Polynomial Regression

        Having looked at the Multiple Regression and the GLM, let us now look at another model that we can infer from Ordinary Linear Regression, i.e. Polynomial Regression. Many relationships do not fit the Linear format at all. Dentro polynomial regression, the relationship between the independent variable x and the dependent variable y is modelled as an nth degree polynomial in x. Polynomial regression has been used to describe nonlinear phenomena such as the growth rate of tissues, the distribution of carbon isotopes in lake sediments, and the progression of disease epidemics.

        Fourier: Theta1 * cos(X + Theta4) + (Theta2 * cos(2*X + Theta4) + Theta3


        Using Least Square Regression on X,Y values

        Let’s see how the prediction y changes when we apply y = 19.2x + (-22.4) on all x values.

        Let’s plot this particular straight line graph against the standard values.

        As we can see that these values are nearer to the actual line as compared to direct straight line values between starting and end points. If we compare this with the straight line graph we visualize the difference


        R²( R square )→ Coefficient of determination

        The coefficient of determination → This metric is used after building the model, to check how reliable the model is.

        R² →It is equal to the variance explained by regression (Regression Error or SSR) divided by Total variance in y (SST)

        R² → It describes how much of the total variance in y is explained by our model.
        Se Error(unexplained error or SSE)<Variance (SST) means the model is good.
        The best fit is the line in which unexplained error (SSE) is minimized.


        Assista o vídeo: Immobilizer 2 and 3 Key Adaptation (Novembro 2021).