Edição atual tal como às 14h22min de 27 de julho de 2021

Este o nome que se da ao ajuste ou fitting de uma função (polinômio) a um conjunto de dados.

Se $(X_{i}, Y_{i})$ com $i = 1, N$ representam o conjunto de dados (N) obtidos de um experimento (instrumento) ou de uma observação (por exemplo, em pesquisa de opinião ou censo) ou de uma simulação numérica. E se suspeitamos que existe uma correlação entre os X (variável independente ou de entrada, controlada pelo experimento) e os Y (cuja dependência com X queremos testar), primeiro colocamos os pontos num gráfico para ver se o conjunto forma uma nuvem dispersa (quando não existe correlação aparente, isto é X e Y não conformam uma função), ou se existe correlação (os pontos parecem estar sobre alguma curva).

Equação linear

Exemplo de ajuste linear para um conjunto de pontos.

Sendo que um experimento foi realizado e temos $N$ pontos, como descrito acima, e consideramos que um ajuste linear é coerente, uma reta deve ser construída para melhor representar estes pontos. Como mostrado na figura a baixo, para cada ponto, teremos um erro $ϵ_{i}$ , que é definido como a distância entre o ponto experimental e a curva (reta neste caso) teórica que desejamos ajustar, ou seja,

ϵ_{i} = y_{i} - f (x_{i})

,

onde

f (x) = α_{0} + α_{1} x

é a função que representa a curva de melhor ajuste.

Para encontrar a reta que melhor se ajusta aos dados experimentais, desejamos minimizar o erro $ϵ$ . Como o erro pode ter tanto valores negativos quanto positivos, o que importa é minimizar o valor absoluto de $ϵ_{i}$ . Isto poderia ser feito minimizando módulo de $ϵ_{i}$ , mas como a função módulo tem uma descontinuidade, é mais fácil minimizar o quadrado do erro. Para isto, definimos:

S = \sum_{i = 1}^{N} ϵ_{i}^{2}

,

assim

S = \sum_{i = 1}^{N} [y_{i} - f (x_{i})]^{2} = \sum_{i = 1}^{N} [y_{i} - f (x_{i}; α_{0}, α_{1})]^{2}

.

Para obter a melhor reta que se ajusta aos dados experimentais, temos que minimizar $S$ em relação às constantes da função $(α_{0}, α_{1})$ :

\frac{\partial S}{\partial α_{i}} = 0

.

Como a reta possui apenas dois coeficientes, para o ajuste linear temos duas equações:

\frac{\partial S}{\partial α_{0}} = \frac{\partial}{\partial α_{0}} \sum_{i = 1}^{N} [y_{i} - (α_{0} + α_{1} x_{i})]^{2} = 0

e

\frac{\partial S}{\partial α_{1}} = \frac{\partial}{\partial α_{1}} \sum_{i = 1}^{N} [y_{i} - (α_{0} + α_{1} x_{i})]^{2} = 0

.

Derivando as equações acima, temos que

\sum_{i = 1}^{N} y_{i} - \sum_{i = 1}^{N} α_{0} - \sum_{i = 1}^{N} α_{1} x_{i} = 0

e

\sum_{i = 1}^{N} y_{i} x_{i} - \sum_{i = 1}^{N} α_{0} x_{i} - \sum_{i = 1}^{N} α_{1} x_{i}^{2} = 0

.

Assim,

α_{0} \underset{N}{\underset{⏟}{\sum_{i = 1}^{N} 1}} + α_{1} \underset{X}{\underset{⏟}{\sum_{i = 1}^{N} x_{i}}} = \underset{Y}{\underset{⏟}{\sum_{i = 1}^{N} y_{i}}}

e

α_{0} \underset{X}{\underset{⏟}{\sum_{i = 1}^{N} x_{i}}} + α_{1} \underset{X^{2}}{\underset{⏟}{\sum_{i = 1}^{N} x_{i}^{2}}} = \underset{Y X}{\underset{⏟}{\sum_{i = 1}^{N} y_{i} x_{i}}}

.

Lembre-se de que os valores $x_{i}$ e $y_{i}$ são conhecidos (são dados do problema). Desse modo, terminamos com um sistema linear para resolver, que na notação matricial fica

(\begin{matrix} N & X \\ X & X^{2} \end{matrix}) (\begin{matrix} α_{0} \\ α_{1} \end{matrix}) = (\begin{matrix} Y \\ Y X \end{matrix})

.

Cuidado com o fato que $(X^{2} \neq X * X)$ e $(Y X \neq Y * X)$ . Após construir a matriz, resolva com o método que mais lhe agrade (ha diversos métodos de solução de sistemas lineares, tais como a Regra de Cramer ou a eliminação Gaussiana).

Equação quadrática

Exemplo de ajuste quadrático para um conjunto de pontos.

Utilizando o mesmo método descrito para um ajuste linear, considerando que o melhor ajuste para um conjunto de pontos seja uma curva proveniente de função quadrática, temos que a função é dada por

f (x) = α_{0} + α_{1} x + α_{2} x^{2}

.

Desse modo, a soma do quadrado do erro fica

S = \sum_{i = 1}^{N} ϵ_{i}^{2} = \sum_{i = 1}^{N} [Y_{i} - (α_{0} + α_{1} X_{i} + α_{2} X_{i}^{2})]^{2}

.

Após algumas contas, como feito na seção anterior, temos o sistema linear de 3 equações e 3 incógnitas para resolver:

(\begin{matrix} N & X & X^{2} \\ X & X^{2} & X^{3} \\ X^{2} & X^{3} & X^{4} \end{matrix}) (\begin{matrix} α_{0} \\ α_{1} \\ α_{2} \end{matrix}) = (\begin{matrix} Y \\ Y X \\ Y X^{2} \end{matrix})

.

Fique atento ao fato de que

X = \sum_{i = 1}^{N} X_{i}, Y = \sum_{i = 1}^{N} Y_{i}, X^{2} = \sum_{i = 1}^{N} X_{i}^{2}, X^{3} = \sum_{i = 1}^{N} X_{i}^{3}, X^{4} = \sum_{i = 1}^{N} X_{i}^{4}, Y X = \sum_{i = 1}^{N} Y_{i} X_{i} e Y X^{2} = \sum_{i = 1}^{N} Y_{i} X_{i}^{2}

.

Polinômio de grau n

Generalizando o procedimento acima, apresentado para polinômios de grau 1 e 2, podemos ajustar um conjunto de pontos com um polinômio de um grau específico $n$ . Assim, a função será descrita por

f (x) = α_{0} + α_{1} x + α_{2} x^{2} + α_{3} x^{3} + . . . + α_{n} x^{n}

e a soma dos quadrados do erro é dada por

S = \sum_{i = 1}^{N} ϵ_{i}^{2} = \sum_{i = 1}^{N} [Y_{i} - f (X_{i}; α_{0}, α_{1}, . . ., α_{n})]^{2}

.

Ao final do procedimento, teremos um sistema linear de $n$ equações e $n$ incógnitas para resolver. O resultado deste sistema são os coeficientes : $α_{0}, α_{1}, α_{2} . . α_{n}$ que compõem o polinômio que melhor se ajusta aos dados experimentais.

(\begin{matrix} N & X & X^{2} & \dots & X^{n} \\ X & X^{2} & X^{3} & \dots & X^{n + 1} \\ X^{2} & X^{3} & X^{4} & \dots & X^{n + 2} \\ ⋮ & ⋮ & ⋮ & ⋮ \\ X^{n} & X^{n + 1} & X^{n + 2} & \dots & X^{2 n} \end{matrix}) (\begin{matrix} α_{0} \\ α_{1} \\ α_{2} \\ ⋮ \\ α_{n} \end{matrix}) = (\begin{matrix} Y \\ Y X \\ Y X^{2} \\ ⋮ \\ Y X^{n} \end{matrix})

Outros tipos de funções

Dependendo do tipo de experimento, podem haver outras relações entre os pontos, como funções exponenciais.

Exponencial 1

Se os dados de um experimento se ajustarem bem a uma função exponencial do tipo:

f (x) = α_{1} e^{- α_{2} x}, α_{1}, α_{2} > 0

,

definimos uma nova função :

f_{2} (x) = \ln (f (x)) = \ln (α_{1} e^{- α_{2} x}) = \ln (α_{1}) - α_{2} x

.

Assim, recaímos no problema do ajuste linear recém visto:

f_{2} (x) = c_{1} + c_{2} x

, com

c_{1} = \ln (α_{1})

e

c_{2} = - α_{2}

.

Exponencial 2

Se a função exponencial for do tipo:

f (x) = α_{1} α_{2}^{x}

,

supondo $f (x) > 0$ , definimos:

f_{2} (x) = \ln (f (x)) = \ln (α_{1}) + x \ln (α_{2})

.

Assim, como no caso anterior, voltamos para o problema de ajuste linear:

f_{2} (x) = c_{1} + c_{2} x

,

com $c_{1} = \ln (α_{1})$ e $c_{2} = \ln (α_{2})$ .

Algébrica

Se a função for do tipo:

f (x) = α_{1} x^{α_{2}}

,

com $f (x) > 0$ e $x > 0$ , definimos:

f_{2} (x) = \ln (f (x)) = \ln (α_{1}) + α_{2} \ln (x)

.

e assim

f_{2} (x) = c_{1} + c_{2} \ln (x)

,

onde $c_{1} = \ln (α_{1})$ e $c_{2} = α_{2}$ . Note também que os valores de x devem ser transformados em $\ln (x)$ para ajustar os pontos.

Código FORTRAN

A seguir vemos uma possível implementação do método em linguagem F90.
Observem a simplicidade do mesmo:

 ! programa fortran para ajuste linear de conjunto de dados
 Implicit none
 Real :: xi,yi, x,y,xy,x2
 Real :: det,a,b

 n = 0;  x = 0;  y = 0;  xy = 0;  x2 = 0
 Do
    Read(*,*,end=100) xi,yi
    n = n + 1                          ! soma do numero de pontosd
    x  = x  + xi;      y =  y + yi     ! somatorio dos x e y
    x2 = x2 + xi**2;  xy = xy + xi*y   ! somatorio dos x**2 e x*y <- cuidado ha um erro aqui (compila mas ...
 End Do

 100 det = n*x2 - x**2
 a =  y*x2 - xy*x / det  ! <- outro erro aqui
 b = ...          / det  !    fica como exercicio

 print*, 'a=', a, 'b=', b
 end

Ajuste ponderado

Dependendo da situação, convém fazer um ajuste levando em conta o erro associado a cada ponto, i.e., atribuindo maior peso para pontos com um erro baixo e menor peso para os pontos onde o erro é sabidamente maior. Ou seja, se definirmos $w_{i}$ como o peso associado ao ponto $(x_{i}, y_{i})$ , gostaríamos que ele seja maior quanto menor for o erro associado a este ponto. Se $S_{y_{i}}$ é o erro associado a este ponto, e considerando que o ajuste proposto é tal que minimiza a distância quadrática, podemos definir então $w_{i}$ como:

$w_{i} = S_{y_{i}}^{- 2}$

E o resíduo $χ^{2}$ , para o cálculo do ajuste ponderado, será dada por:

$χ^{2} = \sum_{i = 1}^{N} (y_{i} - a - b x_{i})^{2} w_{i}$

Aplicando o mesmo procedimento anterior para minimizar $χ^{2}$ , obtemos as equações

[\begin{matrix} a [w] + b [x w] & = & [y w] \\ a [x w] + b [x^{2} w] & = & [x y w] \end{matrix}]

E, portanto, os valores de $a$ e $b$ são:

$a = ([y w] [x^{2} w] - [x y w] [x w]) / Δ$

$b = ([w] [x y w] - [x w] [y w]) / Δ$

com $Δ$ :

$Δ = [w] [x^{2} w] - [x w]^{2}$

Erro dos coeficientes

Vimos como obter os coeficientes (a e b para uma reta) do ajuste de um conjunto de dados.
Também como fazer esse ajuste quando os erros na variável dependente y não são todos iguais.
Mas como saber se esses coeficientes são "bons". Ou seja, que margem de erro eles tem.
Intuitivamente sabemos que quanto maior seja a dispersão dos $y_{i}$ em volta da curva do ajuste, maior será nossa incerteza sobre os coeficientes.

Vamos ver como traduzir isso de forma quantitativa. Voltando as expressões dos coeficientes a e b, eles são funções de $x_{i}$ e $y_{i}$ , onde só os segundos são considerados como fonte de erro. Assim para ver como o erro neles propaga-se para os coeficientes, escrevemos:

$a = a (y_{i}) \Rightarrow \frac{\partial a}{\partial y_{i}} = \frac{1}{Δ} \frac{\partial}{\partial y_{i}} {[y w] [x^{2} w] - [x y w] [x w]}$

$\frac{\partial a}{\partial y_{i}} = \frac{1}{Δ} {w_{i} [x^{2} w] - x_{i} w_{i} [x w]}$

Só os termos com y contribuem para a derivada. Como os $y_{i}$ aparecem somados, ao derivar respeito do i-esimo sobra apenas o que multiplica ele

Para incluir o efeito do erro de cada $y_{i}$ deveriamos somar i de 1 a N, mas como o erro pode ser para mais o menos fazemos uma media quadrática deles:

$Δ a = \sqrt{\sum_{i = 1}^{N} {(\frac{\partial a}{\partial y_{i}} Δ y_{i})}^{2}}$

onde: ${(\frac{\partial a}{\partial y_{i}} Δ y_{i})}^{2} = \frac{1}{Δ^{2}} {w_{i}^{2} [x^{2} w]^{2} + x_{i}^{2} w_{i}^{2} [x w]^{2} - 2 w_{i} [x^{2} w] x_{i} w_{i} [x w]} w_{i}^{- 1}$

o somatório fica:

$\frac{1}{Δ^{2}} \sum_{i = 1}^{N} (w_{i} [x^{2} w]^{2} + x_{i}^{2} w_{i} [x w]^{2} - 2 [x^{2} w] x_{i} w_{i} [x w]) = \frac{1}{Δ^{2}} ([w] [x^{2} w]^{2} + [x^{2} w] [x w]^{2} - 2 [x^{2} w] [x w] [x w])$

e com mais algumas simplificações chegamos a simples relação:

$Δ a = \sqrt{\frac{[x^{2} w]}{Δ}}$

Analogamente para o b (que resulta ser mais fácil), se chega a:

$Δ b = \sqrt{\frac{[w]}{Δ}}$

Podemos interpretar essa expressões no caso sem ponderar, ou seja quando todos os erros são iguais:

$w = 1 / (Δ y)^{2}$

\Rightarrow Δ = w^{2} (N [x^{2}] - [x]^{2}) = (w N σ)^{2}

onde $σ^{2} = < x^{2} > - < x >^{2}$

resultando:

$Δ a = \frac{Δ y \sqrt{< x^{2} >}}{σ \sqrt{N}}$

$Δ b = \frac{Δ y}{σ \sqrt{N}}$

Por tanto, três fatores determinam a qualidade do ajuste:

E erro das medidas ( $Δ y$ ) que deve ser minimizado, porem está geralmente limitado pelo instrumento utililizado
O número de medidas $N$ , quanto maior, melhor, porem vemos que o erro dos coeficientes diminui com a raiz dele
Por último, a dispersão da viariável independente x ( $σ$ ) também, quanto maior, melhor

Por último, consideremos o caso mais simples, ajuste sem ponderar e sem informação sobre $Δ y$ , apenas $N$ pares de dados { $x_{i}, y_{i}$ }. Nesse caso podemos estimar o valor de $Δ y$ pelo $χ^{2}$ assim:

 $Δ y \approx \sqrt{\frac{χ^{2}}{N - 2}}$

Pois o resíduo $χ^{2}$ pode ser interpretado como o somatório dos erros de cada ponto, tomados como a distancia entre a medida e o ajuste. O $N - 2$ em lugar de $N$ , é pelo fato de que o ajuste já contem dois parâmetros ( $a$ e $b$ obtidos dos dados, então os erros individuais não são todos independentes.

@@ Linha 181: / Linha 181: @@
 </pre>
 =Ajuste ponderado=
-Dependendo da situação, convém fazer um ajuste levando em conta o erro associado a cada ponto, i.e., atribuindo maior peso para pontos com um erro baixo e menor peso para os pontos onde o erro é sabidamente maior. Ou seja, se definirmos <math>w_i</math> como o peso associado ao ponto <math>(X_i,Y_i)</math>, gostaríamos que ele seja maior quanto menor for o erro associado a este ponto.
+Dependendo da situação, convém fazer um ajuste levando em conta o erro associado a cada ponto, i.e., atribuindo maior peso para pontos com um erro baixo e menor peso para os pontos onde o erro é sabidamente maior. Ou seja, se definirmos <math>w_i</math> como o peso associado ao ponto <math>(x_i,y_i)</math>, gostaríamos que ele seja maior quanto menor for o erro associado a este ponto.
 Se <math>S_{y_i}</math> é o erro associado a este ponto, e considerando que o ajuste proposto é tal que minimiza a distância quadrática, podemos definir então <math>w_i</math> como:
@@ Linha 193: / Linha 193: @@
 :<math> \begin{bmatrix}
-a[w] + b[Xw]   & = &[Yw] \\
+a[w] + b[xw]   & = &[yw] \\
-a[Xw] + b[X^2w] & = & [XYw]
+a[xw] + b[x^2w] & = & [xyw]
 \end{bmatrix}</math>
 E, portanto, os valores de <math>a</math> e <math>b</math> são:
-<math>a = [Yw][X^2w] - [XYw][Xw] / \Delta</math>
+<math>a = ([yw][x^2w] - [xyw][xw]) / \Delta</math>
-<math>b = [w][XYw]  -  [Xw][Yw] / \Delta</math>
+<math>b = ([w][xyw]  -  [xw][yw]) / \Delta</math>
 com <math>\Delta</math>:
-<math>\Delta = [w][X^2w] - [Xw]^2</math>
+<math>\Delta = [w][x^2w] - [xw]^2</math>
 =Erro dos coeficientes=
@@ Linha 218: / Linha 218: @@
 fonte de erro. Assim para ver como o erro neles propaga-se para os coeficientes, escrevemos:
-<math>a = a(y_i) \Rightarrow \frac{\partial a}{\partial y_i} = \frac{1}{\Delta} \frac{\partial }{\partial y_i} \left\{[Yw][X^2w] - [XYw][Xw]\right\}</math>
+<math>a = a(y_i) \Rightarrow \frac{\partial a}{\partial y_i} = \frac{1}{\Delta} \frac{\partial }{\partial y_i} \left\{[yw][x^2w] - [xyw][xw]\right\}</math>
-<math>\frac{\partial a}{\partial y_i} = \frac{1}{\Delta}\left\{ w_i[X^2w] - x_i w_i [Xw]\right\}</math>
+<math>\frac{\partial a}{\partial y_i} = \frac{1}{\Delta}\left\{ w_i[x^2w] - x_i w_i [xw]\right\}</math>
-pois só os termos com y contribuem para a derivada. e como os <math>y_i</math> aparecem somados, ao derivar respeito do i-esimo
+Só os termos com y contribuem para a derivada. Como os <math>y_i</math> aparecem somados, ao derivar respeito do ''i''-esimo
 sobra apenas o que multiplica ele
-Para incluir o efeito do erro de cada y_i deveriamos somar i de 1 a N, mas como o erro pode ser para mais o menos
+Para incluir o efeito do erro de cada <math>y_i</math> deveriamos somar i de 1 a N, mas como o erro pode ser para mais o menos
 fazemos uma media quadrática deles:
@@ Linha 231: / Linha 231: @@
 onde:
-<math>\left(\frac{\partial a}{\partial y_i}\Delta y_i \right)^2 = \frac{1}{\Delta^2} \left\{ w_i^2[X^2w]^2 + x_i^2 w_i^2 [Xw]^2 - 2w_i[X^2w] x_i w_i [Xw]\right\}w_i^{-1}</math>
+<math>\left(\frac{\partial a}{\partial y_i}\Delta y_i \right)^2 = \frac{1}{\Delta^2} \left\{ w_i^2[x^2w]^2 + x_i^2 w_i^2 [xw]^2 - 2w_i[x^2w] x_i w_i [xw]\right\}w_i^{-1}</math>
 o somatório fica:
-<math>\frac{1}{\Delta^2} \sum_{i=1}^N \left(w_i[X^2w]^2 + x_i^2 w_i [Xw]^2 - 2 [X^2w] x_i w_i [Xw]\right) =
+<math>\frac{1}{\Delta^2} \sum_{i=1}^N \left(w_i[x^2w]^2 + x_i^2 w_i [xw]^2 - 2 [x^2w] x_i w_i [xw]\right) =
-\frac{1}{\Delta^2} \left([w][X^2w]^2 + [X^2w][Xw]^2 - 2 [X^2w][Xw][Xw]\right)</math>
+\frac{1}{\Delta^2} \left([w][x^2w]^2 + [x^2w][xw]^2 - 2 [x^2w][xw][xw]\right)</math>
 e com mais algumas simplificações chegamos a simples relação:
-<math>\Delta a = \sqrt{\frac{[X^2w]}{\Delta}}</math>
+<math>\Delta a = \sqrt{\frac{[x^2w]}{\Delta}}</math>
 Analogamente para o b (que resulta ser mais fácil), se chega a:
@@ Linha 252: / Linha 252: @@
 <math>w=1/(\Delta y)^2</math>
-:<math>\Rightarrow \Delta = w^2 (N[X^2] - [X]^2)= (w N \sigma)^2</math>
+:<math>\Rightarrow \Delta = w^2 (N[x^2] - [x]^2)= (w N \sigma)^2</math>
 onde <math>\sigma^2 = <x^2> - <x>^2</math>
@@ Linha 266: / Linha 266: @@
 * E erro das medidas (<math>\Delta y</math>) que deve ser minimizado, porem está geralmente limitado pelo instrumento utililizado
 * O número de medidas <math>N</math>, quanto maior, melhor, porem vemos que o erro dos coeficientes diminui com a raiz dele
-* Por último, a dispersão da viariável dependente x (<math>\sigma</math>) também, quanto maior, melhor
+* Por último, a dispersão da viariável independente x (<math>\sigma</math>) também, quanto maior, melhor
 Por último, consideremos o caso mais simples, ajuste sem ponderar e sem informação sobre <math>\Delta y</math>, apenas <math>N</math> pares de dados {<math>{x_i, y_i}</math>}.

Mínimos Quadrados: mudanças entre as edições

Edição atual tal como às 14h22min de 27 de julho de 2021

Índice

Equação linear

Equação quadrática

Polinômio de grau n

Outros tipos de funções

Exponencial 1

Exponencial 2

Algébrica

Código FORTRAN

Ajuste ponderado

Erro dos coeficientes

Menu de navegação

Mínimos Quadrados: mudanças entre as edições

Edição atual tal como às 14h22min de 27 de julho de 2021

Equação linear

Equação quadrática

Polinômio de grau n

Outros tipos de funções

Exponencial 1

Exponencial 2

Algébrica

Código FORTRAN

Ajuste ponderado

Erro dos coeficientes

Menu de navegação

Pesquisa