Métodos numéricos

martes, 5 de mayo de 2020

Solución de ecuaciones

Los métodos numéricos para ecuaciones diferenciales ordinarias son procedimientos utilizados para encontrar aproximaciones numericas a las soluciones de ecuaciones diferenciales ordinarias (EDO). Su uso también se conoce como integración numérica, aunque este término a veces se toma para significar el cálculo de una integración.

Muchas ecuaciones diferenciales no pueden resolverse usando funciones típicas ("análisis"). Sin embargo, a efectos prácticos, como en ingeniería, una aproximación numérica a la solución suele ser suficiente. Los algoritmos estudiados aquí pueden usarse para calcular tal aproximación. Un método alternativo es utilizar técnicas de cálculo infinitesimal para obtener una expansión en serie de la solución.

Las ecuaciones diferenciales ordinarias se presentan en muchas disciplinas científicas, por ejemplo, en física, química, biología y economía. Además, algunos métodos en ecuaciones diferenciales parciales numéricas convierten una ecuación diferencial parcial en una ecuación diferencial ordinaria, que luego debe resolverse

6.1 Métodos de un paso.
Los métodos de un paso tienen por objetivo obtener una aproximación de la solución de un problema bien planteado de valor inicial en cada punto de la malla, basándose en el resultado obtenido para el punto anterior.

Método de Euler:

Desde cualquier punto de una curva, se puede encontrar una aproximación de otro punto cercano en la curva moviéndose una corta distancia sobre una línea tangente a la curva.

Comenzando con la ecuación diferencial (1), se reemplaza la derivada y' por la aproximación respecto a una diferencia finita

y'(t)\approx {\frac {y(t+h)-y(t)}{h}},\qquad \qquad (2)

que cuando se reorganiza produce la siguiente fórmula

y(t+h)\approx y(t)+hy'(t)\qquad \qquad

y usando (1) da:

y(t+h)\approx y(t)+hf(t,y(t)).\qquad \qquad (3)

Esta fórmula generalmente se aplica de la manera que se explica a continuación.

Se elige el tamaño de paso h y se construye la secuencia t₀, t₁ = t₀ + h, t₂ = t₀ + 2h, ... Denotando por y_n una estimación numérica de la solución exacta y(t_n).

De acuerdo con (3), se calculan estas estimaciones mediante el siguiente esquema recursivo:

y_{n+1}=y_{n}+hf(t_{n},y_{n}).\qquad \qquad (4)

Este es el método de Euler (en contraste con el método de Euler hacia atrás, que se describe a continuación). El método lleva el nombre de Leonhard Euler que lo describió en 1768.

Es un ejemplo de un método explícito. Esto significa que el nuevo valor y_n+1 se define en términos de datos que ya se conocen, como y_n.

Método de Taylor:

El método de las series de Taylor para obtener soluciones numéricas de las ecuaciones diferenciales, consiste en calcular las derivadas sucesivas de la ecuación diferencial dada, evaluando las derivadas en el punto inicial 0 x y reemplazando el resultado en la serie de Taylor. La principal dificultad de este método es el cálculo recurrente de las derivadas de orden superior.

Métodos de Runge Kutta:

Los métodos de Runge-Kutta son una serie de métodos numéricos para resolver ecuandiones ddiferenciales (o bien sistemas de ecuaciones difereneciales).

Son métodos numéticos en los cuales para avanzar al paso siguiente, solo es necesario la información del paso inmediatamente anterior, es decir para avanzar al paso n+1 solo es necesario la información sobre el paso n. O más formalmente

x_{n + 1} = x_{n} + F (x_{n}, t_{n}, h)

x_{0} = x (0)

donde

x_{n}

es un vector de Rn,

t_{n}

>es la variable (real) independiente, h el tamaño del paso, y F es una función vectorial de xn, tn, h, es decir

F : R^{n + 2} \mapsto R

Obsérvar que este es en realidad un sistema de ecuaciones.

Hay otros métodos llamados multipaso, en los que pasa avanzar al paso siguiente son necesarios dos o más pasos anteriores no los trataremos aquí. También hay otros métodos no lineales, tampoco los discutiremos aquí

Teoría en extensión

Los métodos de Runge-Kutta methods son un caso particular (o una especialización) de los métodos numéricos a un paso. Lo que caracteriza a un método de Runge-Kutta es que el error tiene la forma

E_{i} = C h^{k}

Donde C es una constante real positiva, el número k es llamado orden del método

El número de etapas del método Runge-Kutta es el número de veces que se evalúa la función en cada paso i, este concepto es importante porque la evaluación de la función requiere un costo computacional (a veces mayor) por eso, son preferidos métodos con un número tan mínimo de etapas como sea posible

6.2 Método de pasos múltiples.

Los métodos de un paso descritos en las secciones anteriores utilizan información en un solo punto xi para predecir un valor de la variable dependiente yi+1 en un punto futuro xi+1. Procedimientos alternativos, llamados métodos multipaso, se basan en el conocimiento de que una vez empezado el cálculo, se tiene información valiosa de los puntos anteriores y esta a nuestra disposición. La curvatura de las líneas que conectan esos valores previos proporciona información con respecto a la trayectoria de la solución. Los métodos multipaso que exploraremos aprovechan esta información para resolver las EDO. Antes de describir las versiones de orden superior, presentaremos un método simple de segundo orden que sirve para demostrar las características generales de los procedimientos multipaso.

Observe la ecuación ec. 2 alcanza ) a expensas de emplear un tamaño de paso mas grande, 2h. Además, observe que la ecuación ec. 1 no es de autoinicio, ya que involucra un valor previo de la variable dependiente yi-1. Tal valor podria no estar disponible en un problema común de valor inicial. A causa de ello, las ecuaciones 26.11 y 26.12 son llamadas método de Heun de no autoinició.

Como se ilustra en la figura 26.4, la derivada estimada de la ecuación 26.12 se localiza ahora en el punto medio mas que al inicio del intervalo sobre el cual se hace la predicción. Como se demostrara después, esta ubicación centrada mejora el error del predictor a Sin embargo, antes de proceder a una deducción formal del método de Heun de no autoinicio, resumiremos el método y lo expresaremos usando una nomenclatura ligeramente modificada:

6.3 Sistemas de ecuaciones diferenciales ordinarias :

En la primera parte desarrollaremos el estudio de las llamadas ecuaciones diferenciales ordinarias (EDO) en las que x es una variable escalar, aunque u puede ser un vector. El orden de una ecuación es el de la derivada que lo tiene máximo. Así por ejemplo, la ecuación:

y' = y

es una ecuación de primer orden en la que la función incógnita es y, la variable independiente es x, que no aparece en la ecuación, y donde:

y' = dy/ dx

El teorema fundamental del c´alculo permite obtener la soluci´on de ecuaciones diferenciales que se encuentran reducidas a cuadraturas, es decir aquellas como: y' = f(x)

en las que todas las soluciones son simplemente: y(x) = f + C donde el signo integral se refiere a la integral indefinida de f y C es una constante arbitraria. Sin embargo, en el ejemplo anterior, y'= y, la soluci´on no es tan trivial. De hecho, se puede interpretar esa ecuaci´on, junto con una condici´on adecuada, como la definici´on de la funci´on exponencial. En efecto, si se supone que se busca una soluci´on que verifique y(0) = 1, se encuentra como ´unica soluci´on:

y(x) = ex.

Todas las soluciones de esta ecuaci´on tienen la forma: y(x) = Cex

A diferencia de las ecuaciones diferenciales estudiadas en los temas anteriores, consideremos ahora la situaci´on en la que disponemos de una variable independiente t y dos o m´as variables dependientes: x = x(t), y = y(t), . . .. En el caso de simplemente dos variables dependientes, y denotando x 0 = dx dt , y 0 = dy dt , un sistema de ecuaciones diferenciales ordinarias de primer orden ser´a un sistema de la forma:

x 0 (t) = f(x, y, t) y 0 (t) = g(x, y, t) )

En este sistema (6.1) aparecen despejadas las derivadas primeras, cada una de ellas en una ecuaci´on, denominaremos a esta situaci´on como forma normal de escribir el sistema (a semejanza de la forma normal para simplemente una ecuaci´on). Para el caso general, con ecuaciones de orden superior al primero, tendremos que un sistema de dos ecuaciones diferenciales ordinarias es toda pareja de ecuaciones de la forma:

6.4 Aplicaciones :

En distintas ramas de la ingeniería se han encontrado aplicaciones de los sistemas de ecuaciones lineales, además de que han abarcado innumerables áreas como la economía y manufactura, por mencionar algunas.

Un sistema de ecuaciones lineales puede utilizarse para representar problemas del mundo real. Cuando hay dos variables y le dan dos datos acerca de cómo se relacionan esas variables, se utiliza un sistema de ecuaciones.

Algunos ejemplos de las aplicaciones de los sistemas de ecuaciones diferenciales son:

º Fracciones parciales

º Determinación de curvas

º Balanceo de reacciones químicas

º Aplicaciones a manufactura

º Transferencia de calor

º Splines Cúbicos

º Problemas de construcción

º Diseño

º Software

º Problemas de circuitos eléctricos (Kirchhoff )

Una técnica muy conveniente utilizada en algunas tareas matemáticas es aquella conocida como fracciones parciales. Esta se aplica para simplificar integrales o transformadas de Laplace, por citar algunos ejemplos. La ´ idea principal consiste en cambiar la forma que puede ser expresado un cociente entre polinomios a otra forma m´as conveniente para cierto tipo de calculo.

Una aplicación sencilla de los sistemas de ecuaciones se da en el balanceo de reacciones químicas. La problemática consiste en determinar el numero entero de moléculas que intervienen en una reacción química cuidando siempre que el numero de átomos de cada sustancia se preserve.

Interpolacion y ajuste de funciones

La interpolación consiste en hallar un dato de un intervalo en el que conocemos los valores en los extremos.

El problema general de la interpolación se nos presenta cuando se nos da n una función de la cual sólo conocemos una serie de puntos de la misma:

(X0,Y0), (X1,Y2), ….. (Xn,Yn).

Se pide hallar el valor de un punto x (intermedio de X0 y Xn) de esta función.
La interpolación se dará lineal cuando solo se tomen dos puntos y cuadrática cuando se tomen tres.

INTERPOLACIÓN LINEAL

Cuando las variaciones de la función son proporcionales (o casi proporcionales) a los de la variable independiente se puede admitir que dicha función es lineal y usar para estimar los valores de la interpolación lineal

Y- Y0 = (Y1-Y0)/(X1-Xo) (x – x0)

Sean dos puntos (X0 , Y0) (X1; Y2) la interpolación lineal consiste en hallar una estigmación del valor Y, para un valor X tal que X0 < X < X1.
Obtenemos la fórmula de la interpolación lineal

Y- Y0 = (Y1-Y0)/(X1-Xo) (x – x0)

INTERPOLACION CUADRATICA

Cuando el polinomio que conviene es de 2do grado la interpolación recibe el nombre de cuadrática. El polinomio interpolar es único, luego como se encuentre da igual, sin embargo, a veces los cálculos son muy laboriosos y es preferible utilizar un método que otro.

A la vista de los datos se decide.

En el ejemplo 1 se da el método de resolver el sistema para encontrar los valores que determinan a la función cuadrática (a, b y c)

También podemos utilizar la expresión del polinomio interpolado así:

Y= a+ b(x-x0) + c (x – x0) (x – x1), con la que la búsqueda de los coeficientes es muy sencilla.

LaGrange (1736 – 1813) dio una manera simplificada de calcular los polinomios interpolares de grado n, para el caso de un polinomio de 2do grado que pasas por esos puntos.

Que es la última fórmula de LaGrange para n = 2.

Ejemplo

Determinar la función lineal de interpolación que pasa por los puntos (-1,0), (4,2). Interpola el valor =1
Tenemos los puntos:
P (X0, Y0)= (-1,0)
Q (X1, Y1)= (4,2)

Obtenemos la función de interpolación lineal:

F(x)=0+ (2-0)/(4-(-1)) (x-(-1))= 2/5 (x+1) = 2/5 x + 2/5

Interpolando a=1 obtenemos: f(1)= 2⁄5 + 2⁄5 = 4⁄5

Ejemplo

Calcula la recta que pasa por los puntos A (-3,2) y B (3,4). Interpola el valor de la función x=2

Hallamos la pendiente tomando, por ejemplo, los puntos A y B:
(X0, Y0)= A (-3, -2)
(X1, Y1)= B (3, 4)

Obtenemos la función de interpolación lineal:
F(x)= -2+ (4-(-2))/(3-(-3)) (x-(-3))= -2+(x+3)=x+1
Interpolando x=2, obtendremos:
F (2)= 2+1=3

Ejemplo

Determinar la función cuadrática de interpolación que pasa por los puntos (0, -3), (1,0), (3, 0). Interpolar el valor a=2

Tenemos los puntos:
(X0, Y0)= (0, -3)
(X1, Y1)= (1, 0)
(X2, Y2)= (3,0)

Resolvemos el sistema de ecuaciones:

Luego la función de interpolación es: y= -x^2+ 4x -3

Interpolando a=2, obtendremos: y= -2^2+4.2-3= 1

5.1 Polinomio de interpolación de Newton.

Es un método de interpolación polinómica. Aunque sólo existe un único polinomio que interpola una serie de puntos, existen diferentes formas de calcularlo. Este método es útil para situaciones que requieran un número bajo de puntos para interpolar, ya que a medida que crece el número de puntos, también lo hace el grado del polinomio.

Existen ciertas ventajas en el uso de este polinomio respecto al polinomio interpolador de Lagrange. Por ejemplo, si fuese necesario añadir algún nuevo punto o nodo a la función, tan sólo habría que calcular este último punto, dada la relación de recurrencia existente y demostrada anteriormente.

El primer paso para hallar la fórmula de la interpolación es definir la pendiente de orden

n

de manera recursiva:

$f_{0}(x_{i})$ : término i-ésimo de la secuencia
$f_{1}(x_{0},x_{1})={\frac {f_{0}(x_{1})-f_{0}(x_{0})}{x_{1}-x_{0}}}$
$f_{2}(x_{0},x_{1},x_{2})={\frac {f_{1}(x_{1},x_{2})-f_{1}(x_{0},x_{1})}{x_{2}-x_{0}}}$

En general:

f_{i}(x_{0},x_{1},\ldots ,x_{i-1},x_{i})={\frac {f_{i-1}(x_{1},\ldots ,x_{i-1},x_{i})-f_{i-1}(x_{0},x_{1},\ldots ,x_{i-1})}{x_{i}-x_{0}}}

donde

x_{i}-x_{j}

representa la distancia entre dos elementos (por ejemplo, se puede tener el elemento en

x=3

x=5

pero desconocer el valor de la secuencia en

x=4

Puede apreciarse cómo en la definición general se usa la pendiente del paso anterior,

f_{i-1}(x_{1},\ldots ,x_{i-1},x_{i})

, a la cual se le resta la pendiente previa de mismo orden, es decir, el subíndice de los términos se decrementa en

1

, como si se desplazara, para obtener

f_{i-1}(x_{0},x_{1},\ldots ,x_{i-1})

Nótese también que aunque el término inicial siempre es

x_{0}

, este puede ser en realidad cualquier otro, por ejemplo, se puede definir

f_{1}(x_{i-1},x_{i})

de manera análoga al caso mostrado arriba.

Una vez conocemos la pendiente, ya es posible definir el polinomio de grado

n

de manera también recursiva:

$p_{0}(x)=f_{0}(x_{0})=x_{0}$ . Se define así ya que este valor es el único que se ajusta a la secuencia original para el primer término.
$p_{1}(x)=p_{0}(x)+f_{1}(x_{0},x_{1})*(x-x_{0})$ .¹
$p_{2}(x)=p_{1}(x)+f_{2}(x_{0},x_{1},x_{2})*(x-x_{0})*(x-x_{1})$ .

En general:

p_{i}(x)=p_{i-1}(x)+f_{i}(x_{0},x_{1},\ldots ,x_{i-1},x_{i})\prod _{j=0}^{i-1}(x-x_{j})

5.2 Polinomio de interpolación de Lagrange.

En análisis numérico, el polinomio de Lagrange, llamado así en honor a Joseph-Louis de Lagrange, es una forma de presentar el polinomio que interpola un conjunto de puntos dado. Lagrange publicó este resultado en 1795, pero lo descubrió Edward Waring en 1779 y fue redescubierto más tarde por Leonhard Euler en 1783.¹ Dado que existe un único polinomio interpolador para un determinado conjunto de puntos, resulta algo engañoso llamar a este polinomio el polinomio interpolador de Lagrange. Un nombre más apropiado es interpolación polinómica en la forma de Lagrange.

Un polinomio de interpolación de Lagrange, p, se define en la forma:

\begin{displaymath}p(x) = y_{0}\ell_{0}(x) + y_{1}\ell_{1}(x) + \cdots + y_{n}\ell_{n}(x) = \sum_{k=0}^{n} y_{k}\ell_{k}(x) \end{displaymath}

en donde $\ell_{0}, \ell_{1}, \dots, \ell_{n}$ son polinomios que dependen sólo de los nodos tabulados $x_{0},x_{1},\dots,x_{n}$ , pero no de las ordenadas $y_{0},y_{1},\dots,y_{n}$ . La fórmula general del polinomio $\ell_{i}$ es:

$\begin{displaymath}\ell_{i}(x) = \prod_{j=0, j \neq i}^{n} \frac{x-x_{j}}{x_{i}-x_{j}} \end{displaymath}$

Para el conjunto de nodos $x_{0},x_{1},\dots,x_{n}$ , estos polinomios son conocidos como funciones cardinales. Utilizando estos polinomios en la ecuación (68) obtenemos la forma exacta del polinomio de interpolación de Lagrange.

Ejemplo: Suponga la siguiente tabla de datos:

x	5	-7	-6	0
y	1	-23	-54	-954

Construya las funciones cardinales para el conjunto de nodos dado y el polinomio de interpolación de Lagrange correspondiente.

Las funciones cardinales, empleando la expresión (69), resultan ser:

$\begin{displaymath}\begin{array}{ll} \ell_{0}(x) = \frac{(x+7)(x+6)x}{(5+7)(5+6... ...l_{3}(x) = \frac{(x-5)(x+7)(x+6)}{(0-5)(0+7)(0+6)} \end{array}\end{displaymath}$

El polinomio de interpolación de Lagrange es:

$\begin{displaymath}p_{3}(x) = \ell_{0}(x) -23\ell_{1}(x) - 54\ell_{2}(x) - 954\ell_{3}(x) \end{displaymath}$

5.3 Interpolación segmentada.

Esta interpolación se llama interpolación segmentaria o interpolación por splines. La idea central es que en vez de usar un solo polinomio para interpolar los datos, podemos usar segmentos de polinomios y unirlos adecuadamente para formar nuestra interpolación.

Cabe mencionar que entre todas, las splines cúbicas han resultado ser las más adecuadas para aplicaciones como la mencionada anteriormente.

Así pues, podemos decir de manera informal, que una funcion spline está formada por varios polinomios, cada uno definido en un intervalo y que se unen entre si bajo ciertas condiciones de continuidad.

Interpolación Segmentaria Lineal

Este es el caso más sencillo. En él, vamos a interpolar una función f(x) de la que se nos dan un número N de pares (x,f(x)) por los que tendrá que pasar nuestra función polinómica P(x). Esta serie de funciones nuestras van a ser lineales, esto es, con grado 1: de la forma P(x) = ax + b.

Definiremos una de estas funciones por cada par de puntos adyacentes, hasta un total de (N-1) funciones, haciéndolas pasar obligatoriamente por los puntos que van a determinarlas, es decir, la función P(x) será el conjunto de segmentos que unen nodos consecutivos; es por ello que nuestra función será continua en dichos puntos, pero no derivable en general.

Interpolación Segmentaria Cuadrática

En este caso, los polinomios P(x) a través de los que construimos el Spline tienen grado 2. Esto quiere decir, que va a tener la forma P(x) = ax² + bx + c

Como en la interpolación segmentaria lineal, vamos a tener N-1 ecuaciones (donde N son los puntos sobre los que se define la función). La interpolación cuadrática nos va a asegurar que la función que nosotros generemos a trozos con

los distintos P(x) va a ser continua, ya que para sacar las condiciones que ajusten el polinomio, vamos a determinar como condiciones:

Que las partes de la función a trozos P(x) pasen por ese punto. Es decir, que las dos Pn(x) que rodean al f(x) que queremos aproximar, sean igual a f(x) en cada uno de estos puntos.

Que la derivada en un punto siempre coincida para ambos "lados" de la función definida a trozos que pasa por tal punto común.

Esto sin embargo no es suficiente, y necesitamos una condición más. ¿Por qué?. Tenemos 3 incógnitas por cada P(x). En un caso sencillo con f(x) definida en tres puntos y dos ecuaciones P(x) para aproximarla, vamos a tener seis incógnitas en total. Para resolver esto necesitaríamos seis ecuaciones, pero vamos a tener tan sólo cinco: cuatro que igualan el P(x) con el valor de f(x) en ese punto (dos por cada intervalo), y la quinta al igualar la derivada en el punto común a las dos P(x).

Se necesita una sexta ecuación,¿de dónde se extrae? Esto suele hacerse con el valor de la derivada en algún punto, al que se fuerza uno de los P(x).

Interpolación Segmentaria Cúbica

En este caso, cada polinomio P(x) a través del que construimos los Splines en [m,n] tiene grado 3. Esto quiere decir, que va a tener la forma P(x) = ax³ + bx² + cx

+ d

En este caso vamos a tener cuatro variables por cada intervalo (a,b,c,d), y una nueva condición para cada punto común a dos intervalos, respecto a la derivada segunda:

Que las partes de la función a trozos P(x) pasen por ese punto. Es decir, que las dos Pn(x) que rodean al f(x) que queremos aproximar, sean igual a f(x) en cada uno de estos puntos.

Que la derivada en un punto siempre coincida para ambos "lados" de la función definida a trozos que pasa por tal punto común.

Que la derivada segunda en un punto siempre coincida para ambos "lados" de la función definida a trozos que pasa por tal punto común.

Como puede deducirse al compararlo con el caso de splines cuadráticos, ahora no nos va a faltar una sino dos ecuaciones (condiciones) para el número de incógnitas que tenemos.

La forma de solucionar esto, determina el carácter de los splines cúbicos. Así, podemos usar:

Splines cúbicos naturales: La forma más típica. La derivada segunda de P se hace 0 para el primer y último punto sobre el que está definido el conjunto de Splines, esto son, los puntos m y n en el intervalo [m,n].

Dar los valores de la derivada segunda de m y n de forma "manual", en el conjunto de splines definidos en el intervalo [m,n].

Hacer iguales los valores de la derivada segunda de m y n en el conjunto de splines definidos en el intervalo [m,n].

5.4 Regresión y correlación

Partimos de una distribución bidimensional (Xi Yj, nij) en la que vamos a seguir avanzando estudiando las relaciones entre X e Y→ nos movemos en el campo de la dependencia estadística entre las variables. Para continuar el estudio nos encontramos con el problema del AJUSTE: nos enfrentamos a una “nube de puntos” dada por la representación gráfica en unos ejes de coordenadas de los pares de valores de las 2 variable y buscamos la ecuación que mejor se adapte al conjunto de puntos (obtención de la ecuación de una curva que pase cerca de los puntos dados), imponiéndole determinadas condiciones.

Por tanto en el ajuste habrá dos fases:

1.- Seleccionar el tipo de función que mejor se adapte –gráficamente- al conjunto de datos disponibles, es decir, que mejor represente la relación entre X e Y. La información es la nube de puntos→ útil la representación como primera orientación.

2.- Fijado el tipo de función, a través de su ecuación con un cierto número de parámetros, determinar cuál de las funciones que hay en el plano se adapta mejor al conjunto de puntos (que mejor se ajuste a la nube de puntos de la función).

La determinación de la mejor curva (búsqueda de los parámetros) se consigue imponiendo una serie de condiciones. Según cuáles sean estas condiciones de búsqueda, tendremos uno de los distintos métodos de ajuste existentes.

El principal método de ajuste utilizado (y único que veremos) es el método de NEYMAN o de los MÍNIMOS CUADRADOS.

MÉTODO DE LOS MÍNIMOS CUADRADOS.

De nuestra distribución bidimensional (Xi Yj, nij) representada en una nube de puntos→ dados los puntos (X1 Y1), (X2 Y2)…. (Xi Yj)…. (Xh Yk), se elige una determinada función de ajuste dada por la expresión siguiente: Y = f(X, a1, a2, … , an) en la que intervienen n parámetros.

Considerando la nube de puntos, al ajustar una función, para cada valor de X=Xi tendremos dos valores de Y:

· El valor observado Yj correspondiente a la nube de puntos (Xi Yj)

· El valor teórico Ytj resultado de hacer X=Xi en la función :Ytj = f(Xi;a1…an) = Yj*

Por tanto, para cada Xi, tendremos la diferencia entre los 2 valores de Y Yj y Ytj, que llamamos RESIDUO = ej→ej = Yj-Ytj (diferencia entre Y observado y teórico).

El método de los mínimos cuadrados consiste en la determinación numérica de los parámetros (a1…an) de tal manera que los residuos sean mínimos.

min ∑∑ (Yj – Ytj) nij = min ej

Si tomamos la suma de todos los residuos, se nos presenta el inconveniente de que unos residuos serán de signo positivo y otros de signo negativo, con lo que residuos de distinto signo al sumar se pueden compensar y la suma mínima podría ocultar residuos de cierta importancia a ambos lados de la curva ajustada. Para evitar que los residuos se anulen entre sí, se deberá hacer mínimo la siguiente expresión:

∅ = ∑ ∑(𝑦_𝑗 − 𝑦_𝑡_𝑗) 𝑛_𝑖𝑗 = ∑ ∑ (𝑦_𝑗 − 𝑓 𝑥_𝑖; 𝑎₁𝑎₂ … 𝑎_𝑛 ) 𝑛_𝑖𝑗

𝑖 𝑗 𝑖 𝑗

Al ser los valores teóricos los obtenidos a partir de la función ajustada.

Para hallar de forma única los parámetros a1…an que minimizan ∅, la condición necesaria es que las primeras derivadas parciales respecto a cada uno de los parámetros se anulen.

𝜕𝑎

^𝜕^∅ = 2 ∑_𝑖 ∑_𝑗 (𝑦_𝑗 − 𝑓(𝑥_𝑖; 𝑎₁𝑎₂ … 𝑎_𝑛))

𝜕𝑎

^𝜕^∅ = 2 ∑_𝑖 ∑_𝑗 (𝑦_𝑗 − 𝑓(𝑥_𝑖; 𝑎₁𝑎₂ … 𝑎_𝑛))

𝑛_𝑖_𝑗(-f’a1) = 0

𝑛_𝑖_𝑗(-f’a2) = 0

𝜕∅

𝜕𝑎𝑛 = 2 ∑_𝑖 ∑_𝑗 (𝑦_𝑗 − 𝑓(𝑥_𝑖; 𝑎₁𝑎₂ … 𝑎_𝑛))

𝑛_𝑖_𝑗(-f’an) = 0

Resolviendo este sistema de ECUACIONES NORMALES queda determinada la función correspondiente y los parámetros.

RESUMEN AJUSTE MÍNIMO CUADRÁTICO:

· Se elige una función de ajuste y=f(x, a1 , a2 ,…, an), donde intervienen n parámetros (a1 , a2 ,…, an),.

· Tenemos que y=f(x, a1 , a2 ,…, an) es el valor observado, e y*=f(xi, a1 , a2 ,…, an)

es el valor teórico que se obtiene a partir de la curva ajustada.

· Siendo (y-y*)=e (residuo o error).

· El objetivo es minimizar la suma de los residuos al cuadrado

para obtener los n parámetros (a1 , a2 ,…, an).

TIPOS DE AJUSTE

o Ajuste a una recta: y=a+bx (los resultados son los de regresión lineal).

o Ajuste a una parábola: y=a+bx+cx2

o Ajuste hiperbólico: y=a+b(1/x) (se utiliza z=(1/x) y se aplica regresión lineal).

o Ajuste potencial: y=axb (tomando log en la ecuación, entonces se aplica un ajuste lineal y se obtienen los resultados aplicando a los parámetros el antilog).

o Ajuste exponencial: y=abx (tomando log en la ecuación, entonces se aplica un ajuste lineal y se obtienen los resultados aplicando a los parámetros el antilog).

El fin es encontrar relaciones entre las variables (sucesos a investigar). El investigador intenta traducir esas relaciones en estructuras más manejables, es decir, intenta modelizar esas relaciones funcionalmente a través de un análisis fundamentalmente estadístico (establece relaciones funcionales en donde un número finito de variables X1,…., Xk se supone que están relacionadas con una variable Y a través de la expresión Y=f(X1….Xk).

Desde este punto de partida, hay 2 enfoques con que abordar simultáneamente este tema:

1.- Teoría de la CORRELACIÓN (apartado 5.3): estudia el grado de dependencia existente entre las variables.

2.- REGRESIÓN: busca determinar la estructura de dependencia – modelización- que mejor explique el comportamiento de la variable Y (variable DEPENDIENTE o EXPLICADA) en función del conjunto de variables X1....Xk (variables INDEPENDIENTES O EXPLICATIVAS), con las que se supone está relacionada.

Sean X e Y 2 variables cuya distribución conjunta de frecuencias (Xi Yj, nij). Llamamos Regresión de Y sobre X: a la función que explica la variable y para cada valor de X , Y=f(X)

Regresión de X sobre Y: comportamiento de X para cada valor de Y X=f(Y)

Para la determinación de las funciones de regresión hay dos criterios diferentes: Regresión I y Regresión II.

REGRESIÓN I:

REGRESIÓN I DE Y SOBRE X:

Considerando la nube de puntos, si nos preguntásemos cual sería el valor de Y para X=Xi, existirían varios valores, consideraríamos que sería la media de las Y cuya X sea X1, es decir, la media de las Yj cuya abscisa sea X1 (que no es otra cosa que la media de Y condicionada a que X tome el valor X1, es decir asigna para cada Xi, un Yj correspondiente a la media de Y condicionada a X=Xi. Los puntos aparecen unidos por una línea para indicarnos que son puntos que pertenecen a una misma regresión.

REGRESIÓN I DE X SOBRE Y: Asigna para cada Yj, un Xti correspondiente a la media de los Xi condicionados a Y=Yj.

El principal problema de la Regresión I es que está siempre unida por un conjunto de puntos, y no por una curva continua, lo cual lo hace poco deseable para nuestro fin fundamental (explicar una variable a través del comportamiento de la otra). De ahí que se utilice de manera general el criterio de Regresión tipo II.

REGRESIÓN II: por ajuste mínimo-cuadrático:

Base: a través de la información suministrada, cuya representación gráfica es la nube de puntos, 1) se selecciona un tipo de función y posteriormente 2) se ajusta la mejor función de la familia seleccionada aplicando el método mínimo-cuadrático, es decir minimizando los residuos al cuadrado.

𝑗

Regresión II de Y sobre X: Se trata de minimizar

COEFICIENTES REGRESION:

Los coeficientes de regresión lineal son las pendientes de las rectas de regresión de Y sobre X.

Δ𝑥

b=Sxy/S²x 𝑏 = tg 𝛼 = Δ𝑦

El coeficiente de regresión de Y/X nos mide la tasa de incremento de Y para variaciones de x, es decir b indica la variación de la variable Y para un incremento unitario de X.

Análogamente, el coeficiente de regresión de X sobre Y será b´=Sxy/S²y

𝑏´ = ^Δ^x

Δy

→variación de x correspondiente a un incremento unitario de Y.

Tanto el signo de b como el de b´será el signo de la covarianza.

Si Sxy es positiva→b y b´serán positivos y sus correspondientes rectas de regresión positivas.

Si Sxy es negativa→las 2 rectas de regresión serán decrecientes al serlo sus pendientes.

Si Sxy es cero→ b y b´=0, es decir las rectas de regresión serán paralelas a los ejes de coordenadas (y por tanto, perpendiculares entre sí). Resumiendo:

Los coeficientes de regresión a y b tienen la siguiente interpretación:

§ El coeficiente “a” es la ordenada en el origen.

§ El coeficiente “b” es la tangente, y mide el incremento en Y ante incrementos unitarios en X.

Correlación

Se llama correlación al grado de dependencia mutua entre las variables. El problema que se plantea será la medición de la intensidad con que dos variables pueden estar relacionadas. Para ello recordemos que a través de la función de ajuste (curva de regresión) expresábamos la estructura de la relación existente entre las variables y que para cada valor de Xi obteníamos una diferencia llamada residuo, entre el valor de Y en la nube de puntos y el correspondiente valor teórico obtenido en la función.

Si todos los puntos de la nube estuvieran en la función, la dependencia sería funcional, y el grado de dependencia sería el máximo posible. Cuanto más se alejen los puntos de la función (mayores serán los residuos) iremos perdiendo intensidad en la asociación. Esto nos indica a utilizar los residuos para medir la dependencia y definimos la varianza residual como la media de todos los residuos elevados al cuadrado para evitar que se compensen los residuos.

5.5 Mínimos cuadrados

El método de mínimos cuadrados sirve para interpolar valores, dicho en otras palabras, se usa para buscar valores desconocidos usando como referencia otras muestras del mismo evento.

El método consiste en acercar una línea o una curva, según se escoja, lo más posible a los puntos determinados por la coordenadas [x, f(x)], que normalmente corresponden a muestras de algún experimento.

Cabe aclarar que este método, aunque es sencillo de implantar no es del todo preciso, pero si proporciona una interpolación aceptable.

Como se comento previamente se puede usar una recta o una curva como base para calcular nuevos valores.

Sea ${\{(x_k,y_k)\}}_{k=1}^n$ un conjunto de n pares con abscisas distintas, y sea ${\{f_j (x)\}}_{j=1}^m$ un conjunto de m funciones linealmente independientes (en un espacio vectorial de funciones), que se llamarán funciones base. Se desea encontrar una función $f(x)$ de dicho espacio, o sea, combinación lineal de las funciones base, tomando por ello la forma:

$f(x)=c_1 f_1 (x)+ c_2 f_2(x)+ . . . + c_m f_m (x) =\sum_{j=1}^m {c_j f_j (x)}$ .
Ello equivale por tanto a hallar los m coeficientes: ${\{c_j (x)\}}_{j=1}^m$ . En concreto, se desea que tal función $f(x)$ sea la mejor aproximación a los n pares ${(x_k,y_k)}_1^n$ empleando, como criterio de "mejor", el criterio del mínimo error cuadrático medio de la función $f(x)$ con respecto a los puntos ${(x_k,y_k)}_1^n$ .

El error cuadrático medio será para tal caso:

$E_{cm} = \sqrt{\frac{\sum_{k = 1}^n (e_k)^2}{n}}=\sqrt{\frac{1}{n} \sum_{k=1}^n (y_k-f(x_k))^2}=\sqrt{\frac{1}{n} \sum_{k=1}^n (y_k-\sum_{j=1}^m c_j f_j(x_k))^2}$

Minimizar el error cuadrático medio es equivalente a minimizar el error cuadrático, definido como el radicando del error cuadrático medio, esto es:

$E_c= \sum_{k=1}^n (y_k-\sum_{j=1}^m c_j f_j(x_k))^2$

Así, los $c_j$ que minimizan $E_{cm}$ también minimizan $E_c$ , y podrán ser calculados derivando e igualando a cero este último:

$\frac{\partial E_c}{\partial c_i}=\sum_{k=1}^n 2(y_k-\sum_{j=1}^m c_j f_j(x_k))(-f_i(x_k))=0$ Siendo i=1, 2, . . ., m

Se obtiene un sistema de m ecuaciones con m incógnitas, que recibe el nombre de "Ecuaciones Normales de Gauss". Operando con ellas:

$\sum_{k=1}^n(\sum_{j=1}^m c_j f_j(x_k) )f_i(x_k) = \sum_{k=1}^n y_k f_i(x_k)$ para i=1, 2, . . ., m

$\sum_{j=1}^m (\sum_{k=1}^n f_i(x_k) f_j (x_k) )c_j = \sum_{k=1}^n y_k f_i(x_k)$ para i=1, 2, . . ., m

Si se desarrolla la suma, se visualiza la ecuación "i-ésima" del sistema de m ecuaciones normales:

$(\sum_{k=1}^n f_i(x_k) f_1 (x_k))c_1+(\sum_{k=1}^n f_i(x_k) f_2 (x_k) )c_2+ . . . + (\sum_{k=1}^n f_i(x_k) f_m (x_k)) c_m =\sum_{k=1}^n y_k f_i(x_k)$

para cada i=1, 2, . . ., m

Lo cual, en forma matricial, se expresa como:

$\begin{bmatrix} {(f_1,f_1)}_d & {(f_1,f_2)}_d & ... & {(f_1,f_m)}_d \\ {(f_2,f_1)}_d & {(f_2,f_2)}_d & ... & {(f_2,f_m)}_d \\ ... & ... & ... & ... \\ {(f_m,f_1)}_d & {(f_m,f_2)}_d & ... & {(f_m,f_m)}_d \end{bmatrix}\begin{bmatrix} c_1\\ c_2\\ ...\\ c_m \end{bmatrix}=\begin{bmatrix} {(f_1,y)}_d\\ {(f_2,y)}_d\\ ...\\ {(f_m,y)}_d \end{bmatrix}$

Siendo ${(a,b)}_d$ el producto escalar discreto, definido para dos funciones dadas h(x) y g(x) como:

${(h(x),g(x))}_d=\sum_{k=1}^n h(x_k) g(x_k)$
y para una función h(x) y vector cualquiera u, como:

${(h(x),u)}_d=\sum_{k=1}^n h(x_k) u_k$

La resolución de dicho sistema permite obtener, para cualquier base de funciones derivables localmente, la función f(x) que sea mejor aproximación mínimo cuadrática al conjunto de puntos antes mencionado. La solución es óptima –esto es, proporciona la mejor aproximación siguiendo el criterio de mínimo error cuadrático–, puesto que se obtiene al optimizar el problema.

5.6 Problemas de aplicación

Aplicaciones Ingeniería y Diseño (CAD/CAM, CNC’s) Geología Aeronáutica y automoción Economía Procesamiento de señales e imágenes (Reconocimiento de patrones, recuperación de imágenes) Robótica Medicina (Aparatos auditivos, mapas cerebrales) Meteorología (Mapas climáticos, detección de inundaciones,...) Mundo Virtual Distribuido Multiusuario

En el subcampo matemático del análisis numérico, un spline es una curva diferenciable definida en proporciones mediante polinomios.

En los problemas de interpolación, se utiliza a menudo la interpolación mediante splines porque da lugar a los resultados similares requiriendo solamente el uso de polinomios de bajo grado, evitando así las oscilaciones indeseables en la mayoría de las aplicaciones encontradas al interpolar mediante polinomos de grado elevado.

Para el ajuste de curvas, los splines se utilizan para aproximar formas complicadas. La simplicidad de la representación de curvas en informática particularmente en el terreno de las gráficas del ordenado.

Uno de los principales usos de la interpolación ha sido el hallar valores intermedios a los calculados en tablas trigonométricas, o astronómicas. Tal como dice por ejemplo el anuario del observatorio Astronómico de 2003. Muchas tablas de este anuario contienen listas de valores correspondientes a posiciones dadas para instantes de tiempos sucesivos de una duración de un día. Por medio de la interpolación es posible determinar los valores de tales magnitudes para instantes intermedios a los que aparecen en la tabla.