Logo tl.artbmxmagazine.com

Linear regression application sa populasyon gamit ang ekwador

Anonim

Buod

Sa artikulong ito, ang application ng linear regression ay ginamit upang makakuha ng mga equation ng prognostic, na makakatulong sa amin na gumawa ng mga pagtatantya sa isang x quarter o taon, na nagreresulta sa tinatayang bilang ng mga naninirahan na natagpuan (hindi kasama ang mga impormal na gawain), gamit ang ang data na nakuha mula sa 2014 hanggang sa unang quarter ng 2018, ang mga datos na ito ay nakuha mula sa ENEMDU, INEC.

linear-regression-application-populasyon-populasyon-trabaho-ecuador

Mga pangunahing salita: ENEMDU (National Survey of Employment, Un Employment and underemployment.), INEC (National Institute of Statistics and Census), Linear regression.

Abstract

Sa kasalukuyang artikulo, ang application ng linear regression ay ginamit upang makakuha ng mga equation ng forecast, na makakatulong sa amin upang makagawa ng mga pagtatantya sa quarter quarter o taon, na nagreresulta sa tinatayang bilang ng mga naninirahan na nakakahanap ng trabaho (ay hindi kasama ang mga impormal na gawain).

gamit ang data na nakuha mula sa 2014 hanggang sa unang quarter ng 2018, ang mga datos na ito ay nakuha mula sa ENEMDU, INEC.

Mga pangunahing salita: National Survey of Employment, Un Employment and Underemployment (NSEUU), National Institute of Statistics and Census (NISC), Linear regression.

Panimula

Ang linear regression ay isang pamamaraan na nagbibigay-daan sa pagtukoy ng mga modelo ng matematika na maisakatuparan ang ilang mga uri ng mga inaasahan o mga pagtataya, depende sa ugnayan sa pagitan ng isang dependant variable y, isang independiyenteng variable x, ang termino ng regresyon ay ginamit sa kauna-unahang pagkakataon sa pag-aaral ng mga variable ng antropometric, kung ihahambing ang taas ng mga magulang at mga anak, kung saan ito ay ang mga bata na ang mga magulang ay mas mataas kaysa sa ibig sabihin na halaga ay may posibilidad na maging katumbas nito, samantalang ang mga na ang mga magulang ay masyadong maikli ang gawi upang mabawasan ang kanilang pagkakaiba mula sa average na taas; iyon ay, sila ay "bumalik" sa average, ang empirical na pag-verify ng ari-arian na ito ay kalaunan ay pinalakas ng teoretikal na katwiran para sa hindi pangkaraniwang bagay na ito. Ang linear term ay ginagamit upang makilala ito mula sa iba pang mga diskarte sa pagbabalik, na gumagamit ng mga modelo batay sa anumang uri ng pag-andar ng matematika, maging kwadratic, polynomial, maraming variable, o kilalang mga function.

Larawan 1. Mga uri ng ugnayan sa pagitan ng 2 variable.

Ang mga linear na modelo ay isang pinasimple na paliwanag ng katotohanan, mas maliksi at may higit pang teoretikal na suporta mula sa matematika at istatistika. Ang linear na regression model ay inilalapat sa isang malaking bilang ng mga patlang, mula sa pang-agham hanggang sa sosyal na kalipunan, sa pamamagitan ng mga pang-industriya na aplikasyon, dahil ang mga pag-uugali sa linear ay matatagpuan sa maraming mga sitwasyon, ang iba't ibang mga aplikasyon kung saan makikita ang pagkalugi linear: sa pisika, kimika, produksiyon, pag-aaral ng populasyon, atbp. dahil ang bawat isa sa mga ito ay maaaring kinakatawan ng isang function na nagsasangkot ng iba't ibang mga predisposed na puntos sa isang diagram ng pagkakalat.

Kailan gagamit ng linear regression?

Ang linear regression ay isang pinakamainam na modelo para sa ilang mga uri ng mga pattern na nagpapakita ng isang kalakaran (pagtaas o pagbaba), iyon ay, sa ilang mga salita, mga pattern na nagpapakita ng isang guhit na relasyon sa pagitan ng umaasa sa variable (y) at oras (independiyenteng variable (x). Ang graph ng pagpapakalat ng data ay dapat isaalang-alang kung ipinapahiwatig nila ang isang magkahiwalay na ugnayan sa pagitan ng mga puntos ng pagkakalat, ito ay magiging isang mahusay na tagapagpahiwatig na ang pamamaraan ng pag-urong upang makakuha ng isang prognostic equation ng mga puntong ito ay isang linear regression.. Napakahalaga na isaalang-alang ang uri ng regression na gagamitin, na kung saan ay depende sa pag-uugali ng data na ibinigay sa diagram ng pagkakalat, dahil sa isang paraan o iba pa, kung ang isang uri ng regression ay inilalapat, na hindi ipinapahiwatig para sa ang isang pangkat ng data ng pagkakamali sa oras ng pagsusuri ng paglapit ay tataas at samakatuwid ang koepisyentong ugnayan na sinusukat sa ibinigay na mga pamantayan ay magpapahiwatig na ang isang maling uri ng regression ay ginamit sa kaso ng linear.

Sa artikulong ito, ang pagsusuri ng regresyon ay ilalarawan nang detalyado, kung saan ang isang dependant variable (y) at isang independiyenteng variable (x) ay kasangkot, kung saan magkakaroon ng isang relasyon sa pagitan ng mga ito na kung saan ay kinakatawan ng isang linya linya na magiging isang equation (forecast) na ipinahiwatig sa ilalim ng format ng slope ng isang linya sa pag-aaral na ito ay ilalapat namin ang linear regression batay sa data ng populasyon na

Populasyon na may Trabaho
TAON (X) 2014 2014.3 2014.6 2014.9 2015 2015.3 2015.6 2015.9 2016 2016.3 2016.6 2016.9 2017 2017.3 2017.6 2017.9 2018 2018.3
PANGKALAHATANG NANGGALING 6,664,241 6,706,314 6,643,458 6,866,776 6,921,107 7,091,116 7,098,584 7,274,221 7,140,636 7,412,671 7,415,099 7,637,986 7,463,579 7,728,968 7,781,560 7,842,471 7,712,177 7,802,374
URBAN 4,481,130 4,501,505 4,529,978 4,638,310 4,647,582 4,630,745 4,707,715 4,854,005 4,840,314 4,882,929 4,889,895 5,005,457 4,971,669 5,048,482 5,125,446 5,174,135 5,169,942 5,129,893
RURAL 2,183,111 2,204,809 2,113,480 2,228,466 2,273,525 2,460,371 2,390,869 2,420,216 2,300,322 2,529,742 2,525,203 2,632,529 2,491,910 2,680,487 2,656,114 2,668,336 2,542,236 2,672,481

Talahanayan 1. Data ng populasyon na may trabaho sa Pambansa, Lungsod at Kabuuan ng Kabuuan

ay matatagpuan sa trabaho sa Ecuador kung saan mayroon kaming data mula sa Pambansang Kabuuan, ang kabuuan na ito ay lilitaw din na nahahati sa Rural at Urban, batay sa mga datos na ito ay magpapatuloy kami upang hanapin at maitaguyod ang equation ng forecast upang makagawa ng mga projection sa tinantyang populasyon na ay

makahanap ng trabaho sa isang taon o quarter ng ilang taon na wala sa database na ibinigay, iyon ay, kasama ang forecast equation, isang halaga ng y batay sa x ay matatagpuan.

Application ng linear regression model.

Upang maunawaan at mailapat ang pamamaraang ito na may kaugnayan sa paksang tatalakayin, sinimulan niya ang may kaugnayan na pagsisiyasat upang mangolekta ng malinaw at makatotohanang impormasyon sa data ng populasyon na may trabaho ng Pambansa, Urban at Kabuuan ng Lungsod sa mga opisyal na mapagkukunan mula sa taong 2014 hanggang sa una quarter ng 2018, mahalaga na magkaroon ng isang malaking halaga ng data upang ang diagram ng pagkakalat ay hindi binago, dahil sa kadahilanang ito ng quarterly data (3 buwan) ng tinukoy na tagal ng oras ay nakuha, kasama ang mas malaking base ng data na pinapadali ang paggawa ng desisyon ng pamamaraan ng rehistro na gagamitin, ang lahat ng impormasyong ito ay ibinigay ng mga institusyon ng estado ENEMDU (National Survey of Employment, Un Employment at

Sa kawalan ng trabaho), INEC (National Institute of Statistics and Census), na nagbibigay sa amin ng totoong data, upang maging tiyak sa mga nakaraang resulta na isinasagawa sa pamamagitan ng mga nauugnay na kalkulasyon, tulad ng makikita sa mga sumusunod na talahanayan na may kani-kanilang mga magkakalat na mga graph.

Sa pamamagitan ng data na ipinakita sa mga talahanayan, ang isang pagtataya ng pag-andar sa matematika o pagtatalaga ay itatatag na magkasya sa ipinahiwatig na data at ilalarawan ang ugnayan sa pagitan ng mga variable sa pamamagitan ng isang muling pag-urong ng bawat isa sa mga talahanayan.

Mayroong 3 pangunahing punto kapag nagsasagawa ng pagsusuri ng regresyon, ito ang:

  • Magpasya kung anong uri ng curve ang mga puntos sa isang paglalarawan ng graph. Ayon sa graph, alamin ang uri ng equation na pinakamahusay na umaangkop

ang data.

  • Hanapin ang equation ng forecast, at i-verify ang data ng kalapitan.

Larawan 2. Scatterplot National T.

Larawan 3. Ang graph ng pagpapakalat ng bayan

Larawan 4. Ang graph ng pagpapakalat ng bukid

Sa pagsusuri na isinagawa at ayon sa kung ano ang nasabi na at sinusunod sa Larawan 2,3,4. Kung saan ang pag-uugali ng data ay makikita sa grapula mula 2014 hanggang sa unang quarter ng 2018 at kung ano ang naitatag sa Figure 1. Ang isang linear na pag-uugali ay maaaring matukoy.

Linear regression model:

? ̂ =? + ?? (1)

Saan? Ito ay kinakatawan bilang mga sumusunod:

? =? ̅ -? ∗? ̅ (F1)

? ̅ = Average ng depend variable.

? ̅ = Average ng independiyenteng variable

Saan? Ito ay kinakatawan bilang mga sumusunod:

(F2)

Los valores de los parámetros ? ? ? ecuación (1) no se conocen y deben de estimarse a partir de los datos de la muestra obtenida, estos coeficientes se calculan con valores conocidos y se los conoce como regresores.

Para el valor de los regresores se utiliza el método fundamentado en teorema los mínimos cuadrados, este método emplea los datos de la muestra (población) para determinar características de la recta que van hacer mínima la suma de los cuadrados de las desviaciones.

????(?? − ?̂)^? (2)

En dónde;

?? =Valor observado de la variable dependiente para la i-esima. ?̂ = Ecuación pronostico determinada de tablas de datos.

Reemplazando la ecuacion pronostico (1), en

(2).

?(?? − (? + ??))^? (3) esta ecuacion nos ayudara a determinar el error en funcion de las variables x, y de la funcion pronostico, para que la funcion pronostico represente el total de datos de manera much mas representatva se le debe de sumar el error que se comete en la aproximacion, este error no es mas que la distancia desde cualquie punto de la grafica hacia la recta (d1,d2,d3), como se presenta en la Figura 5. La ecuacion (3) nos permite minimizar el miembro de la ecuacion para esto se debe calcular las derivadas parciales de esta expresion respecto a cada uno de los coeficientes de regresion es decir hay que derivar con respect a α y β e igualar a cero cada una de las derivadas parciales, realizado este procedimiento obtendremos un Sistema de ecuaciones que puede ser representado como un Sistema matricial. De la siguiente manera:

??? = ?? + ???????? = ? ∗ ??? + ?????

Figura 5. Representacion del error en la grafica.

Coeficiente de correlacion.

El coeficiente de correlacion, es una medida que nos va a indicar el grado de asociacion de los datos de las variables(x,y), esta medida nos va a indicar el tipo de relacion o dependencia, con este coeficinte tambien

podemos determinar si el metodo de

regresion que usamos es el correcto de acuerdo a la escala ya dada Figura 6. Si la correlacion esta entre (-0,5;0,5) esto nos indica que existe una correlacion, en la cual no es recomendable aplicar regresion lineal esto quiere decir que la ecuacion pronostico no se ajusta de manera adeacuada a los datos dispersos en el diagrama de dispercion.

Figura 6. Escala de aceptacion del coeficiente de correlacion.

Fórmula para calcular el coeficiente de correlación.

Coeficiente de determinación.

El coeficiente de determinación se lo simboliza con la letra ?? y no es más que el coeficiente de correlación al cuadrado, lo que el coeficiente de determinación nos indica en la regresión lineal, es probar cierto tipo de hipótesis, este coeficiente ayudara a determinar la calidad del modelo (ecuación pronóstico), para replicar resultados, y la proporción de variación de los resultados.

Procedimiento para encontrar las ecuaciones pronostico.

Para encontrar las ecuaciones pronósticos respecto a URBANO, RURAL y el TOTAL DE POBLACION que es la sumatoria de ambos respectivamente y con el cual se va a comparar la sumatoria de las ecuaciones pronóstico de RURAL, URBANO respecto al TOTAL NACIAONAL y determinar la dispersión de los resultados que en este caso se lo podrá determinar como un error entre sus partes y el total, así tendríamos aplicando la ecuación (1), y encontrando sus subtérminos (F1), (F2), respectivamente se procederá a encontrar las ecuaciones pronóstico de cada categoría:

  • Ecuaciones pronostico (RURAL).

Reemplazando en ecuación (1), tenemos;

Tabla 2. Coeficientes de regresión e intervalos de confianza (Rural).

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción -255885317 28788655,9 -8,88840791 1,3785E-07 -316914541 -194856093 -316914541 -194856093
Variable X 1 128126,694 14278,7071 8,97326999 1,2129E-07 97857,1871 158396,201 97857,1871 158396,201

Ecuación pronostico (URBANO).

Reemplazando en ecuación (1).

Tenemos

Tabla 3. Coeficientes de regresión e intervalos de confianza (Urbano).

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción -348136220 13925907,6 -24,9991764 2,9943E-14 -377657825 -318614615 -377657825 -318614615
Variable X 1 175073,532 6907,02462 25,3471707 2,4125E-14 160431,294 189715,77 160431,294 189715,77

Ecuación pronostico (TOTAL POBLACION).

Reemplazando en ecuación (1), tenemos;

Tabla 4. Coeficientes de regresión e intervalos de confianza (Total Nacional)

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción -604021371 32580998,6 -18,5390687 3,0713E-12 -673090003 -534952739 -673090003 -534952739
Variable X 1 303200,144 16159,6477 18,7627942 2,5553E-12 268943,221 337457,066 268943,221 337457,066

Como se describió anteriormente estas ecuaciones pronósticos no representan el muestral total debido a que cada una de estas ecuaciones pronostico se ajustan en una línea recta de tal manera que la distancia entre la recta y cualquier punto se aproximadamente igual y eso se lo determina como un error, entonces para que la ecuación pronostico represente de manera mucho más exacta las proyecciones se les debe de sumar el error cometido.

Factor de correlación.

El factor de correlación de cada uno de las categorías et dada por:

URBANO.

? = 0,987776078

Tabla 5. Estadísticos de la regresión Urbano.

Coeficiente de correlación múltiple

Coeficiente de determinación R^2

R^2 ajustado

Error típico

Observaciones

0,98777608
0,97570158
0,97418293
38113,6631
18

RURAL.

? = 0,913362204

Tabla 6. Estadísticos de la regresión Rural.

Coeficiente de correlación múltiple

Coeficiente de determinación R^2

R^2 ajustado

Error típico

Observaciones

0,9133622
0,83423052
0,82386992
78791,3555
18

TOTAL NACIONAL.

? = 0,978021857

Tabla 7. Estadísticos de la regresión Total Nacional.

Coeficiente de correlación múltiple

Coeficiente de determinación R^2

R^2 ajustado

Error típico

Observaciones

0,97802186
0,95652675
0,95380968
89170,5765
18

De acuerdo a la regla de correlación el resultado obtenido en los factores de correlación calculada nos determina que existe una correlación en un intervalo entre 0,5 y 1 los que indica que existe una correlación positiva muy fuerte, lo que nos indica que la fuerza de correlación de los datos es muy buena y nos asegura que el método que se ha empleado para realiza la regresión ha sido el correcto por ende el error que se ha obtenido nos corrobora toda la información previa ya que son cifras que indican un error muy depreciable.

Errores.

Total nacional.

Σ(?? − (−604021371,2 + 303200,143(?))

McGRAW HILL.

FAIRES, R. L. (Junio 2003). ANALISIS NUMERICO.

G., S. (s.f.). INTRODUCTION TO APPLIED MATHEMATHICS. ED.

Wesllesley Cambridge press.

Sánchez, A. N. (2002). Métodos Numéricos Aplicados a la Ingeniería.

Spiegel, MR (2010). Posibilidad at istatistika.

I-download ang orihinal na file

Linear regression application sa populasyon gamit ang ekwador