Logo tl.artbmxmagazine.com

Pagmimina: data, teksto, damdamin

Talaan ng mga Nilalaman:

Anonim

Dahil ang mga unang tao ay nagsimulang makipag-usap sa bawat isa, ang pangangailangan na palaging ipagbigay-alam sa lahat ng lumitaw sa paligid nila ay nagsimulang lumabas, din, naghanap sila ng isang paraan upang magkaroon ng impormasyong iyon sa kamay upang maisakatuparan mga aktibidad, na maaaring para sa isang personal o pangkat na pagkilos, sa isang lipunan, isang samahan o kahit isang bansa.

Noong nakaraan, upang ma-access ang data, impormasyon, istatistika ng ilang uri, bukod sa iba pa, posible lamang ito sa pamamagitan ng mga libro, teksto, pakikipag-usap sa ibang tao, sa pamamagitan ng aming sariling karanasan, o ang pinaka masuwerte na mayroon na ang mga unang kompyuter, na halos hindi pinahihintulutan sila na makatipid ng maraming impormasyon o kahit na ihatid ang karamihan dito, bukod sa iba pang mga tool. Ang lahat ng ito ay lubos na humadlang sa proseso ng pag-access at pagbabahagi ng impormasyon, dahil nangangailangan ng maraming oras at pagsisikap upang mahanap ang data o impormasyong kinakailangan ng tao.

Ngayon, ang paraan ng data at impormasyon ay nilikha, nabuo at ipinamamahagi ay nagbago para sa mas mahusay, dahil napakadali para sa sinuman, kahit saan sila naroroon sa mundo. Makakahanap tayo ng impormasyon tungkol sa ekonomiya ng isang partikular na bansa, ang marketing ng isang produkto, tungkol sa mga bagong teknolohiya na umuusbong at pinadali ang ating paraan ng pamumuhay, bukod sa maraming iba pang mga bagay; Ang impormasyong ito ay naka-imbak sa malalaking database.

At oo, kahit na tila ang lahat ay perpekto dahil napakadali upang makahanap ng anumang impormasyon na halos sa layo ng isang pag-click, ito ay medyo mahirap na piliin kung alin ang pinakamahusay o pinaka maaasahang impormasyon, dahil milyon-milyong mga data ang nabuo napapanahon.

Karaniwan sa amin upang makinig sa pagmimina ng data sa iba't ibang mga sitwasyon, na isang napaka-epektibong tool upang mas mahusay na pumili ng data at impormasyon na kailangan ng tao o samahan sa oras na kinakailangan. Gayundin, mula sa tool na ito ang iba ay lumitaw, na kung saan ay pagmimina ng teksto at sentimento, na nagbabahagi ng parehong mga pundasyon bilang pagmimina ng data, lamang sila ay patungo sa iba pang mga aspeto.

Mga pangunahing konsepto.

Upang mapadali ang proseso ng pagbasa sa paksang "Pagmimina (Data, Teksto, Damdamin)", mababanggit ang ilang mga kahulugan na maituturing na mahalaga para malaman ng mambabasa:

Pagmimina ng data

"Ito ang hanay ng mga pamamaraan at teknolohiya na nagpapahintulot sa paggalugad ng malalaking database, awtomatiko o semi-awtomatikong, na may layunin na makahanap ng paulit-ulit na mga pattern, mga trend o panuntunan na nagpapaliwanag ng pag-uugali ng data sa isang naibigay na konteksto." (Sinnexus, 2016)

Pagmimina ng teksto

"Ito ay ang proseso na namamahala sa pagtuklas ng impormasyon na hindi malinaw na umiiral sa anumang teksto ng koleksyon, ngunit ito ay lumabas mula sa pag-uugnay sa nilalaman ng ilan sa kanila." (Rochina, 2017)

Pagmimina ng sentimento

"Tumutukoy ito sa paggamit ng natural na pagproseso ng wika, pagsusuri ng teksto, at computational linguistic upang matukoy at kunin ang subjective na impormasyon mula sa mga mapagkukunan." (Wikipedia, 2018)

Pinagmulan ng data mining

Ang pagmimina ng data ay isang paksa na maaaring isaalang-alang kamakailan, dahil hindi ito ginagamit ng maraming taon. Ang mga pangunahing bahagi ng pagmimina ng data, sa madaling salita, ang mga elemento na nagpapahintulot sa tamang operasyon na ito ay ginamit nang mas maraming oras sa pagsisiyasat ng iba't ibang mga lugar, tulad ng mga istatistika, pag-aaral na autonomous, artipisyal na intelihente, bukod sa iba pa.. Ngayon ang data sa pagmimina ng data ay sumulong nang malaki, salamat sa pagpapabuti ng malakas na mga search engine na impormasyon at mga database na mas malawak kaysa sa mga dating nakaraan.

Ang mga unang ideya na nagkaroon tungkol sa konsepto ng data mining, ay dumating sa loob ng dekada ng 50 salamat sa pag-aaral ng data engineering. Ang mga nakatuon sa pag-compute sa oras na iyon, ay nabuo ang mga listahan ng impormasyon ng iba't ibang uri, tulad ng tungkol sa ilang mga produkto, proseso, bukod sa iba pang mga bagay, ang lahat ng impormasyong ito ay nakaimbak sa isang uri ng computer na nagsilbing pangunahing isa sa samahan at nakatulong ito sa mga tagapamahala upang makagawa ng pinakamahusay na pagpapasya sa isang tiyak na isyu.

Sa lahat ng ito, ang mga unang sistema na nakatuon sa paggamot ng impormasyon ay ipinaglihi para sa mga direktor o pinuno ng kumpanya, sa kasamaang palad, ang mga sistemang ito ay masyadong mabigat at hindi gaanong impormasyon ang mai-save, din para sa mga hindi pamilyar sa computing Hindi sila madaling maunawaan.

Noong 1960, ang mga unang sistema ng pamamahala ng database ay nabuo, ngunit hindi pa sila ganap na "natutunaw" para sa isang taong hindi pamilyar sa mga konsepto na ito.

Nasa panahon ng dekada 80, ang sistema na tinawag na Data Warehouse ay nilikha, na naayos ang mga abala na dating mga sistema ng database. Ang pagkakaroon ng Data Warehouse, ginawa ang mga eksperto sa paksa na bumuo ng mga bagong pananaw sa lahat ng ito, kung saan naging autonomous ang mga pag-aaral na ito at bigyan ang pagkakataon na alisin ang ilang impormasyon.

Kasaysayan ng mga database at pagmimina ng data, kinuha mula (Martínez, 2010)

Kasaysayan ng mga database at pagmimina ng data, kinuha mula (Martínez, 2010)

Pagmimina ng data

Ngayon ang rebolusyon na dinala ng digital culture na ito ay nagbigay ng kakayahan na ang pagkuha, imbakan at pagproseso ng data at impormasyon ay medyo madali na trabaho, din, ang presyo para sa paggawa ng lahat ng pamamaraang ito ay medyo mababa sa kung ano ang nagkakahalaga ito ng ilang taon na ang nakalilipas.

Ang pagtaas sa dami at pagkakaiba-iba ng data na nakaimbak sa mga computer system o digital database ay nadagdagan sa hindi mailarawan na paraan sa mga nakaraang taon.

Ang lahat ng data na naipon dahil ang isang samahan ay itinatag o nilikha, dapat magkaroon ng pagpapaandar ng paglilingkod bilang memorya ng kumpanya mismo, at sa gayon, maging kapaki-pakinabang upang mapangalagaan ang ilang data o impormasyon sa malapit na hinaharap.

Upang maisagawa ang proseso ng pagsusuri ng malaking dami ng data na nabuo ng anumang kumpanya, ang tradisyonal na pamamaraan para sa pamamahala ng data at impormasyon, pati na rin ang iba't ibang mga pamamaraan ng istatistika, ay hindi na sapat, o sa ibang salita, ang mga iyon ay kailangan.

Kapag ang isang samahan ay kailangang gumawa ng isang pagpapasya, palaging ito ay batay sa impormasyon o data na tungkol sa mga nakaraang kaganapan na nakolekta sa ilang mga mapagkukunan ng data. Ang pagkuha ng impormasyong ito mula sa kaukulang database, na maaaring awtomatiko o semi-awtomatiko, ay nagsimula na magkaroon ng maraming kaugnayan sa kasalukuyan, kaya ang iba't ibang mga pamamaraan ay binuo upang magawa ito sa isang mahusay na paraan, ang isa sa mga tool na ito ay Pagmimina ng data.

Ang pangunahing layunin ng pagmimina ng data ay upang makita ang kaalaman na nakuha ng samahan mula sa isang database, na magbibigay ng iba't ibang mga pasilidad sa mga empleyado kapag nagpapasya.

Pinagsasama ng data ng pagmimina ang iba't ibang mga semi-awtomatikong pamamaraan ng artipisyal na intelihensiya, grapikal na paggunita, mga database at pagsusuri sa istatistika, upang ang organisasyon ay maaaring makakuha ng ilang kaalaman batay sa lahat ng data at impormasyong nakolekta, yamang ang pagmimisa ay hindi makakaya kumakatawan sa ilang halaga para sa kumpanya. Ang pagmimina ng data ay maaaring nasa tuktok ng tuktok sa ebolusyon ng mga tool sa teknolohiya ng pagsusuri ng data.

Ang konsepto ng data mining (o DataMining para sa pangalan nito sa Ingles) ay nagmula sa pagkakatulad ng isang burol at napakalaking halaga ng data na nakaimbak sa isang samahan. Ang mga data na ito ay matatagpuan sa loob ng burol, na nakatago sa pagitan ng mga bato at brush; kung maghukay ka nang malalim, makakahanap ka ng iba't ibang mga bato na maaaring maiuri bilang "mga hiyas" ng mahalagang halaga, sa madaling salita, kung maghanap ka ng data sa isang malalim na paraan, makakahanap ka ng impormasyon na maaaring maging malaking halaga upang makabuo ng kaalaman.

Ang proseso na tumatagal ng pagmimina ng data

Ang unang hakbang upang magawa ang isang tamang pagmimina ng data ay upang matukoy kung anong uri ng data ang hinahanap. Para sa mga ito, kailangan mong mag-isip tungkol sa kung ano ang kinakailangan ng data, kung saan matatagpuan ito at kung paano makuha ito.

Kapag nasa atin ang pag-aari, dapat silang maging handa, itago ang mga ito sa mga database na may format na hinihiling o pinapayagan nila o mayroon ding pagpipilian ng pagbuo ng isang bodega (na kung saan ay isa sa mga pinaka-kumplikadong bahagi ng pagmimina data). Kapag ang data ay naimbak na sa format na tinanggap ng database, ang pagpili ng mga kinakailangang data lamang ay patuloy at ang mga hindi gaanong kahalagahan sa samahan ay tinanggal.

Dapat nating maging malinaw tungkol sa kung ano ang nais nating makamit o mahanap (ito ay dapat gawin bago magpatuloy sa pagsusuri ng data gamit ang data mining), din, dapat nating tandaan kung anong mga tool o proseso mahalaga sila upang magpatuloy sa proseso. Matapos gamitin ang tool na napagpasyahan naming gamitin, dapat kang magkaroon ng isang ideya kung paano malalaman ang mga resulta na nakuha, upang makapagtapos kung talagang kapaki-pakinabang sila para sa samahan at magagawang pag-uri-uriin ang mga ito para sa paggamit sa ibang pagkakataon.

Dahil mayroon kang data at impormasyon na kapaki-pakinabang para sa kasalukuyang sandali ng samahan, tatalakayin at masuri ang mga ito, upang makagawa ng pinakamahusay na posibleng desisyon tungkol sa sitwasyon na tinalakay.

Kapag ang desisyon ay ginawa batay sa data na nakuha gamit ang data mining, magpatuloy kami upang suriin kung ano ang nangyari, upang makamit ito, dapat na maobserbahan at pag-aralan ang mga resulta, kung may mga pakinabang at kung ano ang kabuuang gastos upang makagawa ng isang kabuuang pagsusuri ng proseso bilang puna. Sa buong panahon ng feedback na ito, ang data ay may posibilidad na magbago, posible na ang mga bagong tool o pamamaraan ay matatagpuan, at malinaw naman ang susunod na siklo ng pagmimina ng data ay kailangang muling binalak.

Sa pamamagitan ng synthesis, ang proseso ng pagmimina ng data ay dapat isama ang mga sumusunod na hakbang:

  • Iproseso ang data Piliin ang mga katangian na pinakaangkop sa sitwasyon Pumili ng isang algorithm upang alisin ang kinakailangang data at Pagsusuri ng impormasyon, interpretasyon at pagsusuri

Ang proseso ng pagmimina ng data, kinuha mula sa (Egonzales, 2008)

Mga pamamaraan sa pagmimina ng data

Ayon kay (Ahumada, 2016) ang mga pamamaraan ng pagmimina ng data ay karaniwang inuri bilang: mahuhulaan, naglalarawan at pandiwang pantulong, at ang mga sumusunod:

  • Pagkabagabag, Pagtatasa ng pagkakaiba-iba at covariance, serye ng oras, Boyesian paraan, Genetic algorithm.

Pag-uuri ng ad hoc:

  • Hindi nakakaalam, mga puno ng pagpapasya at mga network ng neural.

Pag-uuri ng pag-post sa hoc:

  • ClusterinSegmentation
  • Dependency Association Multidimensional scaling Dimensyon pagbabawas Pagsuri pagsusuri
  • SQL at tool ng query.

Ano ang ginagawa ng data mining?

Ang pagmimina ng data ayon sa likas na katangian ay isang proseso, na ang dahilan kung bakit dapat isama ang isang pagsasaayos ng modelo o ang mga pamantayan ay dapat na tinukoy batay sa ilang data. Karaniwan, ang mga pagsasaayos na ito ay isang istatistikal na klase, dahil ang slack ay bibigyan upang ang modelo ay maaaring magkaroon ng isang tiyak na pagkakamali.

Ang pagmimina ng data ay nangangailangan ng mga algorithm, na magkakaroon ng pag-andar sa paghuhula (batay sa data na alam na) at naglalarawan (batay sa mga pattern na itinatag). Ang ilan sa mga gawaing ito ay ang mga sumusunod:

  • Ang gawain na ito ay naglalayong makilala ang mga pangkat ng mga kategorya upang ilarawan ang data. Ang mga kategoryang ito ay maaaring maging eksklusibo o kumpleto, gayon din, batay sa isang hierarchical na representasyon, at maaaring payagan ang mga overlay.
  • Ang pagmimina ng data ay may kakayahang mag-mapa, sa madaling salita, itala ang ilang data sa alinman sa mga naunang itinatag na mga klase, at magsisilbi ito upang makahanap ng ilang mga data sa mas maiikling oras.
  • Ang sangkap na ito ng pagmimina ng data ay batay sa paghahanap ng isang pamamaraan na makakatulong sa amin na makahanap ng medyo naka-compress na mga paglalarawan ng isang subset ng data. Ang mga mas sopistikadong proseso ay may kasamang mga panuntunan sa pag-unawa, multivariate visualization, at ang kakayahang bigyang kahulugan ang mga kaugnay na ugnayan sa pagitan ng iba't ibang mga variable. Karaniwan na ang mga nabanggit na proseso ay ginagamit sa pagsusuri at pag-aaral ng data nang interactive at sa henerasyon ng mga awtomatikong ulat.
  • Ang pangunahing layunin ng gawaing ito ay upang mahanap ang isang modelo kung saan tinukoy ang mga dependency sa pagitan ng mga variable. Maaari kaming makahanap ng dalawang antas sa loob ng mga modelong ito, na:
    • Antas ng istruktura: Napakadalas na nahanap namin ang antas na ito bilang isang grapiko, kung saan ang mga variable ay nakasalalay sa bawat isa nang lokal.Lahat ng dami: Ito ay detalyado kung ano ang magiging "sukat" ng mga dependencies, sa tulong ng mga bilang ng mga scale.

Ang mga network ng dependency na dependability ay dapat gumamit ng kondisyong kalayaan upang ma-tukuyin kung ano ang magiging istrukturang disenyo ng modelo at ang mga posibilidad nito.

  • Ang pangunahing layunin ng gawaing ito ay upang makamit ang posisyon ng pagmamapa para sa isang data at gawin itong isang variable na paghula na may isang tunay na halaga. Ang ilang mga halimbawa na maaaring ibigay sa gawaing ito ay: Ang paghula kung magkano ang biomass doon sa ilang seksyon ng isang partikular na kagubatan, na sinuri ng isang microwave; Gayundin, ang isang tao ay may kakayahang makalkula ang posibilidad na ang isang pasyente ay hindi nawawala, batay sa mga resulta ng isang nakaraang diagnosis.

Pagmimina ng teksto

Ang pagmimina ng data ay isang teknolohiyang batang bahagi ng pananaliksik at pag-aaral para sa pagproseso ng salita. Ito ay binibigyang kahulugan sa parehong paraan tulad ng pagmimina ng data, sa madaling salita, ito ay isang pamamaraan na kung saan ang mga bagong kaakit-akit na pattern o pamantayan ay maaaring itakda at bagong kaalaman na ginawa, ngunit sa halip na sakupin ang data, maraming mga teksto ang gagamitin.

Mula sa masasabi natin na ang pagmimina ng teksto ay may pangunahing layunin upang makahanap ng bagong kaalaman na hindi malinaw na itinakda sa ilang teksto.

Mga yugto ng pagmimina ng teksto, kinuha mula (Gómez, 2001)

Gayundin, ang pagmimina ng data ay may posibilidad na maisagawa ang mga sumusunod na gawain:

  • Kunin ang data at impormasyon, iyon ay, pumili ng mga teksto na pinaka-angkop sa kung ano ang hinahanap ng samahan ng Extract ng mahalagang impormasyon na naka-embed sa ilang mga teksto at na napansin, na maaaring: mga katotohanan, keyword, mahahalagang kaganapan, Pakikipag-ugnayan sa pagitan ng mga teksto, bukod sa pagkakaroon ng isang pamamaraan na katulad sa pagmimina ng data, nais din ng pagmimina ng teksto na makahanap ng mahahalagang data kung saan makalikha ng bagong kaalaman para sa kumpanya.

Ayon kay (Nuño & Machado) ang ilang mga pamamaraan na ginamit ng pagmimina ng teksto ay ang mga sumusunod:

  • Pag-uuri ng teksto Kumuha ng impormasyon at kunin ang mga pangunahing teksto ng Pag-aaral ng makina Pagproseso ng wika

Proseso ng pagmimina ng teksto

Tulad ng nabanggit sa itaas, ang pagmimina ng teksto ay isang medyo batang pamamaraan, na maaaring mag-iba sa proseso nito at maaaring mahulma sa iba't ibang mga sitwasyon, wala pa ring itinatag na pamamaraan upang gabayan tayo.

Ngunit, maaari mong gamitin ang mga sumusunod na hakbang:

Mga hakbang ng pagmimina ng teksto, sariling pagpapaliwanag kasama ang impormasyon mula sa (Gómez, 2001)

Pagmimina ng sentimento

Ang pagmimina ng data ay isang serye ng mga teknikal na pagpapatupad ng natural na pagproseso ng wika, computational linguistic at pagmimina ng teksto, ang pangunahing layunin na kung saan ay ang pagwawasto ng intrinsikong impormasyon mula sa nilalaman na binuo ng mga collaborator o anumang iba pang mga indibidwal, halimbawa: Mga Komento na isinasagawa araw-araw sa iba't ibang mga social network na umiiral, mga blog o mga grupo ng puna upang suriin ang mga produkto.

Ang sentimentong pagmimina ay sumasaklaw sa iba't ibang larangan ng pag-aaral na may isang tiyak na kaugnayan sa pagsusuri ng mga elemento ng subjective na implicit sa mga elemento na nabuo ng iba't ibang mga gumagamit. Kaya, samakatuwid, ang pakiramdam ng pagmimina ay maaaring makahanap ng dalawang uri ng mga gawain na maaaring isagawa.

Ang pagkakaugnay ng polaridad

Ito ay tungkol sa pagiging makapagtatag kung ang isang opinyon ay maaaring maiuri bilang positibo o negatibo, kung ito ay magiging kapaki-pakinabang para sa gumagamit o hindi. Gayundin, may posibilidad na makagawa ng isang numerical na halaga sa loob ng isang naitatag na saklaw.

Pag-aaral ng pakiramdam batay sa mga katangian.

Binibigyang diin nito ang kakayahang makahanap ng iba't ibang mga katangian ng produkto o serbisyo na itinakda sa opinyon na isinulat ng ilang gumagamit.

Ang proposal ng tesis.

Ipatupad ang pagmimina ng data sa loob ng SMEs sa Córdoba - Orizaba area para sa mas mahusay na pamamahala ng samahan.

Layunin.

I-optimize ang daloy ng impormasyon sa loob ng samahan, paghihiwalay sa kung ano ang kapaki-pakinabang sa kung ano ang hindi, at sa gayon pinapabilis ang paggawa ng desisyon.

Salamat.

Pinasasalamatan ko ang aking pamilya, sa pagbibigay sa akin ng lahat ng suporta at paghihikayat na magpatuloy araw-araw, ang Technological Institute ng Orizaba at CONACYT para sa pagbukas ng kanilang mga pintuan sa akin at pinapayagan akong magpatuloy ng aking pag-aaral sa Master's in Administrative Engineering at kay Doctor Fernando Aguirre y Hernández para sa mag-udyok sa akin ng iyong kaalaman sa mga Fundamentals of Administrative Engineering seminar upang maisagawa ang bawat isa sa mga itinalagang artikulo.

Konklusyon.

Ang mga samahan at anumang pakikipagtulungan na nagtatrabaho sa kanila, na kasangkot sa malaking dami ng impormasyon, pagmimina, na maaaring maging anumang uri (data, teksto o damdamin), ay magbibigay ng ilang mga tool at kasanayan na kinakailangan para sa pagkakakilanlan, pagpili, pagpoproseso, pag-aaral at pagsusuri ng mga datos na nakolekta upang makagawa ng impormasyon at sa paglaon ay maging kaalaman na maaaring maging kapaki-pakinabang para sa mga samahan at mga nagtutulungan na nagtatrabaho sa kanila.

Ang pagmimina ay maaaring maging kapaki-pakinabang kapag gumagawa ng iba't ibang mga pagpapasya tungkol sa hinaharap ng kumpanya, dahil ang lahat ng impormasyon na ginawa sa tulong ng mga ito, ay may layunin ng pagbuo ng mga ideya sa isang mas mahusay na paraan at tiyakin ang kawastuhan ng mga ito, upang walang alinlangan kapag gumagawa ng pinakamahusay na desisyon.

Gayundin, ito ay gumagana bilang isang diskarte sa teknolohikal, ang pagmimina ng anumang uri ay nagpapahusay sa kalamangan, dahil na-optimize nito ang iba't ibang mga proseso sa mga organisasyon, lalo na ang paggawa ng desisyon na inilarawan sa itaas.

Bibliograpiya.

Ahumada, AM (Abril 7, 2016). Gestiopolis. Nakuha mula sa

Egonzales. (Abril 4, 2008). Mga Monograp. Nakuha mula sa

Gómez, MM (2001). Pagmimina ng Teksto: Isang Bagong Hamon sa Pagtutuos. National Polytechnic Institute, 2-13.

Martínez, BB (2010). BUAP. Nakuha mula sa

Nuño, RR, & Machado, EF (nd). Galeon.com. Nakuha mula sa

Orallo, JH, Quintana, MJ, & Ramírez, CF (2014). Awtomatikong Extraction ng Kaalaman sa Mga Database at Engineering Engineering Polytechnic University ng Valencia.

Rochina, P. (Abril 25, 2017). INESEM digital magazine. Nakuha mula sa

Sinnexus. (2016). Sinnexus. Nakuha mula sa

Wikipedia. (Abril 18, 2018). Wikipedia, ang libreng encyclopedia. Nakuha mula sa

Pagmimina: data, teksto, damdamin