miércoles, 1 de junio de 2016

Antcon, introducció a l'anàlisi lexicomètric


En aquesta entrada presentem un anàlisi lèxicomètric fet a partir d’una tria i selecció d’articles i textos trobats en blogs diferents que parlen de la crisi dels refugiats que s’està vivint actualment a Europa.
Per agilitzar la lectura, intentarem ser breus en les explicacions però mirarem d’il·lustrar amb imatges els diferents passos que s’han fet.
Pas 1. Tria del corpus del text mitjançant Google i entrant en el requadre de recerca “blog+refugiats”. També s’han buscat articles a diferents diaris. Les llengües utilitzades són el català i el castellà.
Pas 2. Incertem el corpus a Antcon i fem l’anàlisi de freqüències lèxiques (amb l’opció “Treat all data as lowercase” fem que totes les paraules estiguin en minúscules per evitar que el programa compti les mateixes diferents vegades).
En aquest primer anàlisi veiem que hi ha 1567 types  i  4922 tokens.


Pas 3. Descarrego una llista de stop words en català i una altra en castellà i l’aplico a l’Antcon per treure aquelles paraules que no tenen un significat semàntic específic o d’interès pel nostre anàlisi. Veiem com ha canviat el número de tokens (ara en surten 3082) i de types (1493) i observem com, de manera molt significativa, la paraula “refugiats” ha passat de la 16a posició a la 3a. El contingut de les paraules ara ens aporta més informació sobre el corpus que estem analitzant. Veiem alguns exemples:
3 rank/ 53 freq: “refugiats”
8 rank / 25 freq: “persones”
11 rank / 20 freq: “europa”
13 rank / 16 freq: “crisis”
Com podem observar, només amb aquestes paraules ja ens podem fer una idea força acurada de la informació que estem gestionant.


Pas 4.  L’últim pas que s’ha fet ha estat analitzar les concordàncies és a dir, s’han observat tots els contextos en els que apareix una mateixa paraula obtenint, així, una visió transversal del corpus. Hem fet aquest exercici amb les quatre paraules que més es repetien en el corpus (“refugiats”, “persones”, “europa” i “crisis”).  


L'Antcon és un programa que permet analitzar la informació d'una gran quantitat de textos sense haver-los de llegir tots de manera lineal. Amb la massa ingent d'informació que gestiona la xarxa i les possibilitats d'accedir a aquesta informació, una eina d'aquest tipus, si se sap utilitzar bé i es dominen totes les seves possibilitats (com l'extracció de termes rellevants o les anomenades expressions regulars), pot ser molt eficaç per a analitzar diferents textos que tracten sobre un mateix tema sense necessitat de llegir-los linealment de principi a fi i obtenir una informació molt acurada sobre el tema en qüestió de manera àgil i sense dubte molt més ràpida  .

No hay comentarios:

Publicar un comentario