off
Ciencia, Opinión, Pensamento — 7 Febreiro, 2018 at 18:49

Un mundo de datos, un mundo de números

por

A computerización do mundo, xa o sabemos, está a trocar todas as nosas actividades e todas as nosa relacións en datos numéricos. É o Big data. Para algúns un cambio radical no futuro da vida humana. Para os máis un enigma case indescifrable. Despois de todo, só son números, só é ciencia e técnica. Coma desde Pitágoras. Mais é desexable encerrar a nosa vida en moreas de datos? Queremos que un algoritmo nos diga se nos estamos namorando?


Tomando decisións na incerteza

A través dun exemplo sinxelo, intentarei recrear a intelixencia artificial e a minería de datos, amosando, grosso modo, como os procesos construtivos cos que se afronta o Big Data involucran, non só competencias disciplinares e esforzos, máis tamén sensibilidades e emocións.

“Moi logo, os datos masivos serán capaces de dicirnos se nos estamos enamorando” (Big data: la revolución de los datos masivos; Mayer-Schönberger, V. e Cukier, K.). Gulosa predición. Aplicaríamos para tal fin algún dos potentes algoritmos de análise de grupos (segmentación), que tratan de reunir aqueles elementos que nalgún sentido poidamos considerar semellantes (clúster), para o cal se aplica a idea común de que o serán tanto máis canto maior sexa a súa proximidade.

Moitos algoritmos seguen criterios xerárquicos de conectividade, dando lugar a dendogramas (representación mediante unha estrutura de árbore, en categorías e subcategorías sucesivas): o nº de pólas que conectan un dato con outro é o indicador de semellanza.

Noutra perspectiva, os algoritmos tipo k-means buscan clasificar os datos en k grupos, cada un ao redor dun dato medio (centroide) no que estarían aqueles datos que son máis próximos a el ca aos outros centroides. Teríamos, entón, que decidir que é o que imos analizar (as mensaxes de texto parecen axeitadas para namoramentos) e definir o que entendemos por “distancia”.

Do proemio do Marqués de Santillana ao condestable Pedro de Portugal (1429-1466), conde de Barcelona, que fora recoñecido como rei de Aragón polo principado de Catalunya na loita contra o rei Trastámara, Juan II de Aragón, facemos un extracto que achega significativa noticia:

Después dellos vinieron vasco Peres de Camoes e Fernán Casquiçio e aquel grande enamorado Maçías, del qual no se fallan syno quatro cançiones, pero çiertamente amorosas e de muy fermosas sentençias, conviene a saber: Cativo de miña tristura, Amor cruel e brioso, Señora, en quien fiança e Provey de buscar mesura, conviene a saber:

Cativo da miña tristura,
ya todos prenden espanto
e preguntan, que ventura
fay que me tormenta tanto;
mays non sey no mundo, amigo,
que mays de meu quebranto
diga de esto que vos digo.

(Cancioneiro de Baena)

Para isto do amor teríamos un conxunto de palabras e cadeas de altas notas (como as que abundan na cantiga de amigo do Macías) e outras de baixa cualificación. A codificación realízase cun dicionario de análise de contido (software textpack): cada vez que encontre unha desas palabras codifícaa e outro programa específico asígnaselle o valor que teñamos decidido. O procedemento compleméntase cun programa de desambiguación (key word in context) que pon en relación os termos menos claros coas unidades do contexto no cal aparecen.No ámbito da teoría da información manéxase o concepto de entropía como “cantidade de información relevante” (interesa que sexa alta na orixe dos datos –diferentes fontes- e baixa en canto a criterios de valoración). Por simplificar, pensemos só nos 140 carácteres do Twitter, que diariamente almacenan ducias de terabytes (1 tera =10004 bytes) de información: o Big Data ameázanos.

Facemos unha avaliación da entropía media a cada usuario obxecto da nosa observación. Esa sería a súa primeira coordenada. A segunda coordenada podería ser, por exemplo, a media da demora -intervalo de tempo que pasa entre chío e chío nas horas de actividade- (certa ansiedade por “ligar”, no sentido xenuíno da palabra).

Cada persoa obxecto do seguimento aparecería representada como un punto e o conxunto formaría unha “nube”. Por adoptar unha escala habitual, asignemos valores entre 0 e 10 para ambas as dúas variables (coordenadas). Quizais nos pareza adecuado o punto P(8, 2) para un prototipo de persoa namoradeira -sen esaxerar- e o Q(3, 6) para quen non está especialmente ocupada neses menestreis. O paso seguinte é o de definir a distancia entre puntos, cuestión que adoitamos facer lembrando a Pitágoras: a distancia euclídea, que vén sendo a hipotenusa do triángulo rectángulo que se formaría entre ambos os dous puntos.

Logo faríamos dous grupos, por proximidade a P ou a Q, respectivamente, cun procedemento tamén clásico: a mediatriz do segmento que une P con Q . Os puntos da mediatriz equidistan de P e Q, que tiñamos elixido como centroides; os da súa esquerda están máis próximos de Q e os da súa dereita, de P.

Se contemplásemos un terceiro estado da cuestión, xurdiría un novo centroide R. Aplicaríamos o método a cada parella de puntos (P, Q), (P, R) e (Q, R), e formaríamos os tres grupos correspondentes. En xeral teremos k “estados”: o número de operacións necesarias para formar os grupos convenientes, multiplícase: o Big Data agroma.

Por outra banda, se o número de características ou condutas observadas aumenta, cada individuo terá unha “cualificación” ou coordenada para cada unha delas, polo que nos situaremos nun espazo de 3, 4, 5… en xeral, n dimensións. Nesa tesitura non será fácil preestablecer bos centroides baseándonos nas nosas intuicións, polo cal adoita comezarse elixíndoos aleatoriamente e aplicar o método ata termos k rexións. Logo búscase o “centro xeométrico” dos puntos de cada unha desas rexións, que serán os centroides do seguinte paso: vólvese aplicar o método e configúranse outras rexións, que só coincidirán parcialmente coas anteriores –que xa se desbotan-. Reitérase o proceso ata que as rexións se estabilicen o suficiente. A variabilidade medra, así, exponencialmente, procesando cada vez un maior número de datos, que axiña chegaría a ser inmenso: o Big Data acósanos.

Deixar unha resposta

Ten que ser rexistrado para publicar un comentario.

off
A %d blogueros les gusta esto: