quinta-feira, 31 de agosto de 2023

O acesso ao ensino superior

As listas de candidatos aos cursos do ensino superior em Portugal são públicas e disponíveis no sítio da Direcção-Geral do Ensino Superior.
Cada candidato pode escolher seis cursos, e um algoritmo tenta satisfazer da melhor forma as escolhas de cada um, tendo em conta a sua nota de acesso ao ensino superior e as suas escolhas pessoais. Os alunos vão sendo colocados começando pelos de nota de acesso mais elevada e quando chega a vez de cada um vale o curso ainda disponível em lugar mais elevado na lista de escolhas.
Nem todos são colocados por este método, e por exemplo este ano apresentaram-se a concurso, na primeira fase, 59073 candidatos para 54363 vagas colocadas a concurso, tendo sido colocados 49438 novos estudantes, e sobrado 5212 vagas para a segunda fase do concurso.
O estudo das escolhas de cada candidato permite extrair muitas ilações sobre a pespectiva que os alunos têm da oferta de cursos, e da capacidade de mobilidade de cada um, que lhe permitirá ou não dar mais preferência à área científica do curso ou à localização da Universidade.
Apresento um estudo de todas as 11317 candidaturas aos 22 cursos universitários disponíveis nas áreas de Engenharia Informática e de Ciência de Dados. Graficamente, as candidaturas definem uma rede bipartida, em que cada aresta liga um dos 5890 candidatos a um dos 6 cursos do conjunto de estudo.
Candidatos aos cursos de Engenharia Informática e de Ciência de Dados
Curiosamente, verifica-se que destes 5890 candidatos houve apenas 54 que colocaram as suas 6 escolhas neste conjunto de 22 cursos.
Na figura utilizou-se um algoritmo de colocação dos nós que coloca mais próximos aqueles cursos que têm mais ligações entre eles, ou seja, haja mais candidatos aos dois em simultâneo, e um algoritmo de detecção de comunidades a que fiz corresponder cores diferentes.
Os dois cursos do Porto destacam-se como comunidade [laranja], Minho e Vila Real constituem outra [azul], Aveiro, Coimbra e Beira Interior, uma terceira [verde], e os cursos localizados em Lisboa uma outra [violeta], numa clara arrumação geográfica, que mostra que este factor é muito importante na escolha dos cursos.
Na figura seguinte, retiveram-se apenas as escolhas em primeira opção, como tentativa de entender as estratégias utilizadas pelos candidatos nas suas candidaturas.
Escolhas em primeira opção
No lado direito da figura, as opções entre Engenharia Informática no Porto e no Minho, ou entre Engenharia Informática e Inteligência Artificial e Ciência de Dados no Porto, que muitas dores de cabeça devem ter dado a muitos candidatos, nomadamente quando se desconfia que não haverá lugar nem para todos que colocaram o curso em primeira opção. 
Muito haveria a explorar e a comentar, mas aqui fica apenas a nota da importância da visão de rede dos problemas do dia a dia, nomeadamente no estudo de comportamentos e decisões.

quarta-feira, 10 de novembro de 2021

Rotas aéreas

A rede das ligações aéreas é muito interessante. Há aeroportos grandes e pequenos, com muitas e com poucas ligações, próximos de uns e distantes de outros, seja a distância física ou a inexistência de uma ligação através de uma ou mais rotas.
O site OpenFlights tem muitas funcionalidades interessantes e uma área de dados no Github que, embora desactualizada, permite o acesso a informação vital para o estudo desta rede.
O ficheiro routes.dat lista todas as rotas comerciais de passageiros na data da sua actualização, e pode ser facilmente aberto no Gephi. Cada linha é uma aresta de um grafo direccionado (source, target na terminologia Gephi).

3425 aeroportos e 37595 rotas

O tamanho de cada vértice é proporcional ao seu grau de saída ponderado, ou seja, o número de descolagens do aeroporto que lhe corresponde, as cores correspondem às classes de modularidade (clusters) que a ferramenta Gephi encontrou, e a disposição (layout) resultou da aplicação do algoritmo Force Atlas.
Os clusters são interessantes, e distinguem-se bem a Europa, a azul, a América do Norte, a verde, a China, a turquesa, e o Sudeste Asiático. cor de rosa, com a particularidade, que se entende, de Heathrow (LHR, Londres) se situar no cluster americano.

quinta-feira, 14 de outubro de 2021

Número de Erdős

Paul Erdős foi um famoso matemático húngaro (1913-1996) que escreveu mais de 1500 artigos científicos, grande parte deles em co-autoria com outros matemáticos, com quem colaborou ao longo da sua vida. 
As co-autorias de artigos científicos definem uma rede: dois autores estão ligados entre si se tiverem sido co-autores de pelo menos um artigo, podendo mesmo atribuir-se um peso a cada ligação, o número de artigos em que foram co-autores.

Vista parcial da rede de co-autorias

O número de Erdős de um autor é a distância neste rede entre esse autor e Paul Erdős, sendo 0 para o próprio Paul Erdős, 1 para os co-autores dos seus artigos, 2 para os co-autores de artigos com autores com número de Erdős 1, e assim sucessivamente.
Segundo o The Erdős Number Project, da Universidade de Oakland, haverá actualmente uns 268000 autores com número de Erdős, sendo o de todos, excepto 5, inferiores a 13.

Autores por número de Erdős

Usando os dados disponibilizados por The KONECT Project, em 2002 havia 6927 autores com número de Erdős igual ou inferior a 2, com os quais construí a rede de co-autorias, que aqui disponibilizo no formato SVG, para poder ser facilmente explorado num browser.
Apenas dois destes autores são portugueses: Tiago de Oliveira e Dias da Silva.
Usei Gephi 0.9.2 para chegar a este resultado.

sexta-feira, 1 de janeiro de 2021

Epidemias e Redes [2]

O vírus que causa a CoVid-19 transmite-se principalmente através das gotículas que são geradas quando uma pessoa infetada tosse, espirra ou expira. É um facto.
Estas gotículas acabam por se depositar nos pavimentos ou superfícies, se entretanto não entrarem no corpo de outra pessoa, ou através da respiração, ou através de gestos como levar a mão à boca.
A propagação da doença é uma questão de probabilidade: numa população, quantos contactos se verificam num determinado intervalo de tempo, em quantos desses contactos intervém um infectado, e qual a probabilidade de haver uma transmissão.

fonte: https://thespinoff.co.nz/

Se, durante o tempo em que está infectado, cada pessoa contactar outras pessoas, pode acontecer que o número de infectados aumente, ou não.
O muito falado índice de transmissibilidade Rt resume, para um país, ou para uma região, como evolui a doença: se num determinado dia houver N infectados, no dia seguinte haverá N.Rt, depois N.Rt^2, etc, num crescimento exponencial


que, como esta figura demonstra, é extremamente sensível ao valor de Rt. Uma pequena variação de Rt pode ter efeitos catastróficos no número de infectados.
Reduzir o número de contactos, ou o tempo de cada contacto, ou a facilidade com que o vírus se transmite entre duas pessoas, por exemplo usando uma máscara adequada, reduzem o valor de Rt, e uma pequena redução de Rt pode ter um grande efeito da propagação da doença.
Por outro lado, a letalidade de cada extirpe do vírus, a percentagem de infectados que não sobrevive à doença, sendo um índice muito importante da sua perigosidade, não tem este efeito exponencial. Na realidade, o número de vítimas cresce linearmente com este índice.

terça-feira, 8 de dezembro de 2020

As transferências de jogadores de futebol

Encontrei há uns tempos um dataset com as 250 transferências de jogadores de futebol mais caras, cada ano, entre 2000 e 2018.
São 615 os clubes envolvidos, e achei curioso estudar esta rede.
Comecei por fazer um ranking dos clubes pelo número total de transferências


e registando também o grau In (total de jogadores recebidos) e o grau Out (total de jogadores transferidos).
São os tubarões de costume, uns com saldo positivo e outros com saldo negativo entre o In e o Out, tudo com o seu significado.
A rede de transferências que envolve estes clubes mostra a existência de um certo número de "comunidades" de clubes e alguma subtis diferenças quando se consideram os jogadores recebidos


ou os jogadores transferidos


As comunidades detectadas representam conjuntos de clubes em que há mais transferências intra comunidade do que entre comunidades.
Todo um "mundo" a explorar...

sábado, 11 de abril de 2020

Epidemias e redes [1]

As epidemias transmitem-se pelas redes de contactos físicos dos humanos. Assim, para estudar epidemias é necessário saber como os humanos se movimentam, dentro das suas comunidades homogéneas, entre comunidades geograficamente vizinhas, e entre comunidades distantes usando meios de transporte como o avião.
A difusão de epidemias não será muito diferente da difusão de ideias, ou de comportamentos, só que aqui também estes se podem movimentar entre comunidades distantes através de um simples WhatsApp ou um programa de televisão, por exemplo.
Num modelo altamente simplificado, supomos que a infecção dura um dia, e que todos ficam curados, mas não imunizados, e que só intervêm dois factores, k, o número de indivíduos que um indivíduo pode infectar, e que tem a ver com o seu isolamento pessoal, e p, a probabilidade de um indivíduo ser infectado, que depende das suas vulnerabilidades próprias e do uso de dispositivos de protecção individual.
Neste modelo simples, numa população homogénea surge um indivíduo infectado, que vai contactar com k indivíduos, que infecta com uma probabilidade p e tudo depende deste valor R0=kp.


Se R0 for menor que 1 a infecção vai eventualmente extinguir-se e se R0 for maior que 1 vai eventualmente propagar-se a toda a população, ao fim de algum tempo.
Sem esquecer que se trata de probabilidades, e que, portanto, se os números forem pequenos os resultados podem parecer inesperados, aquele factor R0 é determinante para a propagação da epidemia.
Qualquer que seja o valor de R0 > 1, o crescimento será inicialmente exponencial, mas não crescerá indefinidamente, pois à medida que se aproxima da população total começa a ser difícil encontrar indivíduos disponíveis para infectar.


Nesta figura, começamos com um único infectado no dia inicial, e vê-se que o crescimento da epidemia é muito sensível ao valor de R0.
Analisaremos em próxima publicação os efeitos da imunidade e do esgotamento da população não infectada.
Uma boa referência é este capítulo do livro Networks, Crowds, and Markets: Reasoning about a Highly Connected World, de David Easley e Jon Kleinberg, Cambridge University Press, 2010.

sexta-feira, 8 de novembro de 2019

Um ranking ATP

Estabelecer o ranking dos jogadores profissionais de ténis ao logo de uma época ou de um conjunto de épocas é uma tarefa complexa.
Não jogando todos contra todos, pode pontuar-se mais os resultados em torneios mais valiosos, com os pontos crescendo de eliminatória para eliminatória, como actualmente é feito, ou pode considerar-se cada resultado como uma interacção entre dois jogadores (direccionada, do vencido para o vencedor, por exemplo) e usar uma métrica de ranking da rede de resultados (PageRank ou eigenvector) para o ranking global, valorizando mais as vitórias sobre jogadores melhor classificados.
No sítio data.world encontramos um ficheiro muito completo com todos os resultados de todos os torneios de ténis ATP desde 2000-01-31 até 2019-10-27 (54846 jogos, ao longo de quase 20 anos), do qual extraímos facilmente uma lista de pares ordenados (vencido, vencedor) que abrimos na ferramenta Gephi.
Nesta figura, onde só constam os jogadores com mais de 100 vitórias, temos os vértices da redes e etiquetas com tamanho proporcional ao PageRank e usamos o algoritmo fornecido para descobrir comunidades, que acabou por agrupar os jogadores de acordo com as gerações a que pertencem e também com os continente em que mais vezes jogam:


Sem surpresas, Federer, Nadal e Djokovic lideram este ranking.
O que fica patente é que seria possível aprofundar este estudo, ver as dinâmicas das classificações ano a ano, ver a influência dos pisos dos courts, etc.
Deixo a sugestão...