Wikipedia:Páginas mais vandalizadas
Origem: Wikipédia, a enciclopédia livre.
Esta página objetiva fazer um levantamento dos artigos que mais tem sofrido vandalismo na wikipédia ao longo dos tempos. Os dados apresentados abaixo não são exatos. São apenas uma estimativa com o objetivo de ajudar a comunidade a vigiar e proteger as páginas que são vítimas mais freqüentes de vandalismo.
Índice |
[editar] Listas
Para todas as listas abaixo foi utilizado o dump ptwiki-20071011-stub-meta-history.xml.gz datado de 11 de outubro de 2007 às 10:32:32 [1][2].
[editar] Páginas mais vandalizadas de todos os tempos
Página | Reversões | Total de Edições | % de reversões |
---|---|---|---|
Brasil | 579 | 3854 | 15.02 |
Luiz Inácio Lula da Silva | 363 | 1724 | 21.06 |
Sport Club Corinthians Paulista | 362 | 3330 | 10.87 |
Estados Unidos da América | 340 | 1470 | 23.13 |
Orkut | 329 | 1814 | 18.14 |
Morangos com Açúcar | 298 | 2893 | 10.30 |
São Paulo Futebol Clube | 288 | 2026 | 14.22 |
Portugal | 285 | 1914 | 14.89 |
Wiki | 248 | 924 | 26.84 |
Wikipédia | 247 | 1047 | 23.59 |
Adolf Hitler | 244 | 1197 | 20.38 |
Sport Lisboa e Benfica | 237 | 1562 | 15.17 |
Revolução Francesa | 237 | 1076 | 22.03 |
Grêmio Foot-Ball Porto Alegrense | 225 | 1853 | 12.14 |
Água | 219 | 808 | 27.10 |
Partido dos Trabalhadores | 209 | 991 | 21.09 |
São Paulo (cidade) | 207 | 1855 | 11.16 |
África | 201 | 821 | 24.48 |
Segunda Guerra Mundial | 200 | 1244 | 16.08 |
Rebelde (telenovela) | 197 | 1312 | 15.02 |
[editar] Páginas mais vandalizadas em 2006
Página | Reversões | Total de Edições | % de reversões |
---|---|---|---|
Brasil | 350 | 2320 | 15.09 |
Orkut | 283 | 1345 | 21.04 |
Morangos com Açúcar | 255 | 2272 | 11.22 |
Estados Unidos da América | 219 | 901 | 24.31 |
Sport Club Corinthians Paulista | 207 | 1702 | 12.16 |
Luiz Inácio Lula da Silva | 204 | 914 | 22.32 |
Wikipédia | 196 | 762 | 25.72 |
Grêmio Foot-Ball Porto Alegrense | 146 | 881 | 16.57 |
RBD | 145 | 926 | 15.66 |
Adolf Hitler | 141 | 500 | 28.2 |
Sociedade Esportiva Palmeiras | 127 | 799 | 15.89 |
Segunda Guerra Mundial | 126 | 717 | 17.57 |
São Paulo Futebol Clube | 119 | 792 | 15.03 |
Alemanha | 110 | 618 | 17.8 |
Portugal | 109 | 799 | 13.64 |
Clube de Regatas do Flamengo | 107 | 965 | 11.09 |
África | 105 | 442 | 23.76 |
Wiki | 105 | 355 | 29.58 |
Primeira Guerra Mundial | 103 | 425 | 24.24 |
Geraldo Alckmin | 102 | 852 | 11.97 |
[editar] Páginas mais vandalizadas em 2007
Página | Reversões | Total de Edições | % de reversões |
---|---|---|---|
Revolução Francesa | 133 | 467 | 28.48 |
Água | 133 | 405 | 32.84 |
Sport Lisboa e Benfica | 124 | 609 | 20.36 |
Portugal | 122 | 650 | 18.77 |
São Paulo Futebol Clube | 115 | 596 | 19.30 |
Aquecimento global | 109 | 532 | 20.49 |
São Paulo (cidade) | 106 | 627 | 16.91 |
Rebelde (telenovela) | 104 | 394 | 26.40 |
Brasil | 101 | 733 | 13.78 |
Amor | 100 | 316 | 31.65 |
Amazônia | 98 | 307 | 31.92 |
Naruto | 96 | 734 | 13.08 |
Leonardo da Vinci | 96 | 624 | 15.38 |
Revolução Industrial | 96 | 328 | 29.27 |
Língua portuguesa | 93 | 399 | 23.31 |
LOL | 93 | 289 | 32.18 |
Globalização | 92 | 286 | 32.17 |
2007 | 91 | 1264 | 7.20 |
Bill Gates | 89 | 315 | 28.25 |
Malhação | 85 | 805 | 10.56 |
[editar] Páginas mais vandalizadas no mês de setembro de 2007
Página | Reversões | Total de Edições | % de reversões |
---|---|---|---|
São Paulo Futebol Clube | 45 | 163 | 27.61 |
Zac Efron | 27 | 113 | 23.89 |
Leonardo da Vinci | 26 | 263 | 9.89 |
Água | 26 | 75 | 34.67 |
Naruto | 25 | 158 | 15.82 |
Negro | 24 | 46 | 52.17 |
Paraíso Tropical | 23 | 449 | 5.12 |
Independência do Brasil | 21 | 89 | 23.60 |
LOL | 21 | 51 | 41.18 |
Revolução Francesa | 20 | 58 | 34.48 |
Olivença | 19 | 85 | 22.35 |
Basquetebol | 19 | 58 | 32.76 |
RBD | 18 | 118 | 15.25 |
São Paulo (cidade) | 18 | 84 | 21.43 |
William Shakespeare | 18 | 44 | 40.91 |
Sistema circulatório | 18 | 42 | 42.86 |
Morangos com Açúcar | 17 | 230 | 7.39 |
Sport Club Corinthians Paulista | 17 | 143 | 11.89 |
RedeTV! ES | 16 | 220 | 7.27 |
Avril Lavigne | 16 | 112 | 14.29 |
[editar] Metodologia
Pela própria natureza do vandalismo, não é possível uma identificação exata da sua ocorrência de forma automática. Por isso utilizamos uma solução razoável baseada na quantidade de reversões sofridas pela página. Ainda assim, a única forma de se identificar uma reversão é através dos comentários deixados nas edições de reversão, portanto tenham em mente que os dados apresentados são apenas uma estimativa, e que o número real de vandalismos sofridos pode ser ligeiramente diferente dos valores apresentados.
Os dados foram levantados através dos dumps fornecidos pela fundação wikimédia, de forma que os dados podem também demorar algum tempo para serem atualizados, já que são arquivos grandes e são fornecidos com uma freqüência determinada. Além disso o processo de importação desses dumps é trabalhoso e demorado.
Por último, limitamos o trabalho ao domínio principal, que é o mais importante da wikipédia e por isso o mais vandalizado. Esta limitação foi introduzida para facilitar os aspectos técnicos da operação, já que os domínios não são identificados de forma textual no banco de dados e sim através de códigos.
[editar] Importação dos dumps
Em primeiro lugar efetuamos o download do dump mais recente[1]. Este dump é então processado através do software Xml2sql e importado segundo as instruções presentes em m:Xml2sql.
Ressaltamos que esta forma de importação depende da prévia instalação de uma versão do software MediaWiki para que seja criada adequadamente a estrutura do banco de dados. O dump contém apenas os dados crus, e a estrutura precisa ser criada previamente.
[editar] Consultas
Após terem sido importados, os dados são extraídos através das seguintes consultas SQL feitas diretamente no banco de dados:
[editar] Criação de views
Para facilitar a construção das consultas, foi criada a seguinte view no banco de dados, que consolida os dados de páginas com os de revisão:
CREATE VIEW page_rev AS SELECT p.page_title AS page_title, p.page_id AS page_id, r.rev_comment AS rev_comment, r.rev_timestamp AS rev_timestamp FROM page p, revision r WHERE p.page_id = r.rev_page AND p.page_namespace = 0
[editar] Páginas mais vandalizadas de todos os tempos
SELECT title, page_id, reverts, total, reverts/total*100 AS 'percent' FROM (SELECT p1.page_title title, p1.page_id page_id, count(*) reverts, (SELECT count(*) total FROM page_rev p2 WHERE p1.page_id = p2.page_id ) total FROM page_rev p1 WHERE p1.rev_comment LIKE 'rv%' COLLATE utf8_unicode_ci OR p1.rev_comment LIKE 'revert%' COLLATE utf8_unicode_ci OR p1.rev_comment LIKE 'revers%' COLLATE utf8_unicode_ci OR p1.rev_comment LIKE 'desfeita%' COLLATE utf8_unicode_ci GROUP BY p1.page_title, p1.page_id) revs ORDER BY reverts DESC, total DESC, percent DESC, title ASC;
[editar] Páginas mais vandalizadas por período
SELECT title, page_id, reverts, total, reverts/total*100 AS 'percent' FROM (SELECT p1.page_title title, p1.page_id page_id, count(*) reverts, (SELECT count(*) total FROM page_rev p2 WHERE p1.page_id = p2.page_id AND p2.rev_timestamp BETWEEN '20070801000000' AND '20070901000000') total FROM page_rev p1 WHERE (p1.rev_comment LIKE 'rv%' COLLATE utf8_unicode_ci OR p1.rev_comment LIKE 'revert%' COLLATE utf8_unicode_ci OR p1.rev_comment LIKE 'revers%' COLLATE utf8_unicode_ci OR p1.rev_comment LIKE 'desfeita%' COLLATE utf8_unicode_ci) AND p1.rev_timestamp BETWEEN '20070801000000' AND '20070901000000' GROUP BY p1.page_title, p1.page_id) revs ORDER BY reverts DESC, total DESC, percent DESC, title ASC;
Onde as linhas que lêem and p1.rev_timestamp between '20070801000000' and '20070901000000'
indicam as datas inicial ('20070801000000') e final ('20070901000000') respectivamente. A data se encontra no formato 'YYYYMMDDhhmmss' onde YYYY representa o ano com quatro dígitos; MM o mês com 2 dígitos (incluindo um zero inicial se for o caso); DD o dia com 2 dígitos; hh a hora, de 00 a 23, também com 2 dígitos; mm os minutos com dois dígitos, e ss os segundos com 2 dígitos.
As datas devem ser alteradas em ambas as linhas de forma idêntica para que a consulta tenha o efeito desejado.
[editar] Notas
- ↑ 1,0 1,1 (en) ptwiki dump progress on 20071011
- ↑ Por não haver alteração nos dados relativos a anos anteriores, os dados de 2006 não foram atualizados, tendo sido utilizado o dump ptwiki-20070906-pages-meta-history.xml.7z datado de 8 de setembro de 2007 às 11:48:57