V God: experimento de mídia social Community Notes é muito criptografado

Os últimos dois anos foram sem dúvida turbulentos para o Twitter (X). No ano passado, Elon Musk comprou a plataforma por US$ 44 bilhões e reformulou a equipe, a revisão de conteúdo, o modelo de negócios e a cultura do site da empresa. Essas mudanças podem ser mais devido ao poder brando de Elon Musk do que a decisões políticas específicas. Em meio a esses movimentos controversos, no entanto, um novo recurso no Twitter está rapidamente ganhando importância e aparentemente desfrutando de favores em todo o espectro político: notas da comunidade.

Notas da comunidade é uma ferramenta de verificação de fatos que às vezes anexa anotações contextuais aos tweets, como a de Elon Musk acima, como uma ferramenta de verificação de fatos e anti-desinformação. Foi originalmente chamado de Birdwatch e foi lançado como um programa piloto em janeiro de 2021. Desde então, expandiu-se gradualmente, com a fase de expansão mais rápida coincidindo com a aquisição do Twitter por Elon Musk no ano passado. Hoje, as notas da comunidade são um recurso regular de tweets que recebem muita atenção no Twitter, incluindo aqueles que abordam tópicos políticos controversos. Na minha opinião, e de minhas conversas com muitas pessoas em todo o espectro político, essas Notas são informativas e valiosas quando aparecem.

Mas o que mais me interessa é o Community Notes, que, embora não seja um "projeto criptográfico", é provavelmente a instância mais próxima de "valores criptográficos" que vimos no mundo convencional. As notas da comunidade não são escritas ou curadas por algum especialista selecionado centralmente; em vez disso, qualquer pessoa pode escrever e votar, e quais notas exibir ou não são determinadas inteiramente por um algoritmo de código aberto. O site do Twitter tem um guia detalhado e abrangente que descreve como o algoritmo funciona, e você pode baixar os dados contendo notas e votos postados, executar o algoritmo localmente e verificar se a saída corresponde ao que está visível no site do Twitter. Embora não seja perfeito, é surpreendentemente próximo do ideal de neutralidade crível em situações bastante controversas e é muito útil ao mesmo tempo.

Como funciona o algoritmo Community Notes?

Qualquer pessoa com uma conta no Twitter que atenda a determinados critérios (basicamente: ativo por mais de 6 meses, sem histórico de violação, número de celular verificado) pode se inscrever para participar das notas da comunidade. Atualmente, os participantes estão sendo aceitos de forma lenta e aleatória, mas eventualmente o plano é permitir que qualquer um que seja elegível participe. Uma vez aceito, você pode primeiro participar da avaliação das notas existentes e, uma vez que sua nota seja boa o suficiente (medida ao ver qual nota corresponde ao resultado final dessa nota), você também pode escrever suas próprias notas.

Quando você escreve notas, as notas recebem uma pontuação com base na revisão de outros membros das notas da comunidade. Essas revisões podem ser vistas como votos nos três níveis de "útil", "um pouco útil" e "não útil", mas as revisões também podem conter outros rótulos que desempenham funções no algoritmo. Com base nessas análises, o Notes recebe uma pontuação. Se a pontuação das Notas exceder 0,40, então estas Notas serão exibidas; caso contrário, estas Notas não serão exibidas.

O que torna o algoritmo único é como a pontuação é calculada. Ao contrário dos algoritmos simplistas, que são projetados para simplesmente calcular algum tipo de soma ou média de avaliações de usuários e usá-la como resultado final, o algoritmo de classificação de notas da comunidade tenta priorizar explicitamente aqueles que obtêm classificações positivas de pessoas com notas de perspectivas diferentes. Ou seja, se as pessoas que geralmente discordam nas classificações acabam concordando com uma nota específica, essa nota será altamente avaliada.

Vamos dar uma olhada mais profunda em como isso funciona. Temos um conjunto de usuários e um conjunto de Notas; podemos criar uma matriz M onde a célula Mij representa como o i-ésimo usuário classificou as j-ésimas Notas.

Para qualquer Nota, a maioria dos usuários não avaliou essa Nota, então a maioria das entradas na matriz será zero, mas tudo bem. O objetivo do algoritmo é criar um modelo de quatro colunas de usuários e Notes, atribuindo a cada usuário duas estatísticas, que podemos chamar de "Amigabilidade" e "Polaridade", e atribuindo a cada Notes duas estatísticas, chamamos de "utilidade" e "polaridade". O modelo tenta prever a matriz em função desses valores, usando a seguinte fórmula:

Observe que aqui apresento a terminologia usada no artigo da Birdwatch, bem como a minha própria, para fornecer uma compreensão mais intuitiva do que as variáveis significam sem entrar em conceitos matemáticos:

μ é um parâmetro de "sentimento público" que mede o quão alto os usuários geralmente classificam as avaliações.
iu é a "amigável" do usuário, ou seja, a probabilidade de o usuário dar uma classificação alta.
in é a "utilidade" da nota, ou seja, a probabilidade de a nota ser altamente avaliada. Esta é a variável com a qual nos preocupamos.
fu ou fn é a "polaridade" do usuário ou Notas, ou seja, sua posição no eixo dominante dos extremos políticos. Na prática, polaridade negativa significa aproximadamente "inclinação para a esquerda" e polaridade positiva "inclinação para a direita", mas observe que os eixos extremos são derivados da análise dos dados do usuário e do Notes, e os conceitos de esquerda e direita não são codificados.

O algoritmo usa um modelo de aprendizado de máquina bastante básico (descida de gradiente padrão) para encontrar os melhores valores de variáveis para prever os valores da matriz. A utilidade atribuída a uma determinada nota é a pontuação final dessa nota. Uma nota será exibida se sua utilidade for de pelo menos + 0,4.

A engenhosidade central aqui é que a "polaridade" absorve as características de um Notes, que fazem com que alguns usuários gostem dele e não gostem de outros usuários, enquanto a "utilidade" mede apenas as características de um Notes. por todos os usuários. A seleção de utilidade identifica as Notas que são aprovadas entre as tribos e exclui as Notas que são saudadas em uma tribo, mas não apreciadas por outra.

O acima descreve apenas a parte central do algoritmo. Na verdade, existem muitos mecanismos adicionais adicionados a ele. Felizmente, eles são descritos em documentação pública. Esses mecanismos incluem o seguinte:

O algoritmo é executado várias vezes, cada vez adicionando alguns "pseudo-votos" extremos gerados aleatoriamente à votação. Isso significa que a verdadeira saída do algoritmo para cada Nota é um intervalo de valores e o resultado final depende de um "nível de confiança inferior" obtido desse intervalo e comparado a um limite de 0,32.
Se muitos usuários (especialmente aqueles de polaridade semelhante às Notas) classificaram uma Nota como "inútil" e também atribuíram o mesmo "rótulo" (por exemplo, "linguagem argumentativa ou tendenciosa", "Notas de origem não são suportadas") como o motivo da pontuação, o limite de utilidade necessário para que as Notas sejam publicadas aumenta de 0,4 para 0,5 (pode parecer pouco, mas é muito importante na prática).
Se uma nota for aceita, sua utilidade deve cair abaixo do limite de 0,01 pontos exigido para aceitar a nota.
Os algoritmos são executados mais vezes com vários modelos, às vezes aprimorando o Notes com pontuações brutas de utilidade entre 0,3 e 0,4.

Ao todo, você acaba com um código Python bastante complexo, totalizando 6282 linhas espalhadas por 22 arquivos. Mas está tudo aberto, e você pode baixar as Notas e os dados de pontuação e executá-los você mesmo para ver se a saída corresponde ao que realmente está acontecendo no Twitter.

Então, como isso se parece na prática?

Provavelmente, a maior diferença entre esse algoritmo e o método de simplesmente obter a pontuação média dos votos das pessoas é o conceito do que chamo de valores de "polaridade". A documentação do algoritmo refere-se a eles como fu e fn, usando f como fator porque os dois termos se multiplicam; o termo mais geral é em parte devido ao eventual desejo de tornar fu e fn multidimensionais.

A polaridade é atribuída a usuários e notas. O link entre o ID do usuário e a conta subjacente do Twitter é intencionalmente mantido privado, mas o Notes é público. De fato, pelo menos para o conjunto de dados em inglês, a polaridade gerada pelo algoritmo se correlaciona muito bem com esquerda e direita.

Aqui estão alguns exemplos de notas com polaridade em torno de -0,8:

Observe que não estou escolhendo a dedo aqui; na verdade, essas são as três primeiras linhas na planilha score_notes.tsv que gerei quando executo o algoritmo localmente e suas pontuações de polaridade (chamadas coreNoteFactor 1 na planilha) menores que -0,8.

Agora, aqui estão algumas Notas com polaridade em torno de +0,8. Acontece que muitos deles eram pessoas falando sobre política brasileira em português ou fãs de Tesla refutando com raiva as críticas a Tesla, então deixe-me escolher um pouco e encontrar algumas notas que não se enquadram em nenhuma das categorias:

Como lembrete, a "divisão esquerda x direita" não é codificada no algoritmo de forma alguma, ela é descoberta computacionalmente. Isso sugere que, se você aplicar esse algoritmo a outros contextos culturais, ele poderá detectar automaticamente suas principais divisões políticas e construir pontes entre elas.

Enquanto isso, as notas que obtêm a maior utilidade ficam assim. Desta vez, como as Notas realmente aparecem no Twitter, posso apenas capturar uma delas:

E outro:

Para o segundo Notes, trata mais diretamente de temas políticos altamente partidários, mas é um Notes claro, de alta qualidade e informativo que obtém uma pontuação alta por isso. No geral, o algoritmo parece funcionar e parece viável verificar a saída do algoritmo executando o código.

O que eu penso sobre o algoritmo?

O que mais me impressionou ao analisar esse algoritmo foi sua complexidade. Há uma "versão acadêmica em papel" que usa gradiente descendente para encontrar o melhor ajuste para um vetor de cinco termos e uma equação matricial, e há a versão real, uma série complexa de execuções algorítmicas com muitas execuções diferentes e muitos coeficientes arbitrários .

Mesmo versões de trabalhos acadêmicos escondem complexidades subjacentes. A equação otimizada é um quártico negativo (porque há um termo fu*fn quadrático na fórmula de previsão e a função de custo mede o quadrado do erro). Embora a otimização de uma equação quadrática sobre qualquer número de variáveis quase sempre tenha uma solução única, que você pode descobrir com álgebra linear razoavelmente básica, a otimização de uma equação quadrática sobre muitas variáveis geralmente terá muitas soluções, portanto, várias rodadas do algoritmo de descida de gradiente Diferentes respostas podem ser obtidas. Pequenas mudanças de entrada podem fazer com que a descida mude de um mínimo local para outro, alterando significativamente os resultados de saída.

A diferença entre este e os algoritmos que ajudei a desenvolver, como o financiamento quadrático, é para mim como a diferença entre o algoritmo de um economista e o algoritmo de um engenheiro. Os algoritmos dos economistas, na melhor das hipóteses, concentram-se na simplicidade, são relativamente fáceis de analisar e têm propriedades matemáticas claras que afirmam que são ótimos (ou menos ruins) para a tarefa em questão e, idealmente, provam que quanto dano alguém pode causar em tentando aproveitá-lo. O algoritmo de um engenheiro, por outro lado, é derivado de um processo iterativo de tentativa e erro para ver o que funciona e o que não funciona no ambiente operacional do engenheiro. O algoritmo de um engenheiro é pragmático e faz o trabalho; o algoritmo de um economista não perde completamente o controle diante do inesperado.

Ou, como o respeitado filósofo da internet roon (também conhecido como tszzl) colocou em um tópico relacionado:

Claro, eu diria que o aspecto "estético teórico" das criptomoedas é necessário para poder distinguir com precisão entre os protocolos que são verdadeiramente inseguros e aqueles que parecem bons e funcionam superficialmente bem, mas na verdade exigem a confiança em algum ator centralizado, Ou pior ainda, pode ser um golpe total.

O aprendizado profundo é eficaz em condições normais, mas tem fraquezas inevitáveis para vários ataques adversários de aprendizado de máquina. Se bem feito, armadilhas técnicas e escadas altamente abstratas podem combater esses ataques. Então, eu tenho uma pergunta: podemos transformar o próprio Community Notes em algo mais como um algoritmo econômico?

Para ver na prática o que isso significa, vamos explorar um algoritmo que desenvolvi para um propósito semelhante há alguns anos: Financiamento quadrático limitado por pares.

O objetivo do financiamento quadrático limitado por pares é preencher uma lacuna no financiamento quadrático "convencional", onde mesmo se dois jogadores conspirarem entre si, eles podem contribuir com quantias muito altas para um projeto falso, ter os fundos devolvidos a eles e obter grandes subsídios que drenam todo o seu dinheiro. No financiamento quadrático limitado por pares, atribuímos um orçamento finito M a cada par de participantes. O algoritmo itera sobre todos os pares possíveis de participantes, e se o algoritmo decidir adicionar um subsídio a algum projeto P porque tanto o participante A quanto o participante B o suportam, então este subsídio é deduzido do orçamento alocado para aquele par (A,B) . Portanto, mesmo que k participantes entrem em conluio, a quantia que eles roubam do mecanismo é no máximo k *(k-1)*M.

Essa forma de algoritmo não funciona bem no contexto de Notas da comunidade, pois cada usuário lança apenas um pequeno número de votos: em média, o voto comum entre quaisquer dois usuários é zero; portanto, basta olhar para cada par individualmente Usuários, o algoritmo não tem como saber a polaridade dos usuários. O objetivo de um modelo de aprendizado de máquina é precisamente tentar "preencher" uma matriz de dados de origem muito esparsos que não podem ser analisados diretamente dessa maneira. Mas o desafio dessa abordagem é que é necessário um esforço extra para evitar resultados altamente voláteis diante de um pequeno número de votos ruins.

O Community Notes pode realmente resistir à esquerda e à direita?

Podemos analisar se o algoritmo Community Notes é realmente resistente a extremos, ou seja, se tem melhor desempenho do que um algoritmo de votação ingênuo. Esse algoritmo de votação já é um pouco resistente a extremos: uma postagem com 200 curtidas e 100 deslikes terá um desempenho pior do que uma postagem com apenas 200 curtidas. Mas as notas da comunidade se saem melhor?

Do ponto de vista do algoritmo abstrato, é difícil dizer. Por que uma postagem polarizadora com uma classificação média alta não pode obter forte polaridade e alta utilidade? A ideia é que, se esses votos forem conflitantes, a polaridade deveria "absorver" o recurso que fez com que o post recebesse muitos votos, mas será que realmente faz isso?

Para verificar isso, executei minha implementação simplificada por 100 rodadas. O resultado médio é o seguinte:

Neste teste, Notas "boas" foram classificadas como +2 por usuários da mesma afiliação política, +0 por usuários da afiliação política oposta e Notas "boas, mas mais extremas" foram classificadas por usuários da mesma afiliação com classificação +4 em , e -2 em usuários da facção oposta. Embora a pontuação média seja a mesma, a polaridade é diferente. E, de fato, a utilidade média das Notas "boas" parece ser maior do que a das Notas "boas, mas com tendências mais extremas".

Ter um algoritmo mais próximo do "algoritmo do economista" teria uma história mais clara de como o algoritmo pune os extremos.

Quão útil é tudo isso em uma situação de alto risco?

Podemos aprender sobre alguns deles observando uma situação específica. Cerca de um mês atrás, Ian Bremmer reclamou que um tweet adicionou uma nota da comunidade altamente crítica, mas as notas foram excluídas desde então.

Esta é uma tarefa assustadora. O design do mecanismo é uma coisa em um ambiente de comunidade Ethereum, onde a maior reclamação pode ser apenas $ 20.000 indo para um influenciador extremo do Twitter. É uma história diferente quando se trata de questões políticas e geopolíticas que afetam milhões de pessoas, e todos tendem a presumir razoavelmente os piores motivos possíveis. Mas interagir com esses ambientes de alto risco é essencial se os projetistas mecânicos quiserem ter um impacto significativo no mundo.

Felizmente, o algoritmo é de código aberto e verificável, então podemos chegar ao fundo dele! Vamos fazer isso. A URL do tweet original é o número 1676157337109946369 no final é o ID do tweet. Podemos procurar esse ID nos dados para download e identificar a linha específica na planilha que contém as notas acima:

Aqui temos o próprio ID do Notes, 1676391378815709184 . Em seguida, procuramos esse ID nos arquivos score_notes.tsv e note_status_history.tsv gerados pela execução do algoritmo. Obtivemos o seguinte resultado:

A segunda coluna na primeira saída é a classificação atual das Notas. A segunda saída mostra o histórico das Notas: seu status atual está na coluna sete (NEEDS_MORE_RATINGS), e o primeiro status recebido que não era NEEDS_MORE_RATINGS está na coluna cinco (NEEDS_MORE_RATINGS ) . ATUALMENTE_AVALIADO_HELPFUL). Portanto, podemos ver que o próprio algoritmo primeiro mostrou as Notas e depois as removeu depois que suas classificações caíram ligeiramente - nenhuma intervenção central parece estar envolvida.

Também podemos ver isso de outra maneira, olhando para a votação em si. Podemos verificar o arquivo ratings-00000.tsv para isolar todas as classificações para essas Notas e ver quantas são classificadas como ÚTEIS e NÃO_ÚTEIS:

No entanto, se você classificá-los por carimbo de data/hora e observar os 50 votos principais, verá que há 40 votos ÚTEIS e 9 votos NÃO_ÚTEIS. Então chegamos à mesma conclusão: o Notes foi classificado de forma mais positiva por seu público inicial e menos por seu público posterior, então sua classificação começou alta e declinou ao longo do tempo.

Infelizmente, é difícil explicar exatamente como as notas mudam de status: não é uma simples questão de "anteriormente classificado acima de 0,40, agora classificado abaixo de 0,40, então foi removido". Em vez disso, o alto número de respostas NOT_HELPFUL aciona uma das condições de exceção, aumentando a pontuação de utilidade que o Notes precisa para permanecer acima do limite.

Esta é outra grande oportunidade de aprendizado que nos ensina uma lição: tornar um algoritmo neutro confiável verdadeiramente confiável requer mantê-lo simples. Se uma Nota passar de aceita para não aceita, deve haver uma história simples e clara sobre o motivo disso.

Claro, há outra maneira completamente diferente de manipular esse voto: brigada. Alguém que vê um Notes que não aprova pode apelar para uma comunidade altamente engajada (ou pior, uma legião de contas falsas) para avaliá-lo como NÃO_ÚTIL, e provavelmente não são necessários muitos votos para obter o Notes de " útil" a "extremo". Mais análise e trabalho são necessários para reduzir adequadamente a vulnerabilidade do algoritmo a esses ataques coordenados. Uma possível melhoria seria não permitir que nenhum usuário vote em nenhuma nota, mas, em vez disso, atribuir notas aleatoriamente aos avaliadores usando a recomendação do algoritmo "para você" e permitir que os avaliadores avaliem apenas as notas às quais foram atribuídos.

Notas da comunidade Não é "corajoso" o suficiente?

A principal crítica que vejo do Community Notes é basicamente que ele não faz o suficiente. Eu vi dois artigos recentes mencionando isso. Para citar um dos artigos:

O processo sofre de uma séria limitação, pois, para que as Notas da Comunidade se tornem públicas, elas devem ser aceitas por um consenso de pessoas em todo o espectro político.

"Tem que ter um consenso ideológico", disse. "Isso significa que as pessoas à esquerda e à direita devem concordar que a nota deve ser anexada ao tuíte."

Essencialmente, disse ele, requer "um acordo ideológico sobre a verdade que é quase impossível em um ambiente cada vez mais partidário".

É uma pergunta complicada, mas, em última análise, estou inclinado a pensar que é melhor ter dez tweets de desinformação livres do que um tweet para ser anotado injustamente. Vimos anos de verificação de fatos que são corajosos e de uma perspectiva “na verdade, sabemos a verdade, sabemos que um lado mente com mais frequência do que o outro”. O que vai acontecer?

Para ser honesto, há uma desconfiança bastante difundida no próprio conceito de checagem de fatos. Aqui, uma estratégia é dizer: ignore esses críticos, lembre-se de que os verificadores de fatos conhecem os fatos melhor do que qualquer sistema de votação e persista. Mas apostar tudo nessa abordagem parece arriscado. Há valor na construção de instituições intertribais que sejam pelo menos um pouco respeitadas por todos. Como a máxima de William Blackstone e os tribunais, sinto que manter esse respeito requer um sistema que erra por omissão e não por erro voluntário. Portanto, parece válido para mim que pelo menos uma grande organização esteja seguindo esse caminho diferente e vendo seu raro respeito intertribal como um recurso precioso.

Outra razão pela qual acho que não há problema em as notas da comunidade serem conservadoras é que não acho que todos os tweets mal informados, ou mesmo os tweets mais mal informados, devam receber uma nota corretiva. Mesmo que menos de um por cento dos tweets mal informados sejam anotados para fornecer contexto ou correção, as notas da comunidade ainda fornecem um serviço extremamente valioso como ferramenta educacional. O objetivo não é corrigir tudo; em vez disso, o objetivo é lembrar às pessoas que existem vários pontos de vista, que algumas das postagens que parecem convincentes e envolventes isoladamente estão realmente erradas e que você, sim, geralmente pode fazer Pesquise na internet para verificar se está errado.

Community Notes não pode ser, nem pretende ser, uma panaceia para todos os problemas da epistemologia pública. Quaisquer que sejam os problemas que ele não resolva, há muito espaço para outros mecanismos preencherem, sejam gadgets inovadores, como mercados de previsão, ou organizações estabelecidas que contratam funcionários em tempo integral com experiência no domínio para tentar preencher as lacunas.

para concluir

O Community Notes não é apenas um experimento fascinante nas mídias sociais, mas também um exemplo fascinante de um tipo emergente de design de mecanismo: mecanismos que conscientemente tentam identificar extremos e tendem a promover o cruzamento em vez de perpetuar a divisão.

Dois outros exemplos nesta categoria que conheço são: (i) o mecanismo de financiamento quadrático emparelhado usado no Gitcoin Grants e (ii) Polis, uma ferramenta de discussão que usa algoritmos de agrupamento para ajudar a comunidade a identificar declarações populares comuns abrangem pessoas que muitas vezes têm opiniões diferentes. Esse campo de design de mecanismos é valioso e espero que vejamos mais trabalhos acadêmicos nessa área.

A transparência algorítmica que o Community Notes fornece não é exatamente uma mídia social totalmente descentralizada - se você não concorda com o funcionamento do Community Notes, não há como ver uma perspectiva algorítmica diferente no mesmo conteúdo. Mas isso é o mais próximo que os aplicativos de hiperescala chegarão nos próximos anos, e podemos ver que já oferece muito valor, tanto impedindo a manipulação centralizada quanto garantindo que plataformas que não se envolvam em tal manipulação recebam o que merecem reconhecido .

Estou ansioso para ver as notas da comunidade e muitos algoritmos de espírito semelhante se desenvolverem e crescerem na próxima década.

Ver original

Recompensa
curtir
Comentário
Compartilhar

Comentário

Sem comentários

Tema
#BTC#
74595 Postagens
#GateioInto11#
57378 Postagens
#ContentStar#
50339 Postagens
4#BOME#
49167 Postagens
5#ETH#
45030 Postagens
6#SLERF#
43891 Postagens
7#PIGCOIN#
42560 Postagens
8#比特币#
40647 Postagens
9#NADA#
38718 Postagens
10#HotTopicDiscussion#
36694 Postagens

sitemap