Por Antigone Davis, Chefe Global de Segurança, e Guy Rosen, VP de Integridade

No Facebook, contamos com uma combinação de tecnologia e pessoas para ajudar a manter nossas plataformas seguras. Quando identificamos um conteúdo nocivo, como exploração infantil, propaganda terrorista ou violência explícita, a tecnologia pode nos ajudar a encontrar duplicatas e impedir que elas sejam compartilhadas.

Hoje, nós vamos abrir o código de duas tecnologias que detectam fotos e vídeos idênticos e quase idênticos – compartilhando, assim, uma parte da tecnologia que usamos para combater o abuso em nossa plataforma com outras pessoas que estão trabalhando para manter a internet segura. Esses algoritmos terão código aberto no GitHub para que nossos parceiros do setor, desenvolvedores menores e organizações sem fins lucrativos possam usá-los para identificar mais facilmente conteúdo abusivo e compartilhar hashes – ou impressões digitais – de diferentes tipos de conteúdo prejudicial. Para aqueles que já usam tecnologia de correspondência de conteúdo, essas tecnologias são outro nível de defesa e permitem que os sistemas de compartilhamento de hash conversem entre si, tornando-os muito mais poderosos.

“Em apenas um ano, assistimos a um aumento de 541% no número de vídeos de abuso sexual infantil reportados pela indústria de tecnologia para a CyberTipline. Estamos confiantes de que a contribuição generosa do Facebook com essa tecnologia de código aberto acabará levando à identificação e ao resgate de mais vítimas de abuso sexual infantil “, disse John Clark, presidente e diretor executivo do Centro Nacional de Crianças Desaparecidas e Exploradas (NCMEC).

Ao longo dos anos, o Facebook contribuiu com centenas de projetos de código aberto para compartilhar nossa tecnologia com a comunidade em geral, mas esta é a primeira vez que compartilhamos qualquer tecnologia de correspondência de foto ou vídeo. Com base na generosa contribuição da Microsoft do PhotoDNA para combater a exploração infantil há 10 anos e no lançamento mais recente da Google Content Safety API, o anúncio de hoje também faz parte de um compromisso de toda a indústria para construir uma Internet mais segura.

Conhecidas como PDQ e TMK + PDQF, essas tecnologias fazem parte de um conjunto de ferramentas que usamos no Facebook para detectar conteúdo prejudicial, e há outros algoritmos e implementações disponíveis para a indústria, como pHash, PhotoDNA da Microsoft, aHash e dHash. Nosso algoritmo de correspondência de fotos, o PDQ, deve boa parte de sua inspiração ao pHash, embora tenha sido construído desde o início como um algoritmo distinto com implementação de software independente. A tecnologia de correspondência de vídeo, TMK + PDQF, foi desenvolvida em conjunto pela equipe de pesquisa de inteligência artificial do Facebook e por acadêmicos da Universidade de Modena e Reggio Emilia, na Itália.

Essas tecnologias criam uma maneira eficiente de armazenar arquivos como hashes digitais curtos que podem determinar se dois arquivos são iguais ou semelhantes, mesmo sem a imagem ou o vídeo original. Os hashes também podem ser mais facilmente compartilhados com outras empresas e organizações sem fins lucrativos. Por exemplo, quando identificamos propaganda terrorista em nossas plataformas, removemos e propagamos o hash usando uma variedade de técnicas, incluindo os algoritmos que estamos compartilhando hoje. Em seguida, compartilhamos os hashes com parceiros do setor, incluindo empresas menores, por meio do GIFCT, para que eles também possam remover o mesmo conteúdo se ele aparecer em seus serviços.

PDQ e TMK + PDQF foram projetados para operar em alta escala, apoiando aplicações de hashing de quadros de vídeo e em tempo real. Projetamos essas tecnologias com base em nossa experiência na detecção de abuso em bilhões de postagens no Facebook. Esperamos que, ao contribuir para a comunidade, tornamos possível que mais empresas mantenham seus serviços seguros e capacitem organizações sem fins lucrativos que trabalham no espaço. Este trabalho agrega as nossas pesquisas contínuas nessas áreas, incluindo nossa parceria com a Universidade de Maryland, Cornell University, Instituto de Tecnologia Massachusettes e a Universidade da Califórnia, Berkeley com o intuito de pesquisar novas técnicas para detectar manipulações intencionais de vídeos e fotos e burlar nossos sistemas.

Estamos anunciando hoje essas tecnologias para apoiar o quarto Hackathon anual de segurança infantil da indústria na sede do Facebook em Menlo Park, Califórnia. O evento de dois dias reúne quase 80 engenheiros e cientistas de dados das empresas parceiras da Technology Coalition, além de outras companhias, para desenvolver novas tecnologias que ajudam a proteger as crianças.

O evento deste ano está focado no desenvolvimento de novas ferramentas para ajudar nossos parceiros, NCMEC e Thorn. Por exemplo, algumas equipes irão criar um recurso que permitirá que a polícia use a ferramenta de gerenciamento de casos CyberTip da NCMEC para consultar bancos de dados de hashtags conhecidas e informações importantes relacionadas a uma CyberTip específica e coletar e comparar pontos de dados, auxiliando em seus esforços para identificar crianças em risco e identificar relatórios altamente acionáveis. O código-fonte aberto divulgado hoje também será disponibilizado para as equipes no hackathon.

Hackathons são uma forma interessante de reunir pessoas de diferentes organizações com uma variedade de conhecimentos para construir ferramentas que abordam problemas como a exploração sexual de crianças online. Todos os códigos e protótipos de código aberto desenvolvidos no evento serão doados de volta à Coalizão de Tecnologia e aos nossos parceiros para serem usados ​​em seus esforços de segurança infantil.

Continuaremos a expandir e melhorar nossos próprios produtos e recursos para encontrar conteúdo prejudicial. Leia mais sobre como o Facebook está usando a tecnologia para combater a exploração infantil aqui.