Temporada 01 | Episódio 03

Como as máquinas lidam com linguagem humana?

Inteligência Artificial tem tudo a ver com linguagem. Mas afinal, quais as limitações de linguagem das máquinas? Quais truques elas usam para entender os humanos? Descubra neste 3º episódio do Inside Alana Podcast.

#03 Como as máquinas lidam com linguagem humana?

[00:00:06]

Regina: Sejam bem-vindos ao Inside Alana Podcast, organizado pela Alana AI.

[00:00:16]

Regina: A Alana AI, uma empresa de inteligência artificial, que combina as inteligências humana e artificial para aproximar a relação entre marcas e clientes. A Alana AI oferece experiências incríveis através de conversas humanizadas, personalizadas e precisas, em grande escala.

E o objetivo dessa série de podcasts é levar informação e discutir o papel da Inteligência Artificial no futuro. Como ela vai influenciar organizações globais, e também o relacionamento entre humanos e tecnologia.

Aqui a gente vai compartilhar pensamentos e lições aprendidas em anos de experiência, como uma startup global, criadora de inteligência artificial e otimizadora do serviço de atendimento ao cliente. Vamos nessa?

[00:01:05]

Regina: Opa, eu aqui, pai, eu aqui Regina Bittar, âncora dessa temporada do Inside Alana Podcast, e eu estou aqui com Marcellus Amadeus, CTO da Alana AI, e especialista na área de inteligência artificial. Marcellus, é um prazer estar aqui com você de novo.

A gente está no nosso terceiro episódio e eu estou virando uma inteligência artificial em pessoa. Agora já não é mais só voz. Agora, olha, estou entendendo tudo, pode me contratar.

[00:01:36]

Marcellus: Tudo bem, Regina?

[00:01:38]

Regina: Gente, a gente vai falar hoje como as máquinas lidam com a linguagem humana. Sabe o que é isso? A gente não sabe mais quem é máquina e quem é humano, daqui a pouco. Isso é verdade, gente, eu estou ficando passada já com isso.

Bom, vamos lá. Será que tem como explicar isso sem usar códigos, Marcellus? Ficando uma linguagem mais legal, que a gente compreenda? Porque assim, eu não sou neuro, eu não tenho uma especialização, eu sei é falar. Isso que eu sei. Quando não esqueço o que é para falar, mas vamos lá.

[00:02:12]

Marcellus: É, a gente consegue entender o jeito que as máquinas lidam com a linguagem natural, como a gente chama, que é a linguagem humana. Mas eu acho que a gente poderia começar falando sobre o papel da linguagem na comunicação. Isso não envolve de jeito nenhum matemática ou códigos, ou qualquer coisa do tipo.

[00:02:32]

Regina: Isso de você falar da comunicação, da gente falar primeiro da comunicação é superinteressante. E eu queria saber como é que é isso. Como é que essa linguagem que pode ser verbal ou não verbal, é isso? É isso que você está querendo dizer com a comunicação?

[00:02:47]

Marcellus: Não, é porque a linguagem, ela é um meio sistemático de comunicar ideias ou sentimentos, através de signos, de símbolos gráficos, sonoros, mas de padrões identificáveis pelos falantes, ou pelos que exercitam aquela linguagem.

Por exemplo, pessoas que falam dois idiomas, elas são capazes de identificar signos ou símbolos em idiomas diferentes, teoricamente para a mesma coisa.

[00:03:20]

Regina: Quando você fala em signos, muita gente eu acho que pode remeter a uma coisa que eu adoro, mas eu sei que tem gente que tem até preconceito, que é a astrologia.

Você fala signos, porque é uma coisa que representa, é uma figura representativa? É isso que é um signo? Me explica o que que é um signo quando você fala de signo?

[00:03:40]

Marcellus: Sim, é porque o signo, ele vem desse contexto de ser o conceito, então ele representa uma ideia. É por isso que às vezes eu troco símbolos e signos para ficar mais fácil.

[00:03:56]

Regina: E é necessariamente visual?

Marcellus: Não, ele pode ser de qualquer tipo. Visual, gráfico, sonoro, que é um jeito de você padronizar a linguagem para que todo mundo consiga entender.

[00:04:10]

Regina: Entendi. Nossa, superinteressante. E como é que se formam esses signos, símbolos, gráficos, sonoros, gestuais? Tudo isso pode ser um um símbolo, né? Ele pode ser representado de diversas formas. E como é que eles se formam nas pessoas?

[00:04:27]

Marcellus: Eu acho que numa necessidade; talvez não necessidade, mas nessa ânsia de colaborar, tenha havido em algum momento a necessidade de você criar uma linguagem comum. E aí, por sua vez, você começa a criar conceitos que podem ser identificados por mais de uma pessoa.

E você começa a criar camadas de abstração, para você conseguir construir em comum e passar conhecimento de forma mais eficiente. Então, assim como os humanos usam esses símbolos para poder construir mais coisas, então o conhecimento é passado, e é documentado e é expandido constantemente, porque qualquer pessoa pode ter acesso à esse conhecimento como uma consciência coletiva, a linguagem.

A inteligência artificial não é diferente, ela também consegue reconhecer esses símbolos. Na verdade, faz parte do nosso trabalho fazer com que ela entenda esses símbolos humanos. Por isso que a gente chama de linguagem natural, em oposição a uma linguagem artificial, que a gente poderia criar, ou que uma máquina poderia criar.

Então, aqui você tem uma ideia de que a linguagem ela foi criada naturalmente, por isso que é linguagem natural. A gente também exclui linguagens animais, então hoje é um sinônimo, pelo menos nesse contexto, linguagem natural como linguagem humana [...]

Regina: Tá.

Marcellus: [...] e composta por essas diversas camadas de abstrações e símbolos, que a inteligência artificial tenta entender da mesma maneira que a gente entende.

Então ela imita o jeito que o humano fala ou constrói o pensamento, para que ela também possa ter aplicações para isso.

[00:06:20]

Regina: Sim, e possa se relacionar com um humano.

Marcellus: Possa se relacionar e criar essa ponte.

Regina: Eu entendi a comunicação natural, a comunicação humana, mas eu não entendi a comunicação artificial. O que que seria a comunicação artificial?

[00:06:36]

Marcellus: Você tem, por exemplo, em séries de TV, especialmente séries de ficção científica, você tem linguagens que são criadas. Por exemplo, Klingon, de Star Trek, ou por exemplo, o high valyrian, do Game of Thrones. São línguas artificiais.

Elas são criadas por lingüistas e por especialistas e você pode, eventualmente, chegar a um ponto em que as máquinas também criem suas linguagens artificiais. Porque, no final, a linguagem é o meio e ela tenta deixar de forma eficiente a comunicação, mas essa eficiência em relação ao que está produzindo. Então ela é uma forma de expressão?

Sim, mas nesse contexto, ela é uma forma de você ter uma produção de algo melhor. Então a tecnologia; a tecnologia é sempre construída no que existe hoje em dia e isso é expandido, então ela é ela interativa. Ela é construída no que já existe. Isso é possível graças à linguagem, porque a gente cria formas de comunicar essas partes e de colaborar com milhares, bilhões de pessoas, e a linguagem artificial, ela também pode ser usada para esse objetivo.

É que ela não chega a ser tão complexa quanto é a linguagem natural, porque a linguagem natural, ela é viva, ela se transforma. Você pode pegar um texto em português há quinhentos anos atrás e tem muitas coisas que são muito diferentes do que existe hoje. E principalmente porque você cria palavras novas.

[00:08:21]

Regina: E as palavras antigas também mudam de contexto, né?

Marcellus: De significado.

Regina: De significado. Dependendo do costume da sociedade, de como a sociedade vive, é isso?

Marcellus: Também

Regina: É interessante isso.

Marcellus: Os símbolos, eles são móveis.

Regina: São. Inclusive, palavras agora que fazem parte de um contexto de racismo que a gente nem percebia que chegou na nossa,  nas gerações atuais, elas têm um contexto que nasceu do racismo e hoje elas estão sendo questionadas, justamente porque elas são símbolos de uma coisa que podem até ter perdido o significado, mas elas podem continuar reforçando isso.

[00:09:01]

Marcellus: Em tecnologia, principalmente, você tem listas negras, né, blacklists para tudo. Então são listas, por exemplo, de pessoas que não podem acessar um recurso ou um servidor.

Coisas que não podem ser acessadas, ou coisas que devem ser barradas, coisas que não devem ter acesso. Você tem as blacklists em oposição às white lists.

Regina: Como é que a gente muda isso?

Marcellus: É um esforço conjunto, né? A língua, ela está viva. Ela vai sendo modificada ao longo do tempo [...]

Regina: e criando novos signos.

Marcellus: Sim, porque ela está, é o que eu falei, ela é um meio. Ela está aqui para otimizar a comunicação.

[00:09:49]

Regina: Então eu entendi, pelo que eu entendi a linguagem, a interpretação da linguagem é um ponto chave para a comunicação, tanto para humano quanto para as máquinas. Tá, tudo bem. Agora, você podia me explicar um pouquinho melhor esse processamento de linguagem natural? Como é que funciona isso?

[00:10:07]

Marcellus: Sim, essa subárea da ciência da computação, a inteligência artificial e linguística, ela estuda exatamente esses problemas de geração, compreensão de línguas humanas naturais.

É curioso, porque essa área foi uma das primeiras a receber aplicações de inteligência artificial lá no começo, quando inteligência artificial nasceu, como era uma época de guerra, lembrando aquele contexto do Alan Turing e da guerra e tudo mais; pouco tempo depois, quando começam as tensões entre Rússia e Estados Unidos, você vê ali, por exemplo, em torno dos anos oitenta, foi criada uma aplicação de tradução automática inglês-russo, que tinha como base um dicionário bilíngue gigante, mas foi a primeira aplicação, uma das primeiras aplicações de processamento de linguagem natural.

Porque ele usava a inteligência artificial para traduzir de russo para inglês automaticamente. Aqui tem uma observação que é o seguinte: a gente, comumente as pessoas acreditam que tudo que é inteligência artificial é mágico. E aí quando geralmente eu exponho aplicações simples de inteligência artificial, simples de entender, nunca de fazer.



Regina: Eu imagino. Você está falando isso, de russo para inglês. Já pensou fazer? É complicado isso.

Marcellus: Exato

Regina: São símbolos, e símbolos e símbolos.

Marcellus: Talvez porque hoje a gente tenha o Google tradutor.

Regina: A gente acha fácil.

[00:11:42]

Marcellus: Talvez a gente ache fácil, mas a inteligência artificial que faz essa tradução; o humano, ele tem isso dentro da cabeça, e a gente não sabe como, exatamente.

Regina: Isso é que é mágico.

Marcellus: Isso é que é mágico, exato. Mas você criar um algoritmo que tenha uma certa inteligência, e que ele consegue consultar esse dicionário e traduzir as palavras, então assim, você vê o quanto que inteligência artificial foi desde o começo, teve essa tentativa dela ser aplicada, porque tudo isso vem de necessidades enormes que a gente tem.

Existe essa demanda enorme tecnológica e que a inteligência artificial consegue ou tenta lidar. Principalmente num mundo em que você tem cada vez mais máquinas, interfaces e máquina.

Você precisa investir em processamento de linguagem natural, porque precisa ter essa ponte entre humanos e máquinas. Idealmente falando, o que melhor do que usar a própria linguagem humana para se comunicar com uma máquina?

[00:12:51]

Regina: Não e não tem como. Tem outra linguagem?

Marcellus: Exato, você poderia [...]

Regina: Tem a linguagem de vocês que ficam alimentando a máquina, mas a gente não entende.

Marcellus: A de programação, sim.

Regina: Os programadores, esses só eles se entendem. Esses são os verdadeiros malucos de hoje em dia, são os programadores. Agora me conta, você falou que nos anos cinquenta foi criada a primeira aplicação para tradução de russo para inglês.

[00:13:18]

Marcellus: Isso também tem uma outra aplicação famosa, que a gente considera que foi talvez o primeiro chatbot, que foi em mil novecentos e sessenta e cinco, que é a Eliza, que é o primeiro chatbot, e chatbots são quase cem por cento processamento de linguagem natural. Eles são baseados em comunicar-se naturalmente.

[00:13:38]

Regina: Então ela foi o início desse estudo de processamento de linguagem natural?

Marcellus: Ela foi uma das aplicações que recebeu mais atenção. Foi um marco, com certeza. Não foi o estudo, o início do estudo, mas foi um marco importante, né!? E a gente também discute muito inteligência artificial, a aplicação.

Tem inteligência digital teórica, tem inteligência artificial aplicada. No caso do processamento de linguagem natural, da NLP, você tem, você pode se dizer que tem três grandes fases da NLP dessa época para cá. Então você tem uma primeira NLP que ela simbólica, que foi na época da criação da Eliza e da tradução. Simbólica.

Você tem uma segunda fase que ela é estatística, a partir dos anos noventa. Então começou, as técnicas começaram a ficar mais modernas. Começaram a ser baseados em alguns modelos de aprendizado, de probabilidade e tudo mais.

E você tem hoje, a principal e dominante, que é a fase neural. O modelo que a gente usa hoje é a fase neural.

Regina: Explica essas três fases, é melhor.

[00:14:59]

Marcellus: A primeira, a simbólica. Ela é baseada em regras lexicais, ou seja, regras de obrigatoriedade de fala. E aí, especialistas criam esses sistemas.

Por exemplo, eu colocar todas as regras gramaticais e sintáticas da língua portuguesa em uma, em um código, e aí eu começar a criar esses símbolos de uma maneira bem manual.

Por exemplo, quando eu falei da tradução russo-inglês, alguém escreveu todas, toda a tradução. Basicamente você pegou um dicionário e colocou em forma de código. Tinha uma frase lá: “hoje está frio”; aí o código ia lá:  “hoje”, como que é isso em russo para inglês? E assim por diante. Então, é simbólico porque cada palavra é um símbolo, e aí você manipula os símbolos.

[00:16:00]

Regina: Isso passa pela primeira fase, inclusive de tradutores? Por exemplo, a gente tem problema na língua portuguesa, com nosso cedilha, com uma série de coisas que são muito específicas da nossa língua. Então para as máquinas processarem isso, saberem falar isso. Isso passa pela abordagem simbólica?

[00:16:23]

Marcellus: Na verdade foi justamente isso uma das coisas que fez não dar certo de jeito nenhum. Porque você tem milhares de palavras dos dois lados, das duas línguas, e você tem coisas que não se traduzem, ou coisas principalmente que usam expressões, né?

Então palavras de uma expressão se traduzem de uma maneira, mas a expressão se traduz de outra. Então naquela época, isso nos anos cinquenta, era completamente mágico, então eles falavam robô tradutor, então era muito impactante e existe até um vídeo disponível, em que o responsável diz que em poucos anos será possível traduzir qualquer coisa para inglês.

E eu acho interessante a gente assistir esse tipo de material, especialmente sobre inteligência artificial. Para você ver que a expectativa sempre foi imediatista, sempre foi: “olha que avanço incrível, amanhã não existirão mais tradutores”. E aí hoje, setenta anos depois, não é bem assim.

[00:17:38]

Regina: É, ainda não é bem assim. Quebra um galho.

Marcellus: Apesar do avanço incrível do Google Tradutor [...]

Regina: Sim.

Marcellus: [...] eu diria que para línguas ocidentais ele é muito bom. Você tem métricas automatizadas, você tem como medir isso e é altíssimo a qualidade, a precisão.

Mas quando você começa a misturar línguas ocidentais e orientais, de alfabetos diferentes, aí ele começa a se enrolar. Então, esse simbólico, que foi a primeira fase, é uma abordagem, se você pensar é prática: “vou construir uma máquina que traduz”.

Qual que é a primeira coisa que vem na sua cabeça? O dicionário. Só que não é assim que a gente pensa. Como a gente mesmo estava discutindo agora pouco, os símbolos são móveis. O que está escrito no dicionário não é móvel.

Regina: Sim

Marcellus: E se você compõe, o dicionário geralmente... Bons dicionários têm algumas expressões, mas eu diria que metade das falas que a gente tem em uma conversa normal é baseada em expressões de muitas palavras e isso é muito difícil de traduzir literalmente.

Regina: Por que tem a intenção, né?

Marcellus: Também tem a intenção, tem o contexto.

Regina: Porque a palavra, palavra em si, ela é vazia. Você fala “água”, mas assim, se ela está fora do contexto, se ela não tem uma intenção do que você quer dizer com aquilo, se é água “estou com sede”, água, abundância, água, falta, água [...]

Marcellus: Azul.

Regina: “Azul”. Se você está fora do contexto, ela perde muito do significado dela, né?

[00:19:15]

Marcellus: Mas a complexidade da linguagem se dá justamente pela manipulação do símbolo. O símbolo por si só é simples. O símbolo dificilmente é complexo, é a manipulação dele, você adicionar mais símbolos; e qual que é a diferença de você adicionar mais símbolos.

Então essa manipulação que é extremamente complexa, e essa abordagem simbólica não deu conta de fazer isso. Então, quando você, sem falar que nos anos cinquenta também não tinha informação disponível, deve ter sido um trabalho [...]

Regina: Descomunal.

Marcellus: [...] descomunal você criar um dicionário nas duas línguas. Você tem, por exemplo, na segunda fase, que já é mais estatística, já é baseado em alguns fenômenos de linguagem.

Então você começa a lidar com a linguagem de uma outra perspectiva, que é de recorrência ou aparição. Então, por exemplo, termos que aparecem mais ligados à outros, você começa a criar fórmulas para explicar essas expressões e esses grupos de palavras.

Então você começa a ter uma análise mais matemática dos textos. Você também consegue identificar tendências, então você começa a criar regras de como grupos de palavras, ou palavras aparecem próximos de outras.

Você tem todo, baseado naquele trabalho simbólico e de mapear, então você sabe todas as classes gramaticais das palavras. Então você consegue abstrair um pouco, certo? De certa forma, você diminui a complexidade.

Tudo que é substantivo, em vez de ser uma palavra, um signo por si só, individual, vira substantivo. Então na verdade você tem, em uma frase enorme, você tem alguns substantivos, alguns aditivos. Você diminuiu a complexidade. Você começa a manipular isso.

Então, frequência, onde ocorre, perto do que; você começa a criar árvores. Então a gente tem essas árvores gramaticais, em processamento de linguagem natural, que também antigamente eram usados para corretores.

Em algumas aplicações ainda é usado, mas é bem pouco. Para corretores, porque você conseguia checar se fazia sentido aquele texto baseado em  “verbo transitivo”, etc..

Regina: Os corretores estão ficando bem melhores, né, atualmente?  

[00:21:51]

Marcellus: Sim, e eles não usam essa árvore gramatical desse jeito.

Regina: Não, né? Não mais.

Marcellus: Não, é tudo neural.

Regina: Agora a gente vai pro neural.

Marcellus: Eu vou chegar no neural.

Regina: Eu posso pegar um pouquinho do neural e botar aqui dentro porque já está faltando.

[00:22:08]

Marcellus: A abordagem neural, ela segue, por que que a gente chama de neural? Porque é baseado em redes neurais artificiais. Igual a gente discutiu no último episódio.

Então você tem aprendizado profundo. Tudo isso, todas as técnicas modernas de aprendizagem de máquina são baseadas redes neurais. Então por isso que chama de neural.

O impacto na tradução, lembrando da primeira aplicação, tradução, foi astronômico. Assim, você deu um salto. Se você pensar bem, todos nós, todos nós conseguimos lembrar desse momento.

Lembra dez anos atrás quando você ia usar o google tradutor. Agora use o google tradutor hoje, você vê que o próprio Google é visível o avanço, porque eu me lembro de ser adolescente, e de querer traduzir as coisas e de colocar no google tradutor e sair uma tradução horrível.

Até eu conseguia ver que era ruim. Mas hoje, do inglês para o português, por exemplo, noventa por cento das vezes está certa ou pelo menos te ajuda a ver o que você quer fazer.

Regina: Sim.

Marcellus: Ela é muito boa.

Regina: Melhorou bastante.

[00:23:27]

Marcellus: Então, e esse avanço, ele foi num curto período de tempo. Muito curto. Em poucos anos, você teve um avanço gigante porque você começa a aplicar essas abordagens neurais em que tudo passa a ser numérico. Então toda a linguagem ela não é mais simbólica.

Todas as palavras passam a ser representadas por grupos de números. Esses números carregam os atributos das palavras, então eles carregam os atributos semânticos baseados no contexto. Então, palavras que aparecem no mesmo contexto tem números próximos. Você tem algoritmos que transformam essas palavras em números.

Esses números, eles são o que nós chamamos de vetores. Eles são conjuntos de números em um espaço. Imagina que uma palavra, por exemplo, Rei e Rainha, eles são parecidos porque eles têm o mesmo contexto, e esses algoritmos conseguem criar esses vetores de tal maneira que essas duas palavras são próximas. Então a máquina na hora que ela vai..

A primeira etapa etapa seria transformar a linguagem nesses números,  nesses vetores, e depois aplicar o aprendizado em cima. Tendo em vista que palavras de contextos semelhantes tenham números próximos, ela consegue abstrair muito melhor, sem precisar de classes gramaticais, sem precisar de dicionários. Porque tudo isso é baseado na extração do contexto.

[00:25:04]

Regina: Nossa, é mais ou menos como a gente aprende a falar.

Marcellus: Exato.

Regina: Porque a gente não aprende a falar, enfim, estudando a gramática, a gente aprende [...]

Marcellus: A falar, falando.

Regina: [...] falando, porque você faz essa simbologia, esses signos; mediante aos seus sentimentos, aquilo que se está vivendo você agrupa, as palavras têm essas essa relação para você também em função daquilo que você vive.

Marcellus: Elas são todas conectadas, mas nas primeiras abordagens, a conexão que estava sendo utilizada para ensinar as máquinas era simplesmente a pura semântica da palavra, ou até algumas características estruturais, mas não o contexto, e o contexto é mais importante, porque o símbolo é móvel.

Então, quando você tem uma palavra, por exemplo, manga, essa palavra, ela pode ter vetores diferentes, dependendo da frase que ela está dentro.

Regina: Sim.

Marcellus: Porque o algoritmo consegue entender que, quando você fala de uma fruta, você tem certas palavras numa frase e essas palavras te ajudam a identificar. Então, você percebe que cada palavra em uma frase ajuda identificar a outra?

Regina: Sim.

Marcellus: Elas se apoiam.

Regina: Sim, e, assim que se aprende uma outra língua.

Marcellus: Exato.

Regina: Se você for aprender estudando gramática e tudo mais, por isso que você não pega a fluência, porque você tem que aprender justamente esse contexto todo, de onde está.

O meu inglês, eu aprendi ouvindo então eu tenho inglês que, de vez em quando, eu dou uma volta no quarteirão para falar uma coisa, porque eu não sei aquela palavra. Mas eu dou a volta no quarteirão e faço, me faço entender, porque eu falo o contexto inteiro e a pessoa pega a palavra, pega o contexto.

Marcellus: Exato, a palavra, se você reduzir isso, você chega a uma conclusão de que a palavra é até desnecessária.

Regina: Sim.

Marcellus: O contexto é o importante. Às vezes até se comunicando entre nós, a gente não quer falar uma certa palavra. Às vezes está falando mal de alguém e você não quer falar aquela palavra, mas você fala o contexto, e a pessoa entende.

Então, esses métodos, eles são utilizados para utilizar o contexto e encontrar padrões. Quais são os padrões de contexto?

[00:27:23]

Regina: Nossa, eu quero ver quando a máquina vai entender as entonações, as intenções que a gente tem, que é na entonação da voz, de como a gente coloca a voz que, por exemplo, eu não quero falar uma palavra, então eu eu faço uma entonação falando para você e você já entende o que quero dizer sem eu dizer. Quando é que a máquina vai conseguir entender isso?

[00:27:47]

Marcellus: Isso talvez não demore não, porque você consegue captar o áudio, transformar ele em números. No final do dia, [...]

Regina: Mas aí é sentimento. Ela vai conseguir transformar isso em números também?

Marcellus: Mas sabe como que a gente [...]

Regina: Eu tenho que estudar matemática.

Marcellus: Sabe, porque eu estou falando de uma maneira que, assim, parece até fácil e realmente não é tão difícil hoje. Por que que é tão fácil extrair o contexto e por que na época, não só pela falta dos algoritmos, era mais difícil?

Você tem exemplos ilimitados. Eu tenho uma quantidade infinita de exemplos. Claro que tem todo o trabalho de você categorizar e tudo mais.

Regina: Sim.

Marcellus: Só que esses algoritmos que criam os vetores que criam os números baseados nas palavras, eles não precisam de exemplos. Então eles são, lembrando do primeiro episódio, não supervisionados.

Regina: Sim.

Marcellus: Eles são de agrupamento. Portanto todos os dados estão aí. Quantos comentários de facebook existem no Facebook?

Regina: Nossa, milhões.

Marcellus: Trilhões.

Regina: E o WhatsApp então?

[00:28:56]

Marcellus: O whatsapp, é que são dados públicos, né, do Whatsapp. Do Facebook já é mais, quer dizer, são privados.

Regina: É ao contrário.

Marcellus: Facebook já é mais público. Mas mesmo assim, exato. Então você tem conversas humanas documentadas, de certa forma, né; disponíveis em forma de texto.

Você já tem o infinito disso. Então transformar isso em números baseados no contexto é muito factível. Inclusive, o Google já faz isso há muitos anos.

A principal técnica de transformar palavras em números foi inventada pelo Google, que é onde ele consegue fazer uma busca, que é muito boa ou um sistema de tradução que é muito bom.

E agora recursos até dentro do e-mail, quando você está digitando um e-mail no Gmail e ele completa sua frase. Você fica assim: “nossa, como ele sabe e eu quero dizer?” É simples. Milhares pessoas falaram a mesma coisa antes de você.

Regina: Será que a gente vai começar daqui a pouco por telepatia mesmo, a falar? Porque, né não vai precisar de mais nada.

Marcellus: Tem pessoas investindo nisso. Você tem muitas empresas e, por exemplo, a mais famosa é a Neuralink, do Elon Musk. Ele investe, a empresa existe para criar essa ponte, essa interface cérebro-máquina e você se comunicar sem voz.

Regina: Sem voz, sem palavra, sem absolutamente nada.

Marcellus: Eu acho que esse é o futuro. A gente está um pouco longe porque, convenhamos, a voz ainda não está tão boa assim.

Regina: Sim

Marcellus:  você ainda precisa melhorar muita coisa.

Regina: Sim. A gente precisa até se acostumar a usar,

Marcellus: Exato

Regina: Principalmente aqui no Brasil, a gente usa muito pouco tudo que a tecnologia oferece, a gente usa mais por brincadeira e não no dia a dia.

Marcellus: Exato, então você precisa se acostumar, mas tem essa provável grande revolução, em que as coisas começam a ficar por pensamento. E que é o mais conveniente que pode chegar, né?

Regina: Daqui a pouco a gente nem precisa de corpo mesmo, a gente bota um avatar, pode ficar na cama o dia inteiro.

Marcellus: Só fazendo uma descontração, tem uma teoria… eu não acredito que a gente vai encontrar alienígenas.

[00:31:20]

Marcellus: Baseada na vastidão do universo e a nossa incapacidade tecnológica, dificilmente a gente vai encontrar. Mas existe uma teoria, que é a seguinte: por que que a gente ainda não encontrou alienígenas?

Uma possibilidade é a seguinte: depois de tantos avanços tecnológicos, isso falando dos alienígenas, claro, eles chegaram em um momento em que, porque o espaço é tão inóspito e perigoso. Assim é de um nível de periculosidade que a gente nem compreende.

Eles chegaram em um avanço em que não faz sentido mandar o seu próprio corpo. Então, você fica. Pensa na realidade virtual. Se a realidade virtual fosse muito boa, a ponto de você conseguir viver só de realidade virtual. Por que que você vai colocar em risco a sua integridade física sendo que você pode explorar o universo.

Regina: Bom, então, nessa loucura toda que a gente está falando, existe limite entre máquinas e humanos nesse processamento de linguagem natural?

[00:32:18]

Marcellus: Olha por mais que as máquinas [...]

Regina: Na comunicação, quero dizer.

Marcellus: [...] por mais que as máquinas estejam cada vez mais inteligentes, a maior parte da linguagem ela é baseada na vida real. Então, conhecimentos prévios da vida real são essenciais para que você entenda a linguagem. A linguagem por si só não são um monte de palavras, são referências [...]

Regina: Memórias.

Marcellus: [...] o tempo todo são referências. Então aqui durante a nossa conversa, quantas vezes a gente se referenciou a outros conhecimentos que nós temos.

Regina: Sim, ou desconhecimentos.

Marcellus: Mas esse desafio de interpretar o contexto, ele já não é mais em relação à estrutura gramatical ou sintática. Esse contexto ele precisa ir para um próximo nível, que é o de conhecimento da vida real.

A máquina precisa conhecer. Um exemplo mais claro, mais visual, é o seguinte: em computação visual, que a área que lida com as máquinas identificarem imagens, ou vídeos, se você tem uma foto de um algoritmo de reconhecimento de objetos, e aí você tem uma pessoa em cima de uma montanha com uma mochila.

O algoritmo hoje consegue reconhecer muito bem que é uma montanha, que é uma mochila e de que é humano, certo? Mas essa imagem está de ponta cabeça. Como é que você faz a máquina entender isso; que isso não é possível?

Regina: Como? Não tenho ideia.

Marcellus: A gente também não. Esse é o limite hoje, entende? Então, você tem uma imagem, sei lá, de uma onda, de uma praia e uma pessoa flutuando. A máquina vai identificar a praia e o humano.

O algoritmo está muito bom hoje. Um dos maiores avanços foi graças ao Facebook.

Regina: Sim.

Marcellus: Que tem imagens infinitas. Mas como é que você faz a máquina entender que aquilo ali nem é possível? Esse conhecimento sabe… Eu não gosto de usar essa palavra nesse contexto, mas é meio que inerente, sabe?  A gente meio que nasce sabendo disso.

Regina: Do que é possível, ou não.

[00:34:51]

Marcellus: Durante a nossa infância, quando a gente começa a descobrir a gravidade, que as coisas caem e esse tipo de coisa, ou a permanência de objetos. Quando a criança passa a perceber que quando você põe a mão no rosto você não desapareceu, você está ali atrás [...]

Regina: Sim, peek-a-boo.

Marcellus: Como é que você ensina isso para uma máquina? Então esses que são os limites. Transpondo isso agora para o processamento de linguagem natural, é mais ou menos esse limite também.

Dada uma conversa, você precisa saber o contexto do mundo para você realmente entender. E aí onde entra uma aplicação que são, que também já não é tão recente, mas que é cada vez mais necessária, que são os  grafos de conhecimento. Grafo, que é uma estrutura de rede, tem nós e conexões entre os nós.

Esse grafo de conhecimento, inclusive que é um projeto gigante do próprio Google, por exemplo, quando você coloca, sei lá, o nome de uma celebridade no Google e ele já traz ali em uma side bar o nome, a biografia e tudo mais.

Regina: Sim

Marcellus:  Aquilo ali é um grafo de conhecimento. O Google não gera aquilo automaticamente. Ele tem algum lugar salvo que aquela pessoa é aquela informação [...]

Regina: Como se fosse uma gaveta de memória sua?

[00:36:13]

Marcellus: Exato, como se ele tivesse consultando a Wikipédia e pegando o que tem na Wikipedia e colocando ali sobre a pessoa. Geralmente é verdade. Mas, entendeu?

Então ele tem uma enciclopédia própria, esse  que é o grafo de conhecimento. Por que? Porque sem isso a gente não consegue passar para esse próximo nível de processamento de linguagem natural.

[00:36:34]

Regina: Mas você acha que assim, essas memórias isso que você está falando de ter na gaveta, ela passa também, porque a memória está ligada a uma coisa emocional, né? Então esses símbolos são criados por essas memórias e também para uma coisa emocional ligada a isso. Eu acho que passa por isso, não passa?

[00:36:51]

Marcellus: É uma limitação enorme da máquina de não saber interpretar corretamente a emoção, de às vezes não saber transmitir a emoção. Ela pode fingir, mas ela também não sabe como muitas coisas da vida real, por exemplo, uma emoção de luto.

Você reage de uma forma apropriada ao luto, que é uma emoção, de certa forma. Então, como é que você faz a máquina reagir a isso e interpretar isso, sabe?

Qual que é o impacto disso depois na interpretação disso? Dado que essa pessoa está em luto, eu interpreto o que ela está dizendo de uma tal maneira [...]

Regina: Sim.

Marcellus: [...] sendo que se ela falasse a mesma coisa sem o luto, provavelmente eu deveria interpretar de outra maneira.

[00:37:40]

Regina: Nossa, isso é super intrigante. E como é que a gente pode fazer a máquina compreender a emoção? Você acha que a gente chega lá, a gente consegue fazer ela compreender uma emoção? A gente vai ter um Spilberg pela frente aí, o universo nesse sentido?

[00:37:57]

Marcellus: Olha, eu acho que isso é interessante, essa parte da emoção, só que ela também precisa ser escalável. Então, a gente não pode querer ter toda essa fase neural e partes disso serem simbólicos, por exemplo.

Então você tem que investir em pesquisas em que a máquina consiga abstrair os contextos de emoção. E o que a gente faz hoje é dar foco para ela, então em vez de só extrair contextos, a gente tenta criar esse foco, dando exemplos específicos.

E aí, já usando um pouco mais do aprendizado supervisionado, que é dizendo: “olha, esses aqui são exemplos de tristezas”, “esses aqui são exemplos de alegria”, e esse tipo de coisa.

Então, uma das coisas que a gente fez também no nosso trabalho, de investir recursos para que os nossos sistemas conseguissem compreender e não só a extrair essa emoção do texto, quanto escrever um texto baseado naquela emoção, direcionar o texto para aquela emoção. Tem os dois caminhos.

Regina: Entendi. Agora me fala uma coisa. Nesse contexto, a IA consegue se auto alimentar? Ela consegue aprender a melhorar a comunicação, tom de voz e afins, com tudo isso que a gente está falando que está acontecendo?

[00:39:33]

Marcellus: O objetivo com certeza é ela tentar o máximo que der se auto alimentar. A gente passa, a gente dá os exemplos, e para tentar aumentar essa compreensão, ela capta isso, melhora a própria compreensão sobre o que a gente está tentando falar e usa isso para ter mais exemplos.

Então, você tem esse ciclo, em que ela pode ela mesma capturar certos exemplos de emoção e você só valida. Então aí, ela consegue.. Como tudo isso não é rígido, tudo isso é baseado em milhares de decisões e probabilidades, etc, então é interessante ver essa evolução, porque se você deu um exemplo e a máquina tomou, por alguma razão, que uma outra frase é parecida com aquela e você começa a notar as tendências. Então ela pode ser um pouco mais descontraída, um pouco mais séria.

[00:40:40]

Regina: A máquina?

Marcellus: É.

Regina: Então ela cria uma personalidade?

Marcellus: Você consegue guiar, né, a ideia é essa, da gente criar a personalidade. Mas na verdade, é que essa personalidade, ela é bem rasa, porque ela está, ela está mais baseada nas tendências dos dados que a gente não enxerga.

Então hoje você vê uma discussão gigante em ética em inteligência artificial, como os algoritmos são tendenciosos, porque os dados têm padrões que a gente não enxergava.

Regina: Sim, é verdade, e podem reforçar padrões que a gente não imaginava que seriam reforçados.

Marcellus: Especialmente de grupos sociais.

Regina: Exatamente.

Marcellus: Tem algoritmos que lidam com saúde, com crédito, e esse tipo de coisa, e a linguagem é a mesma coisa.

Regina: E tem como evitar isso? Essa repetição negativa de padrão, tipo isso não é bom, não é para replicar, não é para repetir.

[00:41:44]

Marcellus: É um desafio. É um desafio grande, porque já é difícil você identificar isso, corrigir então, é um desafio ainda maior. Porque hoje, os algoritmos modernos, os que a gente usa, inclusive, eles são baseados numa quantidade gigante de dados.

De milhares de milhões de exemplos. Então, como é que você corrige essa tendência baseada em um grupo de dados tão grande? É bem desafiador isso, então, uma inteligência artificial que responde redes sociais, por exemplo.

Ela precisa saber não só interpretar esses dados brutos de linguagem, mas ela também precisa entender como que no nosso contexto, por exemplo, como que uma marca se comunica com seus clientes?

[00:42:34]

Regina: Sim, quais são os valores dessa marca e como ela quer tratar? Como ela quer se comunicar, o que que ela quer passar? É possível isso?

Marcellus: É possível. Qual que é o tom de voz que a marca tem? Porque, assim, quando a gente investe em identificar, por exemplo, emoções, a gente, pegamos todas as formas e respostas que aquela marca já deu, analisa isso para extrair automaticamente os tipos dos atributos, as emoções, como elas reagem, qual é a formalidade, quais são as expressões mais utilizadas.

E tudo isso depois é o arcabouço que a nossa própria inteligência artificial vai usar para responder os clientes dessa marca, de tal maneira que as pessoas que estão sendo respondidas nem percebem que houve essa transição humano-máquina

[00:43:30]

Regina: Caramba, Marcellus. Incrível. E tem mais algum ponto em relação a como as máquinas lidam com a linguagem humana? Algum truque matemático, algum código, alguma coisa assim?

Marcellus: Olha, só uma técnica que a gente não citou. Não é um truque, mas é um outro método da linguagem de processamento natural, que é uma subdivisão, é a geração de linguagem natural.

Então, em processamento de linguagem natural você tem muitas aplicações, mas de maneira bem grosseira eu poderia dividir em duas partes: entendimento de linguagem natural e geração de linguagem natural.

A gente falou muito sobre o entendimento e agora a gente acabou de falar sobre a geração. Então, essa geração, ela é uma das tecnologias que mais crescem e que está bastante na vanguarda de inteligência artificial hoje, porque ela pode ser automatizada, ela pode ser usada para automatizar muitas coisas.

Geração de relatório, chatbot, a Siri, enfim, ela é o produto final, entende? Não basta só você interpretar a linguagem, o produto final é você devolver isso.

Regina: Devolver.

Marcellus: Então você consegue automatizar tudo. Por exemplo, as opções de acessibilidade do iPhone que lê a sua tela.

Regina: Sim, é maravilhoso aquilo.

Marcellus: Então, você tem a geração da linguagem. É que nesse exemplo de ler a sua tela é só uma questão de ler o que está escrito.

Regina: Sim.

Marcellus: Mas o que se mais trabalha hoje em geração de linguagem natural, é literalmente gerar linguagem. Então assim, o que que você quer dizer, sabe? Tem um relatório financeiro e eu quero que a máquina não só leia, como intérprete e resuma isso pra mim de volta, em linguagem natural.

Regina: Já é possível isso?

Marcellus: Sim, assim, não completamente para qualquer aplicação [...]

Regina: Sim.

Marcellus: [...] mas você tem aplicações, inclusive na Alana, que oferecem insights e resumos gerados para você.

Regina: Tipo: “lê pra mim o google analytics e me explica aquilo lá”?

Marcellus: É.

Regina: Ai, que delícia.

Marcellus: Então, você tem lá as métricas e você quer entender e você fala: “tudo bem, cresceu aqui, desceu aqui, mas e aí?”

Regina: E aí?

Marcellus: E aí a máquina escreve um texto para você dizendo: “olha, subiu isso, desceu aquilo, então significa que é bom, ou significa que é ruim..”

Regina: Que você pode estar falhando ali.. Que legal.

Marcellus: Está avançando muito nessa área, de geração de linguagem, porque você precisa ter um direcionamento, mas tem poucas pessoas trabalhando nisso, se você comparar com o contexto total, poucas empresas e pessoas trabalhando em geração de linguagem natural.

Regina:Então a geração é o NLG.

Marcellus: Sim, a gente abrevia natural language generation.

Regina: Gente, vocês estão gostando da aula? Eu fico apaixonada por tudo o que eu aprendo aqui. É uma loucura, e eu queria ter a Alana para mim.

É a única coisa que eu vou tentar negociar aqui, entendeu, pessoal? Então até o próximo episódio, estou esperando você. Espero que você tenha gostado, porque eu estou amando. Marcellus mais uma vez, obrigada.

Marcellus: O prazer é meu.

Regina: Até o nosso próximo encontro.

Marcellus: Até.

Regina: Tchau