Método inovador mede a compreensão da validade temporal da IA e o impacto no campo das fintechs
Summary:
Cientistas da Universidade de Innsbruck desenvolveram um método para medir a compreensão de uma IA sobre a "validade temporal", ou relevância baseada no tempo das declarações. Sua técnica pode impactar o uso de plataformas de IA como o ChatGPT na tecnologia financeira. Os pesquisadores descobriram que o ChatGPT não teve um desempenho tão bom quanto modelos mais específicos e sugeriram que modelos de IA mais direcionados seriam mais adequados em situações em que a validade temporal é importante, como geração de notícias ou análise do mercado financeiro. O estudo também indicou que treinar sistemas de IA para decifrar as declarações mais relevantes com pontualidade como fator pode melhorar suas capacidades de previsão em tempo real em setores de grande escala.
Dois cientistas da Universidade de Innsbruck, na Áustria, criaram uma técnica para medir a proficiência dos sistemas de inteligência artificial (IA) na compreensão da "validade temporal". Isso pode impactar profundamente a aplicação de plataformas de IA generativas como o ChatGPT no campo da tecnologia financeira. A validade temporal refere-se ao grau de relevância de uma afirmação para outra ao longo de um determinado período de tempo. Em resumo, trata-se do significado baseado no tempo das declarações vinculadas.
Um sistema de IA testado em suas habilidades de previsão de validade temporal seria encarregado de escolher a declaração mais relacionada ao tempo de um conjunto fornecido. Em seu artigo de pesquisa preliminar recentemente compartilhado chamado "Temporal Validity Change Prediction", Georg Wenzel e Adam Jatowt ilustram com um exemplo em que um indivíduo é dito estar lendo em um ônibus. Nesse cenário, a declaração de contexto mais pertinente é "só tenho mais algumas páginas, então terminei". Uma vez que a declaração de destino significa que a pessoa no ônibus está lendo atualmente, o resto é comparativamente insignificante.
Wenzel e Jatowt geraram um conjunto de dados categorizado de instâncias de treinamento que ajudou na construção de uma tarefa de benchmarking para modelos de linguagem grande (LLMs). O ChatGPT foi seu modelo de teste de escolha devido ao seu uso generalizado, embora exibisse um desempenho consideravelmente menor em comparação com modelos mais específicos. As limitações do ChatGPT podem ser atribuídas à técnica de aprendizagem de poucos tiros e a uma compreensão inadequada das características do conjunto de dados.
Isso sugere que cenários em que a validade temporal é vital para determinar utilidade ou correção, como geração de artigos de notícias ou avaliação do mercado financeiro, provavelmente se beneficiariam mais de modelos específicos de IA em oposição a ferramentas mais generalistas como o ChatGPT. Os pesquisadores também provaram que modificar as previsões de mudança de valor temporal ao longo do processo de treinamento de um LLM poderia potencialmente produzir melhores resultados na tarefa de benchmarking de mudança temporal.
Embora o artigo não explore explicitamente as consequências além do experimento, uma das deficiências existentes dos sistemas de IA generativa é sua incapacidade de diferenciar entre incidentes passados e presentes dentro de uma série de obras literárias. Educar esses sistemas para determinar as declarações mais relevantes dentro de um corpo de texto, com a pontualidade como parâmetro decisivo, poderia melhorar drasticamente a capacidade dos modelos de IA de fazer previsões nítidas e em tempo real em setores de grande escala, como criptomoedas e o mercado de ações.
Published At
1/2/2024 10:50:00 PM
Disclaimer: Algoine does not endorse any content or product on this page. Readers should conduct their own research before taking any actions related to the asset, company, or any information in this article and assume full responsibility for their decisions. This article should not be considered as investment advice. Our news is prepared with AI support.
Do you suspect this content may be misleading, incomplete, or inappropriate in any way, requiring modification or removal?
We appreciate your report.