Корпорация Google научила свой поисковик проверять факты в текстах

Новый алгоритм, разработанный инженерами Google, автоматически извлекает факты с web-страниц, определяет фактологические ошибки в тексте и вычисляет общий уровень достоверности текста.

Данная оценка будет напрямую влиять на место сайта в поисковой выдаче. Таким образом, Google хочет задвинуть подальше «жёлтые» новостные сайты в пользу более надёжных источников информации.

Извлечение фактов из текста происходит с использованием 16 различных методов извлечения триад данных – субъект, утверждение, объект – с web-страниц.

Субъект и утверждение принадлежат к множеству из открытой базы знаний Freebase, а объект может быть сущностью, числом, датой или строкой. Если триада в полном составе присутствует в базе, материал считается правдивым. Если же какая-то часть триады отсутствует в Freebase – достоверность материала ставится под вопрос.

Технологию опробовали на выборке в 119 млн страниц и 5,6 млн сайтов, которые сравнили с базой из 2,9 млрд фактов, собранных в интернете. Проверка продемонстрировала, что алгоритм практически безупречно отличает факты от вымысла.

Предполагается, что технология будет внедряться в поисковую систему постепенно – в данный момент инженеры говорят о необходимости её дальнейшего совершенствования.

Ранее корпорация Google объявила о начале развёртывания функции, отвечающей за отдельный вывод медицинских фактов из базы знаний Knowledge Graph.

Корпорация Google научила свой поисковик проверять факты в текстах

Читайте также: