Искусственный интеллект приближается к разгадке древних текстов
Павел Романютенко
3 месяца назад
С доступными нам инновационными технологиями мы приближаемся к тому моменту, когда расшифровка древних языков перестает быть кропотливой работой, наполненной разочарованием и растерянностью. Изящные машины, следуя сложным алгоритмам, помогают исследователям во всем мире, часто они берут на себя монументальную задачу понимания древних текстов и утраченных языков.
По оценкам лингвистических экспертов, за свою историю человечество говорило, по примерным оценкам, на 31 тысяче языков. Многие языки сейчас считаются мертвыми. Новый проект искусственного интеллекта может стать частью ответа на вопрос о том, как расшифровать тексты, созданные на древних языках.
Как может что-то подобное работать? Специалисты полагают, что хотя языки и меняются, но многие символы, слова и то, как они распределяются, остается относительно постоянным с ходом времени. Благодаря связи с языком-прародителем можно попытаться расшифровать давно утерянный язык.
И эти знания являются основой для совместной работы исследователей из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и проекта искусственного интеллекта Google Brain. Команда проекта «разработала алгоритм, который может начинать сопоставление слов из неизвестных языков с родственными словами или родственными словами в других языках с одинаковым корнем». Используя достижения в области вычислительной техники и лингвистики, проект добивается успехов в создании алгоритмов, которые помогут исследователям расшифровать древние тексты.
Искусственный интеллект приближается к разгадке древних текстов
Месопотамские клинописные таблички
И хотя алгоритм еще не был применен к незашифрованным языкам, исследователи показали, что искусственный интеллект продвинулся в переводе текстов, у которых достаточно примеров, чтобы обеспечить приличный набор данных для алгоритмов. До недавнего времени работа была сосредоточена на обучении системы линейному письму Б и угаритскому языку — двум древним языкам, которые в основном переводились другими способами в прошлом.
Линейное письмо Б — это форма письма, которая использовалась микенской цивилизацией в позднем бронзовом веке, более 3000 лет назад. Впервые оно было расшифровано в 1953 году архитектором по имени Майкл Вентрис. Угаритский весьма приближен к ранней форме иврита, он также существовал около 3000 лет назад. Впервые был обнаружен на клинописных табличках французскими археологами в 1929 году.
Чтобы проверить работу системы искусственного интеллекта, исследователи «сфокусировались на 4 ключевых свойствах, связанных с контекстом и выравниванием символов, которые должны быть расшифрованы — сходство в распределении, монотонное отображение символов, структурная разреженность и значительное совпадение когнитивных функций».
Искусственный интеллект приближается к разгадке древних текстов
Таблички с надписью на угаритском языке
Кажется, что усилия стоили того, потому что в отчете по проекту говорится: «При применении системы к расшифровке угаритского языка мы достигаем абсолютного улучшения перевода на 5,5% по сравнению с современными результатами. Мы также сообщаем о первых автоматических результатах расшифровки Linear B, слогового языка, относящегося к древнегреческому, где модель искусственного интеллекта правильно переводит 67,3% текста».
Это означает, что новая разработка может быть полезным инструментом для исследователей, которые хотят ускорить работу по изучению этих древних языков. Понимание древних культур, несомненно, является частью переводческой работы, и хотя искусственный интеллект пока не может действовать в этом смысле так же как человек, но у него есть очень большой плюс. С его помощью специалисты могут попытаться перевести символы неизвестного алфавита, быстро проверив их на соответствие символам из других языков. Зачем тратить бесценные часы, кропотливо пытаясь сравнить буквы и символы одного древнего языка с другим древним или современным, когда машина может сделать это за считанные минуты с гораздо более точным результатом?
Искусственный интеллект приближается к разгадке древних текстов
Таблички, относящиеся к микенской цивилизации
В декабре 2018 года Эмили Паже-Перрон, ассириолог из Университета Торонто, координировала проект по машинному переводу 69 000 месопотамских административных документов 21-го века до нашей эры. Джейкоб Даль, профессор ассириологии в Оксфорде, отмечает, что «у нас больше источников из Месопотамии, чем из Греции, Рима и Древнего Египта». Но только 10% из тысячи клинописных табличек были расшифрованы. Проблема не в отсутствии текстов для работы, а в том, чтобы найти достаточное количество специалистов, способных их прочесть.