Интернет в работе переводчика Юлиан Валерьевич ТИССЕН, tis@rol.ru
Содержание:
1. Введение 2. Электронные словари, глоссарии, энциклопедии и справочники 3. Лингвистический поиск в Интернет 4. Тематический поиск в Сети 5. Корпусная лингвистика 6. Переводческие и лингвистические ресурсы
Интернет как глобальная информационная среда представляет собой уникальный источник лингвистической информации, пока еще, к сожалению, не вполне освоенный переводчиками. Широкое использование Сети в повседневной работе не только позволяет оперативно решать многочисленные переводческие проблемы, но и существенно повышает качество перевода, поэтому можно с уверенностью сказать, что уже в ближайшем будущем умение пользоваться возможностями Интернета станет таким же естественным требованием к профессиональному переводчику, каким сегодня является умение работать на компьютере.
В целом можно выделить пять основных областей, в которых Интернет незаменим для переводчика: 1) быстрый доступ к огромным массивам справочной информации: электронные словари, энциклопедии, глоссарии, разнообразные терминологические ресурсы; 2) использование Сети в качестве универсального многоязычного корпуса текстов, из которого можно черпать разнообразную лингвистическую информацию, существенно повышающую качество перевода; 3) получение фоновых сведений по предметной области переводимого текста; 4) использование специализированных переводческих и лингвистических ресурсов; 5) оперативная связь: электронная почта и другие средства коммуникации облегчают и ускоряют обмен информацией с заказчиками и коллегами, делая переводчика по-настоящему независимым, а рынок переводческих услуг - глобальным.
Помимо этого, Интернет как новая среда существования информации дает дополнительный импульс развитию перевода: возникла целая самостоятельная отрасль - перевод и локализация вэб-сайтов, и этот сегмент рынка стремительно растет с каждым годом.
Рассмотрим перечисленные возможности Сети более подробно.
2. Электронные словари, глоссарии, энциклопедии и справочники.
Практически все известные издательства словарей и энциклопедий предлагают электронные версии своих изданий на CD-ROM, каковые при наличии достаточных средств и терпения можно приобрести и в России. Многие издательства (Merriam Webster, Encyclopedia Britannica, Larousse, Hachette, Meyers, Brockhaus, Garzanti, Русский язык и др.) также предоставляют бесплатный доступ к некоторым из своих детищ через Интернет. В то же время доступ ко многим популярным справочникам платный (Oxford English Dictionary, Termium, Encyclopedie Larousse).
Помимо громких лексикографических имен, пожалуй, главное богатство "справочной" Сети - несметное множество специализированных словарей и глоссариев из всевозможных областей, от компьютерной терминологии и сленга биржевых маклеров до ухода за орхидеями, виндсерфинга и восточных единоборств. На одном только сайте YourDictionary.com представлены ссылки на 1500 словарей и глоссариев на 230 языках.
Доступ к крупным словарям обычно предоставляется в режиме онлайн, большинство же специализированных словарей и глоссариев можно загрузить (скачать) на жесткий диск своего компьютера и просматривать оффлайн, т.е. отключившись от Сети.
Толковые словари и тезаурусы:
Merriam Webster's Collegiate Dictionary словарь и тезаурус.
Oxford English Dictionary в 20 томах, включая обновленные статьи, платный онлайновый доступ ($550 в год.)
American Heritage Dictionary словарь и тезаурус.
WordWeb скачиваемый тезаурус, основанный на семантической сети WordNet Принстонского ун-та.
Wordsmyth независимый проект онлайнового интернет-словаря и тезауруса, спонсируемый IBM.
Roget's Thesaurus (1911) классический английский тезаурус.
Webster's Unabridged Dictionary (1913)
Le Petit Larousse популярный французский толковый словарь.
Dictionnaire de l'Academie Francaise
Dictionnaire Universel de la Francophonie лексика всех региональных вариантов франц. языка.
Meyers Lexicon немецкий толковый словарь.
Garzanti итальянский толковый словарь.
Толковый словарь Ожегова
Словарь Даля
Англо-русские, русско-английские словари:
Multilex 2.0 (МедиаЛингва) En-Ru-En словарь на основе БАРСа + 5 специализированных словарей (на СD + онлайн на сайте МедиаЛингва).
Lingvo 6.5 (Abbyy) En-Ru-En словарь на основе Мюллера + множество специализированных словарей (на CD + онлайн на сайте Lingvo.ru).
Translate.spb.ru поиск по 19 словарям, в т.ч. Мюллер, ряд специализированных словарей.
Словарь Смирницкого (Ru-En) онлайн.
Polyglossum множество специализированных словарей (на CD, некоторые онлайн на сайте ETS).
Энциклопедии и справочные материалы:
Encyclopedia Britannica все 32 тома, доп. материалы, ссылки на 125,000 специально отобранных сайтов по всем темам.
Microsoft Encarta весьма популярная энциклопедия, полный онлайновый доступ, ссылки.
Columbia Encyclopedia американская энциклопедия среднего размера.
About.com информационный портал, 650 тем, каждую ведет свой специалист - справочные материалы, статьи, ссылки.
World Factbook 2000 ежегодное справочное издание ЦРУ c подробной информацией обо всех странах мира
Biography.com 25000 кратких биографий, от античных философов до современных поп-звезд.
Acronym Finder универсальный словарь англоязычных сокращений.
Encyclopedie Larousse популярная французская энциклопедия, доступ платный ($20 / год).
Encyclopedie Hachette французская энциклопедия.
Brockhaus однотомный немецкий энциклопедический словарь, онлайн.
Энциклопедия Кирилла и Мефодия российский справочный портал.
Slovari.ru словари русского языка (Ожегов, иностранных слов, орфографический, семантический).
Sokr.ru отличный и постоянно пополняемый словарь русских сокращений.
Компьютеры и телекоммуникации:
Microsoft Glossaries скачиваемые файлы с полным переводом пользовательского интерфейса Windows, Office, IE, OE и др. программ (меню, диалог. окна, сист. сообщения) на все европ. языки, включая русский (формат Excel).
Webopedia - PC and Internet terms
Computer Desktop Encyclopedia
Whatis.com The IT-specific Encyclopedia.
FOLDOC (Free On-Line Dictionary of Computing) скачиваемый словарь компьютерных терминов.
Многоязычные словари:
Кембриджские двуязычные словари среднего размера (En-Fr-En, En-De-En, En-It-En, En-Esp-En)
LOGOS многоязычный словарь итал. переводческ. агентства LOGOS, пополняется его сотрудниками и посетителями сайта (7,5 млн. слов на 184 языках).
Travlang.com небольшие словари, 16 языков, перевод осуществляется через посредство эсперанто - онлайн плюс скачиваемая программа Ergane).
Списки словарей на российских порталах, посвященных изучению иностранных языков:
Study.ru
ComplexSystems (Интернет-портал Английский язык).
Anri Education Systems (Сервер бесплатного дистанционного образования).
Большой интерес представляют также словари сленга, идиом, англо-американских различий, справочники по грамматике, стилю и многие другие материалы, ссылки на которые можно найти на приведенных выше сайтах.
3. Лингвистический поиск в Интернет
При всем многообразии словарей и энциклопедий ценность Интернета для переводчика далеко не исчерпывается справочными ресурсами. Фактически вся совокупность размещенных в Сети страниц представляет собой колоссальный корпус текстов, охватывающий собой все мыслимые темы. Современные поисковые системы позволяют весьма эффективно использовать его для лингвистических изысканий.
Здесь имеет смысл сказать несколько слов о принципах работы поисковых систем. Каждая такая система представляет собой обширную базу данных, в которой хранятся копии вэб-страниц, размещенных на миллионах сайтов по всей Cети. Программа-робот (web crawler) постоянно пополняет эту базу, путешествуя по Всемирной паутине и переходя от страницы к странице, от сайта к сайту по гипертекстовым ссылкам. Все найденные страницы автоматически индексируются, что и позволяет в дальнейшем мгновенно находить нужную информацию: при получении запроса пользователя программа уже не просматривает сотни миллионов страниц, а находит ключевые слова в алфавитном индексе и выдает ссылки на страницы, где эти слова присутствуют.
Использование поисковых сайтов позволяет очень быстро, порой всего за несколько минут, найти ответы на самые разнообразные вопросы и справиться с многочисленными переводческими проблемами, которые раньше были неразрешимы без обращения к носителю языка или к специалисту в той или иной предметной области. Все это позволяет радикально повысить качество перевода, особенно при переводе текстов с родного на иностранный язык (что в России, особенно в сфере делового перевода, происходит едва ли не чаще, чем перевод с иностранного на родной), а также в тех областях, где идет постоянное обновление терминологии: компьютеры и телекоммуникации, бизнес и финансы, СМИ, международные отношения, фармацевтика и многие другие. Кроме того, даже самый опытный переводчик, делающий переводы только на родной язык и только в той области, в которой он специализируется много лет, неизбежно встречает неизвестные ему термины из смежных областей, разного рода сокращения, неологизмы, профессиональный сленг и т.д. - то, что невозможно найти даже в самых современных словарях.
В этой ситуации Интернет - настоящий подарок для переводчика. Ему больше не нужно "изобретать велосипед" или разыскивать специалиста в той или иной узкой области: достаточно войти в Сеть и набрать несколько ключевых слов в поисковой системе - и вся терминология у него перед глазами. Главное, что для этого необходимо - владение эффективными технологиями поиска.
В первую очередь, необходимо иметь в виду, что для целенаправленного поиска лингвистической информации следует пользоваться не популярными порталами (такими как Yahoo или AltaVista), а специализированными поисковыми сайтами, лучшим из которых по всем параметрам является Google (www.google.com).
Преимущества поисковой системы Google:
--
Исключительная точность поиска благодаря интеллектуальному поисковому алгоритму: нужный сайт практически всегда если не в первой пятерке, то на первой странице
--
Выдает только релевантные ссылки - минимум мусора и повторов
--
Самый широкий охват Сети - более 1 млрд. страниц (в 2 раза больше, чем у AltaVista)
--
Под каждой ссылкой приводится фрагмент текста, в котором встретилось ключевое слово - по контексту сразу становится ясно, то ли это, что нужно
--
- Все проиндексированные страницы кэшированы (если страница в данный момент не доступна на исходном сайте, ее можно скачать с сайта Google, при этом все встречающиеся в тексте ключевые слова подсвечиваются)
--
- Молниеносная быстрота работы: большинство запросов укладывается в 5 сек.
--
- Простота и удобство интерфейса: без лишних "наворотов", без рекламы, ничто не отвлекает, поисковая страница загружается мгновенно
Необходимо, однако, иметь в виду следующие особенности Google:
--
он не поддерживает масок (символов *, %, заменяющих собой любую букву), поэтому для того, чтобы найти color и colour (либо color и colors), необходимо сделать два отдельных запроса
--
он не делает различий между прописными и строчными буквами
--
он чувствителен к диакритическим знакам (resume и resume для него два разных слова)
В тех случаях, когда эти особенности Google затрудняют поиск, лучше всего обратиться к AltaVista. В частности, слова с диакритическими знаками искать лучше там (предварительно указав язык), однако в большинстве случаев проще и быстрее сделать 2-3 запроса на Google, чем один на AltaVista.
Типичные переводческие проблемы и эффективные методики поиска:
--
1) У вас есть вариант перевода, но вы хотите его проверить. Например, можно ли переводить "лопарит" как loparite, "транспортная кубатура" как "shipping cubage", "солодовня" как malthouse, а "расширение сознания" как consciousness expansion. Набрав соответствующие ключевые слова на сайте Google (словосочетания заключаются в кавычки), можно быстро получить ответ.
--
2) Этот же метод позволяет проверить написание имени собственного или уточнить название учреждения.
--
3) У вас нет готового варианта перевода (как будет "докачка файла" по-итальянски или spyware по-французски?) либо ваш вариант не нашел подтверждения (например, malthouse - небольшая солодовня при пабе, а не современное предприятие). В этом случае необходимо найти тексты соответствующей тематики, где велика вероятность обнаружить нужный термин. Ключевыми словами будут, соответственно, "download manager", securite Internet, Baltika malt или Soufflet Baltika (если речь идет о солодовне, построенной "Балтикой" совместно с Soufflet). При этом практически все поисковые системы позволяют в режиме "расширенного поиска" (advanced search) ограничить область поиска каким-либо определенным языком (скажем, только сайты на французском) или одной доменной областью (например, адреса на .ca означают, что сайт находится в Канаде, на .ch - в Швейцарии, и т.д.).
--
4) Поиск по ключевым словам также позволяет быстро найти образец документа, который вам предстоит переводить (договор аренды - ключевые слова "rental agreement", решение суда о праве воспитания ребенка - "family law court decisions" и затем поиск нужного документа на специализированном сайте).
--
5) Этот же метод позволяет найти конкретный документ (Декларация прав человека, EU Data Protection Directive и т.д.) или художественное произведение, из которого вам нужно привести точную цитату (Божественная комедия Данте, тексты песен Beatles или Высоцкого, "Криминальное чтиво" Тарантино, параллельные тексты Гомера, Библии или Дао-дэ-цзин на нескольких языках - в сети есть практически все!). Ключевые слова: автор + название, либо фрагмент цитаты.
--
6) Выбрав определенный язык или доменную область, вы также можете проверить, употребляется ли, например, данный англицизм в немецком языке или данный американизм на Британских островах (.uk). Если нет, то велика вероятность, что он тем не менее попадется вам в глоссарии с переводом на нужный язык. Набрав найденный эквивалент в окне поиска, вы сможете посмотреть на особенности его употребления, типичные контексты или просто почитать материалы по нужной тематике.
--
7) Если вы введете в окно поиска интересующий вас термин и добавите слово English (или anglais, inglese), вы можете найти страницу, содержащую данный термин и имеющую ссылку на аналогичную страницу на английском языке.
--
8) Если вам нужно быстро найти толкование незнакомого термина, но вы не знаете, где найти глоссарий по данной теме, начать стоит с OneLook (см. выше), а если это не помогло, введите искомое слово в окно поиска Google и добавьте слово glossary (или dictionary, lexicon). Если вы хотите найти двуязычный глоссарий, используйте вместо glossary соответствующие иноязычные эквиваленты (glossaire, glossario и т.д.).
Общие рекомендации по работе с поисковыми системами:
- Используйте несколько ключевых слов - Используйте ключевые слова с более узким или более широким значением (в зависимости от того, слишком много или слишком мало результатов поиска вы получили) - Используйте синонимы - Читайте Help, Searching Tips и т.п. на поисковых сайтах (синтаксис запросов отличается от системы к системе) - Используйте логические операторы (+, -, " ") и маски (*, %) - Используйте расширенные возможности поиска (advanced search)
Поисковые системы, на которые стоит обратить внимание:
AltaVista ряд дополнительных функций.
Northern Light поиск научных и справочных материалов, СМИ.
Ask Jeeves запросы на естественном языке, быстро находит базовую информацию по теме.
Dogpile метапоиск одновременно по многим поисковым сайтам.
FAST новая быстро растущая поисковая система.
Российские поисковые системы:
Апорт
Rambler
Yandex
Все российские поисковые сайты поддерживают морфологизацию, т.е. находят ключевые слова вне зависимости от того, в какой грамматической форме они употреблены на той или иной странице. Лидером по популярности и охвату русскоязычной Сети является Yandex, для максимального охвата ресурсов Рунета имеет смысл использовать все три системы.
Советы по поиску в Интернете:
Mabercom справочник по поиску в сети для переводчиков.
Search Engine Watch (советы, ссылки, обзоры, тесты, новости, статистика)
4. Тематический поиск в Сети.
Вторым наиболее популярным методом поиска в Интернете является использование каталогов (directories), в которых ссылки на ресурсы Сети распределены по многочисленным рубрикам и подрубрикам, начиная от самых общих (Бизнес, Наука, Развлечения) и заканчивая узкоспециальными. Самым известным таким каталогом, безусловно, является Yahoo, однако он уже отнюдь не является монополистом. Более того: по всем основным параметрам - удобство и четкость классификации, релевантность и быстрота обновления ссылок, широта охвата - Yahoo в настоящее время уступает своему более молодому конкуренту - Open Directory Project, созданному усилиями 32,000 редакторов по всему миру. После его интеграции с Google пользоваться им стало особенно удобно. Также заслуживает внимания и быстро растущий каталог LookSmart (он используется на сайте AltaVista), однако практикуемая им продажа позиций в листинге сайтов отчасти снижает его ценность. Тематические каталоги позволяют быстро найти несколько крупных специализированных сайтов, которые способны дать общее представление об интересующей вас теме и послужить "трамплином" для дальнейших изысканий.
Англоязычные каталоги:
Netscape Open Directory Project / Google 2,200,000 сайтов.
Yahoo ок. 1,900,000 сайтов.
LookSmart ок. 2,000,000 сайтов.
Основные русскоязычные каталоги:
Yandex каталог интегрирован с поисковиком, ссылки отсортированы по индексу цитирования.
Aport бывший @rus, сейчас интегрирован с поисковиком Aport.
List.ru популярный и весьма обширный каталог ресурсов.
Поиск на других европейских языках стоит начать с сайта Yahoo, имеющего национальные версии почти для всех европейских стран. Оттуда по ссылкам можно найти и другие специализированные системы поиска на том или ином языке.
Следующий шагом в освоении ресурсов Интернета может стать целенаправленное формирование специализированных корпусов текстов на жестком диске вашего компьютера. Современные средства позволяют быстро сформировать весьма обширный (несколько десятков миллионов слов) корпус текстов практически по любой тематике, и сделать это может каждый, кто владеет основными навыками работы с ПК и Интернетом. Для создания корпусов, помимо обычных браузеров, используются т.н. оффлайновые браузеры и программы докачки (download managers). Полнотекстовый поиск по накопленным материалам осуществляется с помощью специализированных программ индексации и поиска.
Преимущества специализированных корпусов:
1) Вы сами - а не поисковая система - определяете, что именно вы хотите проиндексировать. Здесь следует иметь в виду несколько моментов:
--
Индексы поисковых систем очень обширны, вас же может интересовать употребление того или иного слова в текстах строго определенного типа (американские юридические документы или английские памфлеты XVII в.)
--
Не все сайты индексируются на 100%: ограничения на глубину индексирования накладываются по разным причинам как владельцами поисковых систем, так и владельцами сайтов. Такие сайты, тем не менее, поддаются скачиванию оффлайновыми браузерами.
--
Существует феномен т.н. "невидимой Сети" (invisible Web): все большее число сайтов переходит от статического формирования вэб-страниц к динамическому и размещает всю основную информацию в базах данных. Страницы в этом случае формируются "на лету" в зависимости от запросов или "профилей" пользователей. Этот метод особенно удобен для сайтов с постоянно обновляемой информацией (новости, развлечения и т.д), однако большая часть материалов при этом становится недоступной для поисковых машин, которые в результате как бы скользят по поверхности. Такие сайты могут содержать уникальную информацию, которую вполне можно сохранить на жестком диске вручную или с помощью программы докачки.
--
Все основные поисковые системы имеют т.н. "stop lists", т.е. списки сверхчастотных слов (the, and, is, to), которые не подлежат индексации. Переводчика же зачастую интересуют особенности употребления выражений, содержащих такие служебные слова.
2) Профессиональные поисковые программы предоставляют гораздо более широкий набор функций, чем онлайновые поисковые системы: поиск с заданным интервалом между ключевыми словами, варианты интерпретации дефиса, многочисленные логические операторы и маски, "нечеткий поиск" (fuzzy search), одновременный поиск по нескольким корпусам и проч.
3) Наличие корпуса на жестком диске, естественно, не требует выхода в Интернет. Переход от одного результата поиска к другому также происходит на порядок быстрее, при этом все результаты поиска автоматически подсвечиваются.
Технические рекомендации:
1) Для формирования корпусов текстов лучше всего использовать популярный оффлайновый браузер Teleport Pro. Он позволяет создать на жестком диске компьютера точную копию какого-либо сайта для его последующего просмотра в режиме оффлайн, либо скачать с данного сайта файлы определенного типа исходя из заданных пользователем параметров. Работает автоматически и позволяет за ночь загрузить на жесткий диск несколько сотен мегабайтов данных.
2) В тех случаях, когда сайт не поддается автоматическому скачиванию, интересующие вас материалы можно загрузить вручную, используя программу докачки ReGet или ее аналоги. Программы докачки позволяют возобновлять загрузку файла после обрыва связи без потери ранее скаченной информации, запоминают адрес, с которого необходимо скачать файл, и могут проделать это автоматически в указанное вами время. Незаменимы для загрузки больших файлов или большого числа мелких файлов.
3) Для индексации и поиска информации можно рекомендовать программу dtSearch (ее полнофункциональную демо-версию можно бесплатно скачать из Интернета: www.dtsearch.com/download.html). Программа поддерживает все основные типы файлов (htm*, doc, txt (ANSI и ASCII), xls), индексирует zip-архивы с минимальной потерей скорости, может работать с любыми языками на основе латиницы, с кириллицей и греческими шрифтами. Платная версия также поддерживает формат pdf.
Источники материалов для создания корпусов:
Новостные сайты содержат самые свежие материалы на все мыслимые темы, а также архивы за последние 5-6 лет; идеально подходят для создания большого общелингвистического корпуса. Следует, однако, иметь в виду, что у многих изданий доступ к архивам платный, другие предоставляют бесплатно номера за последние 7-14 дней плюс разнообразные тематические подборки.
Англоязычные СМИ о России:
Moscow Times ежедневно, текущий номер бесплатно, архив платный.
St. Petersburg Times дважды в неделю, те же условия.
The Russia Journal еженедельно, бесплатно.
Yahoo News Russia ежедневный дайджест материалов о России в международной прессе, масса ссылок.
Russia Today новости на российскую тематику.
Инопресса перевод зарубежных статей о России на русский язык.
Бумажные и онлайнове СМИ, информационные порталы:
New York Times
The Times
Le Monde
Frankfurter Allgemeine Zeitung
Известия
Yahoo News мировые новости на основных европейских языках.
CNN
BBC News
ABCNews
E&P Media Links ссылки на 12 400 СМИ по всему миру.
SMI.RU дайджест и каталог отечественных СМИ (4700 ссылок).
Find Articles - бесплатный архив статей из 300 журналов разнообразной тематики.
Национальная служба новостей новости, интервью, аналитика.
Национальная электронная библиотека огромный электронный архив российской периодики (500 СМИ, более 6 млн. документов, доступ платный ($0,40/документ, мин. аванс $40).
|