СжатиеОбзор по классификации и разметки с использованием методов сжатия данных
Утилиты для анализа и преобразования текста (TACU)Этот пакет TACU (Text Analysis and Conversion Utilities) из шести программ, представляется мне базовым при анализе больших текстовых коллекций на предмет:
нахождения повторений текстов (duplicator),
подсчёта перекрёстной энтропии и индекса повторяемости для классификации (cross-entropy),
генерации случайного текста по заданному модельному тексту (generator),
построение суффиксного массива - (suffsort),
обратимое преобразование текста - (trised),
нахождения и навигации через перекрёстные цитаты - (xcitata).