Частотный анализ словоформ: различия между версиями
Vperlin (обсуждение | вклад) (Новая страница: «== Условие задачи == В текстовом файле записан текст на русском языке, в котором могут встречаться иностранные слова, записанные латинскими буквами. Длина текста может быть сколь угодно велика. Вывести, какая словоформа в тексте сколько раз встречается...») |
Vperlin (обсуждение | вклад) |
||
Строка 6: | Строка 6: | ||
Вывести, какая словоформа в тексте сколько раз встречается. | Вывести, какая словоформа в тексте сколько раз встречается. | ||
Буквами считаются только буквы русского и латинского алфавита. Пробелы и знаки препинания учитывать не следует. | Буквами считаются только буквы русского и латинского алфавита. Пробелы и знаки препинания учитывать не следует. | ||
Вывести результат следует в текстовый файл с кодировкой UTF-8, независимо от кодировки исходного файла. В каждой строке полученного файла должно быть выведена слово форма и количество раз, которые она встречается в тексте, разделенные пробелом. Например: | |||
<syntaxhighlight lang="plain"> | |||
война 34 | |||
мир 12 | |||
безухов 678 | |||
</syntaxhighlight> | |||
== Указания к решению задачи == | == Указания к решению задачи == |
Версия 10:19, 16 февраля 2023
Условие задачи
В текстовом файле записан текст на русском языке, в котором могут встречаться иностранные слова, записанные латинскими буквами. Длина текста может быть сколь угодно велика.
Вывести, какая словоформа в тексте сколько раз встречается. Буквами считаются только буквы русского и латинского алфавита. Пробелы и знаки препинания учитывать не следует.
Вывести результат следует в текстовый файл с кодировкой UTF-8, независимо от кодировки исходного файла. В каждой строке полученного файла должно быть выведена слово форма и количество раз, которые она встречается в тексте, разделенные пробелом. Например:
война 34
мир 12
безухов 678
Указания к решению задачи
Словоформой считается всякая последовательность букв, состоящая только из русских или только из латинских букв. При этом строчные и прописные буквы не различаются (считаются за одну букву), даже если это противоречит правилам грамматики.
"Слова", записанные русскими и латинскими буквами вперемешку, а также "слова", содержащие цифры, учитывать не следует.
Следует учесть, что дефис может являться частью словоформы: "кое-кто", "далеко-далеко" и тому подобное. Дефис следует отличать от тире по тому признаку, что справа и слева от него не может быть пробелов и иных знаков препинания.