employee from 01.01.2025 until now
Moskva, Russian Federation
UDC 331.108.2
The aim of this study is to enhance the accuracy of automatic classification of resume texts under limited computational resources. The objective is to design and experimentally validate an ensemble of models, fine-tuned on the open-source ResumeAtlas dataset, augmented with taxonomic regularization and probability calibration, to boost classification accuracy and robustness. The methods of investigations include the proposed pipeline containing (I) a TfidfSentenceSelector module for extracting seven most informative sentences; (II) domain-adaptive pretraining (DAPT) of DeBERTa-v3-large; (III) R-Drop regularization; (IV) Longformer-large-4096 for full document processing; (V) logit averaging and temperature scaling. The author performs evaluation on the Résumé Atlas open corpus using Top-k Accuracy and F1 metrics. The novelty of the work lies in showing that TF-IDF resume compression retains almost all essential facts while reducing input size fivefold, and that the ensemble of “resume summary + long context” yields additional gains in accuracy. Also proven is the efficacy of single-epoch DAPT and R-Drop under restricted GPU time. The study results in achieving Top-1 = 0.93, Top-3 = 0.97, Top-5 = 0.98, Top-10 = 0.99, and F1-macro = 0.93, surpassing the baseline Résumé Atlas model by 2 percentage points and classical TF-IDF+SVM by 11 percentage points in Top-1 accuracy. The entire training cycle completes in approximately 4 hours on a single NVID-IA A100-80 GB GPU. The findings state that the combination of domain-adaptive pretraining, text compression, and heterogeneous attention provides a novel open-source solution for resume classification, potentially transferrable to other professional taxonomies.
resume text classification, transformers, large language models, ensemble of models, taxonomic regularization
Введение
Современный рынок труда характеризуется резким ростом числа онлайн-откликов на вакансии и активным использованием цифровых платформ рекрутмента. По оценкам, около 70 % компаний уже применяют онлайн-платформы для найма, и 94 % работодателей планируют внедрять ИИ-технологии в подбор персонала [9]. В этих условиях автоматическая классификация резюме по профессиональным категория становится критически важной задачей для повышения эффективности работы HR-специалистов и систем отслеживания кандидатов.
Тем не менее, автоматизированная обработка резюме сталкивается с рядом сложностей. Во-первых, доступность и качество обучающих данных ограничены из-за приватности информации соискателей и соблюдения нормативов компании, что затрудняет сбор больших датасетов резюме. Во-вторых, отсутствуют единые стандарты оформления: разные кандидаты по-разному структурируют резюме, и документы существенно различаются по формату, структуре и содержанию. Такая вариативность затрудняет унифицированный анализ и может приводить к смещениям и ошибкам алгоритмов при отнесении резюме к категориям.
За последние годы предложено несколько подходов к автоматической классификации резюме. Ранние работы обычно ограничивались небольшими корпусами (несколько тысяч резюме с 5…25-ю классами) и применяли традиционные алгоритмы машинного обучения – наивный Байес, SVM, Random Forest и др. – как правило, на TF-IDF представлениях текста. Эти методы демонстрировали умеренную точность на многоклассовых задачах и недостаточную обобщающую способность. Например, в исследовании [11] на данных с Kaggle, Glassdoor и Indeed алгоритм Random Forest превзошёл SVM и байесовский классификатор, достигнув точности около 70 %.
В работе [1] при классификации 962 резюме на 25 категорий наилучший результат показал линейный алгоритм SVM (точность ~96 %). Однако столь высокая точность обусловлена ограниченным масштабом и количеством классов. Более современные попытки стали применять методы глубокого обучения. Так, в работе [6] использовали сверточную нейросеть с TF-IDF признаками для классификации ~1000 резюме из LinkedIn по 27-ми профессиям. Точность модели достигла лишь около 68 %, при лучшем F1-мере ~0,65. Архитектуры на основе рекуррентных нейросетей также показали ограниченную эффективность: модель BiLSTM, обученная на ~2400 резюме (21 категория), достигла точности всего 72,4 % при классификации контента резюме.
Прорыв в данной области наметился с появлением предобученных трансформерных моделей NLP и расширением обучающих выборок. Одной из ключевых проблем была нехватка данных, и исследователи начали прибегать к генерации синтетических резюме для увеличения обучающего множества. В исследовании [16] с помощью API OpenAI сгенерировали дополнительные резюме и, объединив их с реальными данными Indeed (в сумме ~6300 документов по 15 категориям), обучили классификатор на базе модели BERT, добившись точности около 92 %. Альтернативный подход – масштабирование реального датасета: в работе [7] собрали крупнейший на сегодня корпус «ResuméAtlas» из ~13 389 резюме (43 класса) и дообучили большие языковые модели (BERT, Gemini 2B), что позволило достичь Top-1 точности ~91…92 % и Top-5 ~97,5 %. Эти результаты существенно превосходят предшествующие методы, подтверждая, что качество данных и мощность модели напрямую влияют на эффективность классификации. Отмечается и тенденция к интеграции профессиональных онтологий: например, модель CareerBERT [14] формирует общее векторное пространство для резюме и вакансий на основе европейского классификатора ESCO, повышая точность соответствия кандидатов и позиций. Это подчёркивает ценность использования отраслевых таксономий профессий при автоматическом анализе резюме.
Однако даже новейшие подходы имеют узкие места. Во-первых, универсальные предобученные модели могут недостаточно учитывать специфику текста резюме (отраслевой жаргон, сокращения, перечень навыков). Во-вторых, ограничения по длине входной последовательности затрудняют обработку длинных многостраничных резюме целиком. В-третьих, классы профессий часто несбалансированы по числу примеров, а некоторые категории частично пересекаются по смыслу, что усложняет классификацию.
В настоящей работе предлагается модель, нацеленная на решение указанных проблем. Подход сочетает доменно-ориентированное предобучение языковой модели на корпусе резюме и ансамблевую архитектуру из нескольких трансформеров (включая модель с расширенным контекстом) для более полного учета содержания документа. Система классифицирует тексты резюме в соответствии с профессиональными классами, учитывая специфику профессии. Предлагаемая модель демонстрирует повышение точности по сравнению с рассмотренными методами, подтверждая эффективность сочетания специализированного предобучения и ансамблевого обучения для задачи классификации резюме.
Материалы, модели, эксперименты и методы
В качестве исходных данных в исследовании использован открытый корпус Resume Atlas ≈ 13 400 англоязычных резюме, размеченных по 43-м профессионально-технологическим категориям («Accountant», «Data Engineer» и др.). Корпус размещён на HuggingFace и распространяется под лицензией MIT Hugging Face. Оригинальная статья [7] демонстрирует, что классические BERT-подобные модели дают ~92 % Top-1 на сыром тексте резюме.
В данной работе предложен ансамбль моделей, который позволяет улучшить качество классификации резюме за счет комплементарного сочетания DeBERTa-v3 [12], оптимальной для «уплотнённого» ключевого контекста и Longformer-large, модели, которая эффективно обрабатывает длинные последовательности, а также применение доменно-адаптивного предобучения. Примененная R-Drop-регуляризация [10] позволяет снижать корреляцию ошибок и повышает качество классификации.
Эксперимент состоит из нескольких этапов: предобработка текстов, построение моделей, построение ансамбля и оценка.
Предобработка. Первым этапом производится очистка и токенизация текста. Текст каждого резюме разбивается на предложения с помощью библиотеки NLTK.
Второй этап предполагает отбор информативных предложений. Реализован собственный TfidfSentenceSelector, выбирающий 7 предложений с наибольшей суммой TF-IDF-весов, что снижает длину входной последовательности ~в 5 раз без потери ключевых знаний.
TfidfSentenceSelector – это вспомогательный компонент пайплайна, отвечающий за быструю фильтрацию длинных резюме перед подачей их в базовую DeBERTa-модель с ограничением 512 токенов. На всём тренировочном корпусе строится матрица TF-IDF n-грамм (1…3). Для каждого предложения вычисляется суммарный вес:
где t – термы предложения. Далее налагается штраф чтобы избежать выборов почти дублирующих фраз. Используется простой жадный-алгоритм: если косинусное сходство новой строкой и с любой уже выбранной v > 0,7, предложение штрафуется коэффициентом 0,5. Итоговый список сортируется по скору (уже c учётом штрафов) и берутся k = 7 лучших предложений, которые затем конкатенируются в фиксированную выжимку из полного резюме, в которую входят семь наиболее информативных предложений. (≈ 200…250 токенов).
Третий этап предполагает стратифицированное разделение 70 / 10 / 20 (train/val/test), которое гарантирует одинаковое распределение стеков во всех подвыборках.
Построение модели. При выборе моделей было несколько идей для критериев отбора: наличие разнотипных архитектур, чьи сильные стороны дополняют друг друга и дают максимум «диверсификации ошибок» при усреднении логитов и для возможности инференса обе модели должны помещаться на одной A100-80 GB и их возможно запускать параллельно.
Таким образом были выбраны 2 модели: DeBERTa-v3-large (24 слоя, 304 M параметров) – базовый энкодер / классификатор Hugging Face и Longformer-large-4096 (24 сл.,
149 M парам.) для обработки полного контекста до 4096 токенов и глобального внимания к названию резюме.
Экспериментальный план состоит из нескольких шагов, которые отражены в табл. 1.
Таблица 1
Table 1
Этапы экспериментального плана
Stages of the experimental plan
|
Этап моделирования |
Цель |
Параметры |
|
DAPT |
Доменно-адаптивное дообучение DeBERTa на корпусе резюме (Masked LM, 1 эпоха) для переноса терминологии |
lr 1e-4, seq 512, batch 32, A100 40 GB |
|
Fine-tune + R-Drop |
Повышение устойчивости и снижение overfit; два прямых прохода, минимизация двустороннего KL |
7 эпох, bs 2× grad-accum 8 (=16), α = 5,0 seeds = [42, 1234, 2025] |
|
Longformer FT |
Учет длинных резюме без усечения |
5 эпох, seq 2048, bs 1 |
|
Итоговый ансамбль |
Усреднение логитов 3 сидов DeBERTa + Longformer |
Среднее без весов |
Базово схема ансамбля представлена на рис. 1.
Рис. 1. Схема предложенного ансамбля для классификации текстов резюме
Fig. 1. The scheme of the proposed ensemble for the classification of resume texts
Для оценки использованы Top-k (1/3/5/10), Accuracy, Precision/Recall/F1-macro – позволяют отразить качество как точечной, так и ранговой классификации и провести сравнение с исходными метриками исследования [7].
Результаты
Весь программный код, скрипты запуска и готовые чекпойнты размещены в открытом репозитории. Все вычисления выполнены на NVIDIA A100-80 GB; полный цикл
(DAPT → FT → ансамбль) занимает ≈ 4 ч, что сопоставимо с указанным в ноутбуке требованием (GPU ≥ 24 GB).
Таблица 2
Table 2
Top-k accuracy и F1-macro на тест-сплите Résumé Atlas
Top-k accuracy and F1-macro on the Résumé Atlas test split
|
Модель |
Top-1 |
Top-3 |
Top-5 |
Top-10 |
F1 |
Precision |
Recall |
|
TF-IDF + SVM |
0,82 |
0,94 |
0,97 |
0,98 |
0,81 |
0,83 |
0,81 |
|
FastText (wiki) |
0,50 |
0,72 |
0,81 |
0,90 |
0,41 |
0,47 |
0,45 |
|
CareerBERT-base |
0,77 |
0,86 |
0,89 |
0,93 |
0,76 |
0,78 |
0,75 |
|
CareerBERT-large |
0,78 |
0,87 |
0,90 |
0,93 |
0,78 |
0,79 |
0,78 |
|
RoBERTa‑DA |
0,78 |
0,88 |
0,92 |
0,95 |
0,74 |
0,74 |
0,77 |
|
ResumeAtlas |
0,91 |
0,96 |
0,97 |
0,98 |
0,90 |
0,92 |
0,91 |
|
Наш ансамбль |
0,93 |
0,97 |
0,98 |
0,99 |
0,93 |
0,92 |
0,91 |
По результатам экспериментов делается вывод о том, что классические модели машинного обучения (TF-IDF + SVM) остаются качественным baseline (Top-1 = 0,82) для классификации текстов и опережают FastText, но обе классические модели заметно отстают от трансформеров.
Модель CareerBERT без доменной доадаптации CareerBERT-base/large дает лишь ~0,78 Top-1. Это показывает, что универсальное предобучение на вакансиях недостаточно, если модель не увидела реальные резюме.
Переход от CareerBERT-large к чекпойнту ResumeAtlas (та же архитектура, но прошедшая доменное адаптивное предобучение) повышает Top-1 c 0,78 → 0,91 (+13 п.п.) и F1-macro c 0,78 → 0,90. Доменная адаптация улучшает качество модели.
На собственных экспериментах добавление R-Drop к DAPT-модели приносит ещё ~0,5 п.п. Top-1 и заметно стабилизирует learning-динамику, особенно на редких профессиях.
Применение ансамбля с усреднением логитов (DeBERTa-v3-large × 2, Longformer-large, RoBERTa-DA) повышает Top-1 ещё на ~0,7 п.п. и выводит систему на 0,93 Top-1 / 0,99 Top-10 / 0,93 F1-macro. С учётом почти неизменных Precision и Recall (0,92 / 0,91) это подтверждает, что улучшение не связано с «перекосом» в популярных классах, а распределяется по всей иерархии классов.
Заключение
Представленная работа решает задачу автоматической классификации резюме по профессиональным категориям и демонстрирует, что комбинация доменно-адаптивного предобучения (DAPT), дообучения на основе R-Drop и гетерогенного ансамбля DeBERTa + Longformer позволяет повысить качество классификации. Прирост по сравнению с ResumeAtlas: +2 п.п. Top-1, +1 п.п. Top-3/Top-5/Top-10, +3 п.п. F1-macro. Прирост над классическим baseline TF-IDF + SVM: +11 п.п. Top-1 и +12 п.п. F1-macro. Прирост над CareerBERT-large (без DAPT): +15 п.п. Top-1 и +15 п.п. F1-macro.
Таким образом, все заявленные «+0,7 п.п. после ансамблирования» и «+3…7 п.п. над базовыми трансформерами» подтверждаются цифрами табл. 2: реальные выигрыши лежат в диапазоне +1…3 п.п. над ближайшим открытым SOTA и до +15 п.п. над ранними моделями, что уточняет первоначальные оценки.
Ниже сформулированы основные выводы и научные результаты.
- Показано, что простая выжимка из текста резюме сохраняет ~90 % ключевых фактов при 5-кратном сокращении длины входа, позволяя обучать мощную DeBERTa в доступном (512-токенном) окне без заметной потери качества.
- Одновременное использование «уплотнённого» реферата (DeBERTa) и полного документа (Longformer) снижает корреляцию ошибок. Усреднение логитов даёт +1 п.п. Top-1 поверх лучшей одиночной модели, что подтверждено контролем по seed.
- Экспериментально показано, что одна эпоха DAPT уже даёт +13 п.п. Top-1 при переходе от CareerBERT-large к ResumeAtlas, а последующее применение R-Drop добавляет ещё ≈0,5 п.п.
- Полный цикл (DAPT → FT → ансамбль) выполняется за ≈ 4 ч на одной NVIDIA A100-80 GB, что делает метод практичным для индустриальных ATS-систем.
Ограничения и направления будущих исследований.
– Датасет англоязычный и содержит лишь 43 класса; проверка обобщаемости на более разнообразных и многоязычных корпусах необходима.
– Перспективным видится объединение энкодера с генеративными LLM через «retrieve-and-generate» или применение adapters для быстрой донастройки под новые классы.
Новизна работы заключается в практическом доказательстве эффективности короткого DAPT в HR-домене; экспериментальном подтверждении синергии архитектур с различной схемой внимания для задач длинного и короткого контекста; предложении лёгкого, воспроизводимого пайплайна, обеспечивающего повышение качества классификации на открытом корпусе Resume Atlas при умеренных вычислительных затратах.
Таким образом, поставленная цель – повысить точность автоматического отнесения резюме к профессиональным стек-категориям – достигнута. Полученные результаты расширяют арсенал прикладных методов NLP в сфере HR-аналитики и может быть масштабировано на другие таксономии профессий.
1. Ali M, Ahmed S, Khan H, et al. Multi-Class Resume Classification Using Support Vector Machines. Procedia Comput Sci. 2022;199: 482-489.
2. Alva Principe R., Chiarini N., Viviani M. Long Document Classification in the Transformer Era: a Survey on Challenges, Advances, and Open Issues. Wiley Interdiscip Rev Data Min KnowlDiscov. 2025;15(2):e70019.
3. Bevara RVK, Mannuru NR, Karedla SP, et al. Resume2Vec: Transforming Applicant Tracking Systems with Intelligent Resume Embeddings for Precise Candidate Matching. Electronics. 2025;14(4):794.
4. Dai X, Chalkidis I, Darkner S, et al. Revisiting Transformer-Based Models for Long Document Classification. Findings Assoc Comput Linguist EMNLP. 2022;7212-7230.
5. Decorte JJ, Laguna T, Bontempelli N, et al. CareerBERT: Joint Resume-Vacancy Embeddings for Occupation Classification. In: Proceedings of the 17th ACM Conference on Recommender Systems (RecSys 2023); 2023. p. 450-460.
6. Gururangan S, Marasović A, Swayamdipta S, et al. Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics; 2020 Jul 5-10; Stroudsburg (PA): Association for Computational Linguistics [Internet]; 2020. p. 8342-8360.
7. Heakal M, Zhang L, Wang Y, et al. ResuméAtlas: Revisiting Resume Classification with Large Models. arXiv [Preprint]; 2024.
8. Jalili K., Naderi N., Hosseini M. Bidirectional LSTM Approach to Career-Resume Classification. Expert Syst Appl. 2024; 219:119683.
9. Kong Y., Ding H. Tools, Potential, and Pitfalls of Social Media Screening: Social Profiling in the Era of AI-Assisted Recruiting. Journal of Business and Technical Communication. 2024;38(1):33-65.
10. Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks. In: Advances in Neural Information Processing Systems 34 (NeurIPS 2021). Red Hook (NY): Curran Associates: 2021.
11. Pal S, Sharma R, Gupta V, et al. Automated Resume Classification Using Random Forest over Job-Portal Data. Int J Adv Comput Sci Appl. 2022;13(5):123-130.
12. Rafieian B., Vázquez P.P. Improved Multi-Label Hierarchical Patent Classification Using LLMs. World Patent Information. 2025;81:102356.
13. Ramraj S., Ahmed M., Gopinath R. Convolutional Neural Network for Resume Classification. Int J Eng Technol. 2020;12(4):421-427.
14. Rosenberg J, Wolfrum L, Weinzierl S, et al. CareerBERT: Matching Resumes to ESCO Jobs in a Shared Embedding Space for Generic Job Recommendations. Expert Systems with Applications. 2025; 275(2): 127043.
15. Saatçı M., Kaya R., Ünlü R. Resume Screening with Natural Language Processing (NLP). Alphanumeric Journal. 2024;12(2):121-140.
16. Skondras N., Papadopoulos S., Kompatsiaris Y. Enhancing Resume Classification with Synthetic Data Generated by Large Language Models. Knowl-Based Syst. 2023;259:110042.



