Ho ricevuto un errore di dimensione dell'heap java durante il tentativo di raggruppare 15980 documenti tramite carot2workbench

Il tuo sospetto è corretto, è un problema di dimensione dell'heap o, più precisamente, un vincolo di scalabilità. Direttamente dalle domande frequenti su carot2:https://project.carrot2.org/faq.html#scalability

In che modo il clustering Carrot2 scala rispetto al numero e alla lunghezza dei documenti? La caratteristica più importante degli algoritmi di Carrot2 da tenere a mente è che eseguono il clustering in memoria. Per questo motivo, come regola generale, Carrot2 dovrebbe gestire con successo fino a un migliaio di documenti, di pochi paragrafi ciascuno. Per algoritmi progettati per elaborare milioni di documenti, potresti voler dare un'occhiata al progetto Mahout.

Uno sviluppatore ha pubblicato un post su questo anche qui:https://stackoverflow.com/a/28991477

Sebbene gli sviluppatori raccomandino Mahout, e questa è probabilmente la strada da percorrere poiché non saresti vincolato dai vincoli di clustering in memoria come in carot2, tuttavia potrebbero esserci altre possibilità:

Se ti piace davvero carot2 ma non hai necessariamente bisogno di k-mean, puoi dare un'occhiata al Lingo3G commerciale, basato sul campo "Time of clustering 100000 snippets [s]" e il commento (***) su https://carrotsearch.com/lingo3g-comparison dovrebbe essere in grado di affrontare più documenti. Controlla anche la loro voce FAQ su "Qual è il numero massimo di documenti che Lingo3G può raggruppare?" su https://carrotsearch.com/lingo3g-faq
Prova a ridurre al minimo la dimensione delle tue etichette su cui k-means sta eseguendo il clustering. Invece di raggruppare su tutto il contenuto dei documenti, provare a raggruppare sull'abstract/riassunto o estrarre parole chiave importanti e raggrupparle su di esse.