[PDFBOX-3867] IndexOutOfBoundsException on CMapParser - ASF JIRA

XML

Word

Printable

JSON

Details

Type: Bug
Status: Closed
Priority: Major
Resolution: Fixed
Affects Version/s: 2.0.6
Fix Version/s: 2.0.7, 3.0.0 PDFBox
Component/s: FontBox, Text extraction
Labels:
None

Description

I got the next stacktrace in PDF->HTML conversion using Tika:

java.lang.IndexOutOfBoundsException: Index: 0, Size: 0
	at java.util.ArrayList.rangeCheck(ArrayList.java:635)
	at java.util.ArrayList.get(ArrayList.java:411)
	at org.apache.fontbox.cmap.CMapParser.parseBeginbfrange(CMapParser.java:364)
	at org.apache.fontbox.cmap.CMapParser.parse(CMapParser.java:136)
	at org.apache.pdfbox.pdmodel.font.CMapManager.parseCMap(CMapManager.java:73)
	at org.apache.pdfbox.pdmodel.font.PDFont.readCMap(PDFont.java:197)
	at org.apache.pdfbox.pdmodel.font.PDFont.<init>(PDFont.java:137)
	at org.apache.pdfbox.pdmodel.font.PDType0Font.<init>(PDType0Font.java:119)
	at org.apache.pdfbox.pdmodel.font.PDFontFactory.createFont(PDFontFactory.java:83)
	at org.apache.pdfbox.pdmodel.PDResources.getFont(PDResources.java:143)
	at org.apache.pdfbox.contentstream.operator.text.SetFontAndSize.process(SetFontAndSize.java:60)
	at org.apache.pdfbox.contentstream.PDFStreamEngine.processOperator(PDFStreamEngine.java:838)
	at org.apache.pdfbox.contentstream.PDFStreamEngine.processStreamOperators(PDFStreamEngine.java:495)
	at org.apache.pdfbox.contentstream.PDFStreamEngine.processStream(PDFStreamEngine.java:469)
	at org.apache.pdfbox.contentstream.PDFStreamEngine.processPage(PDFStreamEngine.java:150)
	at org.apache.pdfbox.text.LegacyPDFStreamEngine.processPage(LegacyPDFStreamEngine.java:139)
	at org.apache.pdfbox.text.PDFTextStripper.processPage(PDFTextStripper.java:391)
	at org.apache.tika.parser.pdf.PDF2XHTML.processPage(PDF2XHTML.java:147)
	at org.apache.pdfbox.text.PDFTextStripper.processPages(PDFTextStripper.java:319)
	at org.apache.pdfbox.text.PDFTextStripper.writeText(PDFTextStripper.java:266)
	at org.apache.tika.parser.pdf.PDF2XHTML.process(PDF2XHTML.java:117)
	at org.apache.tika.parser.pdf.PDFParser.parse(PDFParser.java:159)
	at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)

Attachments

Activity

People

Assignee:: Tilman Hausherr

Reporter:: Jorge Spinsanti

Votes:: 0 Vote for this issue

Watchers:: 3 Start watching this issue

Dates

Created:: 13/Jul/17 17:00

Updated:: 21/Jul/17 04:40

Resolved:: 16/Jul/17 19:47