{"id":376,"date":"2011-08-30T06:36:49","date_gmt":"2011-08-30T05:36:49","guid":{"rendered":"http:\/\/www.webmaid.de\/?p=376"},"modified":"2011-08-30T06:39:36","modified_gmt":"2011-08-30T05:39:36","slug":"html-in-java-verarbeiten","status":"publish","type":"post","link":"https:\/\/www.webmaid.de\/2011\/08\/html-in-java-verarbeiten\/","title":{"rendered":"HTML in Java verarbeiten"},"content":{"rendered":"
HTML ist ja leider kein XML und so gibt es immer wieder Probleme, wenn man versucht eine HTML-Seite aus der realen Welt zu verarbeiten; dabei klappt es mit dem DOM in einem Browser doch ganz gut, nur ist der Browser darauf spezialisiert die realen Seiten zu parsen. In Java \u00fcbernimmt dies z.B. jsoup Um z.B. alle Links eines HTML-Dokuments \u00fcber den DOM-Weg zu erhalten reichen die folgenden Zeile Java-Code:<\/p>\n Eine weitere M\u00f6glichkeit w\u00e4re (mittels CSS\/Jquery Selector):<\/p>\n
\n
\njsoup: Java HTML Parser<\/a> versucht s\u00e4mtliche Seiten zu parsen, um die Bestandteile dann mittels DOM und jquery zur Weiterverarbeitung anzubieten. <\/p>\n\r\nDocument doc = Jsoup.parse(html);\r\nElements links = content.getElementsByTag(\"a\");\r\nfor (Element link : links) {\r\n String linkHref = link.attr(\"href\");\r\n String linkText = link.text();\r\n}\r\n<\/pre>\n
\r\nDocument doc = Jsoup.parse(html);\r\nElements links = doc.select(\"a[href]\"); \/\/ a with href\r\n<\/pre>\n