インターンの方でWebスクレイピングが必要になったので、お勉強。
このHTML中の
<tr class="gift" id="gift1"><td> <tr class="gift" id="gift2"><td> <tr class="gift" id="gift3"><td> <tr class="gift" id="gift4"><td> <tr class="gift" id="gift5"><td>をとってきたいんだけど、
from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html") bsObj = BeautifulSoup(html, "html.parser") for sibling in bsObj.find("table").tr.next_sibilings: print(sibling)でとってこれて、
from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page3.html") bsObj = BeautifulSoup(html, "html.parser") for sibling in bsObj.find("tbody").tr.next_sibilings: print(sibling)
でとってこれないのがなんでかわからない。
AttributeError: 'NoneType' object has no attribute 'tr'エラーから考えると
tbody
はタグとして認識されてない(?)ぽい